Дата мининг вс складиштење података
Рударство података и складиштење података су веома моћне и популарне технике за анализу података. Корисници склони статистикама користе Дата Мининг. Они користе статистичке моделе за тражење скривених образаца у подацима. Рудари података су заинтересовани да пронађу корисне односе између различитих елемената података, што је на крају исплативо за предузећа. Али са друге стране, стручњаци за податке који могу анализирати димензије пословања директно користе складишта података.
Ископавање података познато је и као Откривање знања у подацима (КДД). Као што је већ поменуто, то је област рачунарске науке, која се бави извлачењем до сада непознатих и занимљивих података из сирових података. Због експоненцијалног раста података, посебно у областима као што је пословање, вађење података је постало веома важно средство за претварање овог великог богатства података у пословну интелигенцију, јер је ручно вађење образаца наизглед било немогуће у последњих неколико деценија. На пример, тренутно се користи за разне апликације као што су анализа друштвених мрежа, откривање преваре и маркетинг. Ископавање података обично се бави следећа четири задатка: групирање, класификација, регресија и удруживање. Кластерирање идентификује сличне групе из неструктурираних података. Класификација је правила учења која се могу применити на нове податке и обично укључују следеће кораке: претходна обрада података, дизајнирање модела, избор учења / избора карактеристика и процена / валидација. Регресија је проналажење функција са минималном грешком за моделирање података. А асоцијација тражи односе између променљивих. Ископавање података обично се користи за одговор на питања попут који су главни производи који би могли да помогну у остваривању високог профита следеће године у Вал-Марту?
Као што је већ споменуто, Складиштење података се такође користи за анализу података, али различитих група корисника и нешто другачији циљ на уму. На пример, када је реч о сектору малопродаје, корисници складишта података се више брину о томе које су врсте куповине популарне међу купцима, па резултати анализе могу помоћи купцу побољшавањем корисничког искуства. Међутим, Дата рудари прво претпостављају хипотезу као што су купци који купују одређену врсту производа и анализирају податке да би тестирали хипотезу. Складиштење података могао би да обави главни трговац који у почетку своје продавнице складишти истим величинама производа да би касније открио да Нев Иорк продаваонице мање величине много брже него у продавницама у Чикагу. Дакле, гледајући овај резултат, трговац може да складишти њујоршку продавницу мањих димензија у поређењу с продавницама у Чикагу.
Као што јасно можете видети, ове две врсте анализа су голим оком исте природе. Обоје брину због повећања профита на основу историјских података. Али наравно, постоје кључне разлике. Једноставно речено, Дата Мининг и Складиштење података намењени су опремању различитих врста аналитике, али дефинитивно за различите типове корисника. Другим речима, Дата Мининг тражи корелације, дијаграме да би подржао статистичку хипотезу. Али, складиштење података одговара на релативно шире питање и од њега сече и реже податке да би се препознали начини побољшања у будућности.