КДД вс Ископавање података
КДД (Откривање знања у базама података) је поље рачунарске науке, које укључује алате и теорије за помоћ људима у извлачењу корисних и до сада непознатих информација (тј. Знања) из велике збирке дигитализованих података. КДД се састоји од неколико корака, а Дата Мининг је један од њих. Дата Мининг је примјена одређеног алгоритма како би се извукли обрасци из података. Ипак, КДД и Дата Мининг се користе наизменично.
Шта је КДД?
Као што је горе поменуто, КДД је област рачунарске науке која се бави вађењем до сада непознатих и занимљивих података из сирових података. КДД је читав процес покушаја проналажења смисла за податке развијањем одговарајућих метода или техника. Овај процес се бави мапирањем података ниског нивоа у друге облике који су компактнији, апстрактнији и кориснији. То се постиже стварањем кратких извештаја, моделирањем процеса генерисања података и развојем предиктивних модела који могу предвидјети будуће случајеве. Због експоненцијалног раста података, посебно у областима као што је пословање, КДД је постао веома важан процес претварања овог великог богатства података у пословну интелигенцију, јер је ручно вађење образаца наизглед било немогуће у последњих неколико деценија. На пример, тренутно се користи за разне апликације као што су анализа друштвених мрежа, откривање преваре, наука, инвестиције, производња, телекомуникације, чишћење података, спорт, проналажење информација и у великој мери за маркетинг. КДД се обично користи за одговор на питања попут који су главни производи који би могли да помогну у остваривању високог профита следеће године у Вал-Марту ?. Овај поступак има неколико корака. Све започиње развијањем разумевања домене апликације и циља, а затим креирањем циљног скупа података. Након тога слиједи чишћење, предобрада, смањење и пројекција података. Следећи корак је коришћење Дата Мининг-а (објашњено у даљем тексту) за идентификацију обрасца. Коначно, откривено знање се учвршћује визуелизацијом и / или интерпретацијом.
Шта је Мининг Мининг?
Као што је већ споменуто, Рударство података је само корак у цјелокупном КДД процесу. Постоје два главна циља Дата Мининг-а како је дефинисано циљем апликације, а то су верификација или откривање. Верификација верификује хипотезу корисника о подацима, док откривање аутоматски проналази занимљиве обрасце. Постоје четири главна задатка за ископавање података: групирање, класификација, регресија и удруживање (резимирање). Кластерирање идентификује сличне групе из неструктурираних података. Класификација је правила учења која се могу применити на нове податке. Регресија је проналажење функција са минималном грешком за моделирање података. А асоцијација тражи односе између променљивих. Затим треба изабрати одређени алгоритам за вађење података. У зависности од циља, могу се одабрати различити алгоритми попут линеарне регресије, логистичке регресије, стабла одлука и Наиве Баиес-а. Затим се претражују обрасци интересовања за један или више репрезентативних облика. Коначно, модели се оцењују или помоћу предиктивне тачности или разумљивости.
Која је разлика између КДД и Дата мининг-а?
Иако се два термина КДД и Дата Мининг често користе наизменично, односе се на два повезана, али помало различита концепта. КДД је свеукупни процес вађења знања из података, док је Дата Мининг корак унутар КДД процеса, који се бави препознавањем образаца у подацима. Другим речима, Дата Мининг је само примена одређеног алгоритма заснованог на укупном циљу КДД процеса.