Хијерархијско вс делимично кластерирање
Кластерирање је техника машинског учења за анализу података и поделу у групе сличних података. Ове групе или скупови сличних података познати су као кластери. Анализа кластера разматра алгоритме кластера који могу препознати кластере аутоматски. Хијерархијске и парцијалне су две такве класе алгоритама групирања. Хијерархијски алгоритми кластерирања раздвајају податке у хијерархију кластера. Дјеломични алгоритми дијеле скуп података на партиције које се међусобно раздвајају.
Шта је хијерархијско кластерирање?
Хијерархијски алгоритми кластерирања понављају циклус било спајања мањих кластера у веће или дељења већих кластера на мање. Било како било, то ствара хијерархију кластера која се зове дендограм. Стратегија агломеративног кластерирања користи приступ одоздо према горе спајањем кластера у веће, док стратегија раздјељивања кластера користи приступ цијепању одоздо на доље на мање. Типично се похлепни приступ користи за одлучивање који се већи / мањи кластери користе за спајање / дељење. Еуклидска удаљеност, удаљеност Манхаттана и косинусна сличност неке су од најчешће кориштених метрика сличности за нумеричке податке. За не нумеричке податке користе се метрике попут Хамминг дистанце. Важно је напоменути да стварна запажања (случајеви) нису потребна за хијерархијско групирање, јер је довољна само матрица удаљености. Дендограм је визуелни приказ кластера, који врло јасно приказује хијерархију. Корисник може добити различито групирање у зависности од нивоа на којем је дендограм исечен.
Шта је делимично кластерирање?
Алгоритми за парцијално кластерирање генеришу различите партиције и затим их процењују по неком критеријуму. Они се такође називају нехиерархијски јер се свака инстанца поставља у тачно један од к међусобно искључивих кластера. Пошто је само један скуп кластера излаз типичног алгоритма за партиционирање кластера, од корисника се тражи да унесе жељени број кластера (који се обично називају к). Један од најчешће коришћених алгоритама делимичног кластерирања је алгоритам кластера к-средстава. Корисник је дужан да обезбеди број кластера (к) пре покретања и алгоритам прво покреће центре (или центроиде) к партиција. Укратко, к-значи алгоритам кластерирања затим додељује чланове на основу тренутних центара и поново процењује центре на основу тренутних чланова. Ова два корака се понављају док се не оптимизирају одређене циљне функције сличности унутар кластера и циљне функције нескладности међу кластерима. Стога је разумна иницијализација центара врло важан фактор за добијање квалитетних резултата из алгоритама делимичног кластерирања.
Која је разлика између хијерархијског и делимичног кластерирања?
Хијерархијско и делимично кластерирање имају кључне разлике у времену рада, претпоставкама, улазним параметрима и резултирајућим кластерима. Обично је делимично кластерирање брже од хијерархијског кластерирања. Хијерархијско кластерирање захтева само меру сличности, док делимично кластерирање захтева јаче претпоставке као што су број кластера и почетни центри. Хијерархијско кластерирање не захтева никакве улазне параметре, док алгоритми за делимично кластерирање требају да се покрене број кластера. Хијерархијско кластерирање враћа много смисленију и субјективнију поделу кластера, али делимично кластерирање резултира тачно к кластерима. Хијерархијски алгоритми кластерирања су погоднији за категоричке податке све док се мера сличности може у складу са тим дефинисати.