Mali by sme údaje pred zhlukovaním normalizovať?

Mali by sme údaje pred zhlukovaním normalizovať?
Mali by sme údaje pred zhlukovaním normalizovať?
Anonim

Normalizácia sa používa na elimináciu nadbytočných údajov a zaisťuje generovanie zhlukov dobrej kvality, ktoré môžu zlepšiť efektivitu zhlukovacích algoritmov. Stáva sa teda základným krokom pred zhlukovaním ako euklidovská vzdialenosť je veľmi citlivý na zmeny v rozdieloch[3].

Potrebujeme normalizovať údaje pre klastrovanie K-means?

Rovnako ako v metóde k-NN, charakteristiky použité na zhlukovanie musia byť merané v porovnateľných jednotkách. V tomto prípade jednotky nie sú problémom, pretože všetkých 6 charakteristík je vyjadrených na 5-bodovej stupnici. Normalizácia alebo štandardizácia nie je potrebná.

Ako pripravujete údaje pred zhlukovaním?

Príprava údajov

Na vykonanie zhlukovej analýzy v R by sa mali údaje vo všeobecnosti pripraviť takto: Riadky sú pozorovania (jednotlivci) a stĺpce sú premenné. Akákoľvek chýbajúca hodnota v údajoch sa musí odstrániť alebo odhadnúť. Údaje musia byť štandardizované (t.j. škálované), aby boli premenné porovnateľné.

Mali by sa údaje škálovať na zoskupovanie?

Pri zoskupovaní vypočítate podobnosť medzi dvoma príkladmi tak, že skombinujete všetky údaje o vlastnostiach pre tieto príklady do číselnej hodnoty. Kombinovanie údajov funkcií vyžaduje, aby mali údaje rovnakú mierku.

Prečo je dôležité normalizovať funkcie pred zhlukovaním?

Štandardizácia je dôležitým krokom Datapredspracovanie.

Ako je vysvetlené v tomto článku, k-means minimalizuje chybovú funkciu pomocou Newtonovho algoritmu, t.j. optimalizačného algoritmu založeného na gradiente. Normalizácia údajov zlepšuje konvergenciu takýchto algoritmov.

Odporúča: