Normalizácia je užitočná keď majú vaše údaje rôzne mierky a algoritmus, ktorý používate, nevytvára predpoklady o distribúcii vašich údajov, ako napríklad k-najbližší susedia a umelé neurálne siete. Štandardizácia predpokladá, že vaše údaje majú gaussovské (zvončeková krivka) rozdelenie.
Kedy by sme mali normalizovať údaje?
Údaje by mali byť normalizované alebo štandardizované aby boli všetky premenné navzájom proporcionálne. Ak je napríklad jedna premenná 100-krát väčšia ako druhá (v priemere), váš model sa môže správať lepšie, ak tieto dve premenné znormalizujete/štandardizujete tak, aby boli približne ekvivalentné.
Aký je rozdiel medzi normalizáciou a štandardizáciou?
Normalizácia zvyčajne znamená zmenu stupnice hodnôt do rozsahu [0, 1]. Štandardizácia zvyčajne znamená zmenu stupnice údajov tak, aby mali priemer 0 a štandardnú odchýlku 1 (jednotkový rozptyl).
Kedy a prečo potrebujeme normalizáciu údajov?
Jednoduchšie povedané, normalizácia zaisťuje, že všetky vaše údaje vyzerajú a čítajú sa vo všetkých záznamoch rovnako. Normalizácia štandardizuje polia vrátane názvov spoločností, kontaktných mien, adries URL, informácií o adrese (ulice, štáty a mestá), telefónnych čísiel a pracovných názvov.
Ako si vyberáte normalizáciu a štandardizáciu?
V obchodnom svete „normalizácia“zvyčajne znamená, že rozsah hodnôt je"normalizované na hodnotu od 0,0 do 1,0". „Štandardizácia“zvyčajne znamená, že rozsah hodnôt je „štandardizovaný“na meranie toho, koľko štandardných odchýlok má hodnota od svojho priemeru.