Нормализацията се използва за елиминиране на излишни данни и гарантира, че се генерират клъстери с добро качество, което може да подобри ефективността на алгоритмите за клъстериране. Така че става съществена стъпка преди групирането като евклидово разстояние е много чувствителен към промените в разликите[3].
Трябва ли да нормализираме данните за групирането на K-средни?
Както при метода k-NN, характеристиките, използвани за групиране, трябва да се измерват в сравними единици. В този случай единиците не са проблем, тъй като всичките 6 характеристики са изразени по 5-степенна скала. Нормализация или стандартизация не е необходима.
Как подготвяте данни преди групиране?
Подготовка на данни
За извършване на клъстерен анализ в R, обикновено данните трябва да бъдат подготвени, както следва: Редовете са наблюдения (индивидуални), а колоните са променливи. Всяка липсваща стойност в данните трябва да бъде премахната или оценена. Данните трябва да бъдат стандартизирани (т.е., мащабирани), за да направят променливите сравними.
Трябва ли данните да се мащабират за групиране?
При групиране вие изчислявате сходството между два примера, като комбинирате всички данни за характеристиките за тези примери в числова стойност. Комбинирането на данни за характеристики изисква данните да имат еднакъв мащаб.
Защо е важно да се нормализират функциите преди групирането?
Стандартизацията е важна стъпка на даннитепредварителна обработка.
Както е обяснено в тази статия, k-средните минимизират функцията за грешка, използвайки алгоритъма на Нютон, т.е. алгоритъм за оптимизация, базиран на градиент. Нормализирането на данните подобрява конвергенцията на такива алгоритми.