Нормализацията е полезна когато вашите данни имат различни мащаби и алгоритъмът, който използвате, не прави предположения за разпределението на вашите данни, като k-най-близки съседи и изкуствени нервни мрежи. Стандартизацията предполага, че вашите данни имат гаусово (камбанова крива) разпределение.
Кога трябва да нормализираме данните?
Данните трябва да бъдат нормализирани или стандартизирани за да се приведат всички променливи в пропорция една с друга. Например, ако една променлива е 100 пъти по-голяма от друга (средно), тогава вашият модел може да се държи по-добре, ако нормализирате/стандартизирате двете променливи, за да бъдат приблизително еквивалентни.
Каква е разликата между нормализиране и стандартизиране?
Нормализация обикновено означава мащабиране на стойностите в диапазон от [0, 1]. Стандартизацията обикновено означава повторно мащабиране на данните, за да имат средно 0 и стандартно отклонение от 1 (единична дисперсия).
Кога и защо се нуждаем от нормализиране на данните?
По-просто казано, нормализирането гарантира, че всичките ви данни изглеждат и се четат по един и същи начин във всички записи. Нормализирането ще стандартизира полета, включително имена на компании, имена за контакти, URL адреси, информация за адреси (улици, щати и градове), телефонни номера и длъжности.
Как избирате нормализиране и стандартизиране?
В света на бизнеса "нормализиране" обикновено означава, че диапазонът от стойности е"нормализирано да бъде от 0.0 до 1.0". „Стандартизация“обикновено означава, че диапазонът от стойности е „стандартизиран“, за да се измери колко стандартни отклонения е стойността от нейната средна стойност.