数学小白问个数据问题，请大侠指教数据归一化处理概念，谢谢！

2024-11-25 10:56:52

推荐回答（1个）

回答1：

归一化：
以归一化的方法将有量纲的数据转换成无量纲的数据表达。

简单点说，例如考虑人的身高和体重，如果身高以米为单位，则比以厘米为单位的方差要小得多，这样与体重的方差进行对比时，由于取的单位不同，所以无法进行对比。数据归一化后，例如归一化到(0,1)区间，则身高和体重的取值都在这个区间内，则身高和体重的均值、方差等量才可以比较。常用的方法有基于线性映射的最小最大值归一化(min-max normalization)以及基于统计特性的Z-score等方法。

你说的这个是数据离散化(data discretization)，是数据规约(data reduction)的一种方式。例如要对一个数据库中的人的收入进行统计，由于收入可能精确到分，所以导致这个维度的取值过于离散，这样计算该属性的统计量就变得计算复杂了，数据离散化可以在不影响精度的情形下极大减少复杂度。最常用的方法是分箱(binning)，即把一个取值区间看成一个箱子，例如(100,150)看成一个箱子的话，则所有收入在(100,150)里的都会落入这个箱子。数据转换的方法可以有最小值法、中值法等等，例如你说的就是最小值法，此时所有落入箱子的值会被转换为100，若是平均值法，则所有(100,150)间的值都会被转换为125了。

希望对你有所帮助。