归一化:
以归一化的方法将有量纲的数据转换成无量纲的数据表达。
简单点说,例如考虑人的身高和体重,如果身高以米为单位,则比以厘米为单位的方差要小得多,这样与体重的方差进行对比时,由于取的单位不同,所以无法进行对比。数据归一化后,例如归一化到(0,1)区间,则身高和体重的取值都在这个区间内,则身高和体重的均值、方差等量才可以比较。常用的方法有基于线性映射的最小最大值归一化(min-max normalization)以及基于统计特性的Z-score等方法。
你说的这个是数据离散化(data discretization),是数据规约(data reduction)的一种方式。例如要对一个数据库中的人的收入进行统计,由于收入可能精确到分,所以导致这个维度的取值过于离散,这样计算该属性的统计量就变得计算复杂了,数据离散化可以在不影响精度的情形下极大减少复杂度。最常用的方法是分箱(binning),即把一个取值区间看成一个箱子,例如(100,150)看成一个箱子的话,则所有收入在(100,150)里的都会落入这个箱子。数据转换的方法可以有最小值法、中值法等等,例如你说的就是最小值法,此时所有落入箱子的值会被转换为100,若是平均值法,则所有(100,150)间的值都会被转换为125了。
希望对你有所帮助。