分箱做法
分箱做法通常包括以下几种方法:
等深分箱法
也称为统一权重法,将数据集按记录行数分箱,每箱具有相同的记录数,称为箱子的深度。
等宽分箱法
也称为统一区间法,使数据集在整个属性值的区间上平均分布,每个箱的区间范围是一个常量,称为箱子宽度。
最小熵法
在分箱时考虑因变量的取值,使得分箱后达到最小熵,即最大限度地区分因变量的各类别。
用户自定义区间法
根据用户定义的区间进行分箱,适用于特定需求的情况。
无监督分箱
包括等距分箱和等频分箱。
等距分箱:将变量的取值范围分为k个等宽的区间,每个区间当作一个分箱。例如,年龄数据可以分箱为(20,24], (24,28], (28,32], (32,36], (36,40]。
等频分箱:把观测值按照从小到大的顺序排列,根据观测的个数等分为k部分,每部分当作一个分箱。例如,将1000个观测值等分为10个分箱,则每个分箱包含100个观测值。