分箱做法

分箱做法通常包括以下几种方法:

等深分箱法

也称为统一权重法,将数据集按记录行数分箱,每箱具有相同的记录数,称为箱子的深度。

等宽分箱法

也称为统一区间法,使数据集在整个属性值的区间上平均分布,每个箱的区间范围是一个常量,称为箱子宽度。

最小熵法

在分箱时考虑因变量的取值,使得分箱后达到最小熵,即最大限度地区分因变量的各类别。

用户自定义区间法

根据用户定义的区间进行分箱,适用于特定需求的情况。

无监督分箱

包括等距分箱和等频分箱。

等距分箱:将变量的取值范围分为k个等宽的区间,每个区间当作一个分箱。例如,年龄数据可以分箱为(20,24], (24,28], (28,32], (32,36], (36,40]。

等频分箱:把观测值按照从小到大的顺序排列,根据观测的个数等分为k部分,每部分当作一个分箱。例如,将1000个观测值等分为10个分箱,则每个分箱包含100个观测值。

有监督分箱