-
Notifications
You must be signed in to change notification settings - Fork 2
Home
HUANG SIZHE edited this page Apr 17, 2018
·
2 revisions
本项目主要是做对连续数据的分箱操作,会包含
- 等宽分箱
将变量的取值范围分为k个等宽的区间,每个区间当作一个分箱。
-
等频分箱
把观测值按照从小到大的顺序排列,根据观测的个数等分为k部分,每部分当作一个分箱,例如,数值最小的1/k比例的观测形成第一个分箱,等等。
-
基于k均值聚类的分箱
使用第五章将介绍的k均值聚类法将观测值聚为k类,但在聚类过程中需要保证分箱的有序性:第一个分箱中所有观测值都要小于第二个分箱中的观测值,第二个分箱中所有观测值都要小于第三个分箱中的观测值,等等。
-
最小熵分箱
分箱使系统熵值最小
-
卡方分箱
依赖于卡方检验:具有最小卡方值的相邻区间合并在一起,直到满足确定的停止准则.
项目使用python,后面会改为cython.