Skip to content
HUANG SIZHE edited this page Apr 17, 2018 · 2 revisions

binningpy

本项目主要是做对连续数据的分箱操作,会包含

  • 等宽分箱

将变量的取值范围分为k个等宽的区间,每个区间当作一个分箱。

  • 等频分箱

    把观测值按照从小到大的顺序排列,根据观测的个数等分为k部分,每部分当作一个分箱,例如,数值最小的1/k比例的观测形成第一个分箱,等等。

  • 基于k均值聚类的分箱

    使用第五章将介绍的k均值聚类法将观测值聚为k类,但在聚类过程中需要保证分箱的有序性:第一个分箱中所有观测值都要小于第二个分箱中的观测值,第二个分箱中所有观测值都要小于第三个分箱中的观测值,等等。

  • 最小熵分箱

    分箱使系统熵值最小

  • 卡方分箱

    依赖于卡方检验:具有最小卡方值的相邻区间合并在一起,直到满足确定的停止准则.

项目使用python,后面会改为cython.

Clone this wiki locally