- 对数据进行分析并构建特征及树模型进行建模
- 特征工程:groupby 统计特征、类别模型 nunique、时间特征等;分为 item 侧及 user 侧分别构建
- 验证划分:训练集最后一天作为验证集,对训练样本进行负采样;并最后采用在线全量训练
- 类型转换减少内存占用
- 内存 128G 及以上
- 显存 12G 以上
- 磁盘空间 100G
- CPU 无特殊要求
.
├── 01_data_prepare.py
├── 02_make_features.py
├── 03_run_catboost.py
├── README.md
├── xfdata
│ ├── submit
│ ├── test_dataset
│ └── train_dataset
└── run.sh
- 将比赛数据按要求放到 data 目录下 (train_dataset: 训练集; test_dataset: 测试集; submit: 提交示例)
- 执行 bash run.sh 即可