Calendar
Pipeline
1. Environment
2. Data
3. Model
4. Performance
김세훈 | 문찬우 | 김시윤 | 배건우 | 이승준 |
---|---|---|---|---|
- 공통 : EDA & Feature engineering
- 김세훈 : Boosting모델 베이스라인 구축, T-Fixup모델 구현, K-Fold 적용, Data Augmentation 적용
- 문찬우 : Lastquery 모델링, Rnn, Gru, Tcn, 등 Sequence 모델링
- 김시윤 : LGBM 베이스라인 구축 및 최적화, lightgcn 모델링, Ensemble 진행
- 배건우 : Base environment 구축, Base python script pipeline 구축, Sweep 구현, Stacking ensemble 구현
- 이승준 : Saint, Saint + GRU, GRUATTN 모델링
초등학교부터 대학교까지 우리는 시험을 통해 지식을 평가해왔습니다. 그러나 시험에는 한계가 있고, 개인 맞춤형 피드백이 부족합니다. 이를 보완하기 위해 Deep Knowledge Tracing(DKT)가 등장했습니다. DKT는 우리의 지식 상태를 추적하고, 개인 맞춤형 학습을 위한 문제 추천 및 미래 성적 예측이 가능합니다.
📦 code
├─ boosting # boosting model
│ ├─ boosting
│ ├─ lightgbm_siyun
│ ├─ README.md
│ ├─ main.py
│ ├─ requirements copy.txt
│ └─ requirements.txt
├─ dkt # sequence model
│ ├─ asset
│ ├─ dkt
│ ├─ wandb
│ ├─ README.md
│ ├─ inference.py
│ ├─ requirements.txt
│ └─ train.py
├─ lightgcn # graph model
│ ├─ readme.md
│ └─ __init__.py
├─ .gitignore
├─ readme.md
├─ DKT_Recsys_팀_리포트(04조).pdf
pandas==20.3
scikit-learn==1.3.2
tqdm==4.51.0
wandb==0.16.2
transformers==4.36.2
pytorch==1.12.1
torchvision==0.13.1
torchaudio==0.12.1
cudatoolkit==11.3
userID
: 사용자 별 고유번사로 총 7,422명의 사용자 데이터가 존재합니다.
assessmentItemID
: 문항의 고유번호이며, 총 9,454개의 고유 문항이 있습니다.
testID
: 시험지의 고유번호이며, 총 1,537개의 고유한 시험지가 있습니다.
answerCode
: 사용자가 해당 문항을 맞췄는지 여부이며, 0은 틀릿 것, 1은 맞춘 것입니다. test 데이터의 경우 마지막 시퀀스의 answerCode가 -1로 예측해야 할 값입니다.
Timestamp
: 사용자가 해당문항을 풀기 시작한 시점의 데이터입니다.
KnowleadgeTag
: 문항 당 하나씩 배정되는 태그로, 일종의 중분류 역할을 합니다. 912개의 고유 태그가 존재합니다.
Model | LGBM-v1 | Saint | Last-Query + GRU | LSTMATTN | GRUATTN | LGBM-v2 |
---|---|---|---|---|---|---|
Weight | 0.67 | 0.084 | 0.064 | 0.064 | 0.059 | 0.059 |
Public AUC | Public ACC |
---|---|
0.8156 | 0.7527 |