전현욱 | 곽수연 | 김가영 | 김신우 | 안윤주 |
---|---|---|---|---|
- 전현욱
- 팀 리더, Ensemble 구현, torch 모델 구현, 단일 모델 학습
- 곽수연
- 데이터 전처리 및 증강, 단일 모델 학습
- 김가영
- Entity Tagging 실험, Prompt 실험, 단일 모델 학습
- 김신우
- Rule-based 모델 구현, Entity Tagging 실험, 단일 모델 학습
- 안윤주
- PM, 데이터 전처리 및 증강, 단일 모델 학습
2024.01.03 10:00 ~ 2024.01.18 19:00
- 관계 추출(Relation Extraction)은 문장의 단어(Entity)에 대한 속성과 관계를 예측하는 NLP Task 로, 비구조적인 자연어 문장에서 구조적인 triple 을 추출해 정보를 요약하고, 중요한 성분을 핵심적으로 파악할 수 있다.
- 본 프로젝트는 주어진 데이터셋을 바탕으로 문장 내 두 단어의 관계를 30 개의 관계 Label 에 대한 예측 확률을 추론하는 모델을 만드는 것에 목적을 둔다.
- Train Data : 32,470개
- Test Data : 7,765개
Column | 설명 |
---|---|
id | 샘플 순서 ID |
sentence | 관계 추출을 위한 단어들을 포함한 문장 |
subject_entity | Subject Entity 에 대한 정보(단어, 시작 인덱스, 끝 인덱스, 타입) |
object_entity | Object Entity 에 대한 정보(단어, 시작 인덱스, 끝 인덱스, 타입) |
label | 두 Entity 사이의 관계 (30 개의 Label) |
source | 샘플 출처 |
- micro F1 score : no_relation class 를 제외한 f1 score
- area under the precision-recall curve (AUPRC) : 불균형 데이터에 대한 precision-recall score
- klue/roberta-large
- monologg/koelectra-base-v3-discriminator
- BM-K/KoDiffCSE-RoBERTa
- nlpotato/roberta_large-ssm_wiki_e2-origin_added_korquad_e5
- xlm-roberta-large
- soddokayo/klue-roberta-large-klue-ner
- sdadas/xlm-roberta-large-twitter
- severinsimmler/xlm-roberta-longformer-large-16384
.
├── EDA.ipynb
├── README.md
├── Wrap-up Report.pdf
├── data_aug
│ ├── back_translation.py
│ ├── data_augmenation_EDA.ipynb
│ ├── kogpt3_test.py
│ └── kullm_test.py
├── entity_tagging
│ ├── Prompt.py
│ └── typed_entity_punct.py
├── huggingface_trainer
│ ├── inference.py
│ ├── load_data.py
│ └── train.py
├── rule_based
│ ├── inference.py
│ ├── load_data.py
│ └── train.py
├── soft_vote.ipynb
├── soft_vote.py
├── torch-train
│ ├── data_handling.py
│ ├── data_handling_tagging.py
│ ├── inference.py
│ ├── modeling.py
│ ├── models.py
│ ├── train.py
│ └── utils.py
└── train_validation_split.ipynb
micro F1-score | AUPRC | |
---|---|---|
Public | 76.3116 | 81.1209 |
Private | 74.0375 | 81.1955 |