Skip to content

Latest commit

 

History

History
133 lines (105 loc) · 6.62 KB

README.md

File metadata and controls

133 lines (105 loc) · 6.62 KB

Malicious Comments Collection System

1. Introduction

image

인터넷이 발달하면서 특정 인물들에 대한 무분별한 악플들이 사람들을 괴롭히고 있습니다. 이런 악플러를 신고 및 고소를 하는데 증거 수집은 필수이지만 오랜 시간을 들여 증거수집이 필요합니다. 특히, 현재 프로세스는 회사나 개인 차원에서 직접 수집을 하거나 팬들의 제보를 통해 이루어지므로 비효율적이며 수동적입니다. 따라서 이런 점을 개선하고자 해당 프로젝트를 진행하게 되었습니다.

Malicious Comments Collection System는 악플을 수집하고 악플을 검토하는 부분을 자동화하는데에 목적이 있습니다. 수집된 자료들은 추후 고소 목적으로 활용이 될 것입니다.

Team AI-it

"아-잇" 이라고 발음되는 것이 키치하게 재밌어서 팀명으로 정해보았습니다.

Members

이연걸 김재현 박진영 조범준 진혜원 안성민 양재욱
Git Badge Git Badge Git Badge Git Badge Git Badge Git Badge Git Badge

Contribution

  • 이연걸   Project Management • Service Dataset • Front-end & Back-end Update • EDA
  • 김재현   Modeling • Model Optimization • AutoML • EDA
  • 박진영   Model Optimization • Application Cloud Release (GKE) • Service Architecture
  • 조범준   Baseline Code • Modeling • Model Optimization • EDA
  • 진혜원   Service Dataset • EDA • Front-end & Back-end Update
  • 안성민  EDA • Modeling
  • 양재욱   Front-end (Streamlit) • Back-end (FastAPI) • MongoDB • EDA

2. Model

KcELECTRA Backbone Model + CNN & RNN Based Classifier (Best LB f1-score: 64.856)

image

Clustering with Triplet Loss + KNN (Best LB f1-score: 66.192)

image

2nd / 67team (21.12.23 기준)

image

3. Flow Chart

System Architecture

image

Pipeline

image

4. How to Use

Install Requirements

pip install -r requirements.txt

Project Tree

|-- assets
|-- automl
|-- base
|   |-- __init__.py
|   |-- base_data_loader.py
|   |-- base_model.py
|   └-- base_trainer.py
|-- data_loader
|   └-- data_loaders.py
|-- logger
|   |-- __init__.py
|   |-- logger.py
|   └-- logger_config.json
|-- model
|   |-- loss.py
|   |-- lr_scheduler.py
|   |-- metric.py
|   └-- model.py
|-- prototype
|-- tokenizer
|   |-- special_tokens_map.json
|   |-- tokenizer_config.json
|   └-- vocab.txt
|-- trainer
|   |-- __init__.py
|   |-- kd_trainer.py
|   └-- trainer.py
|-- config.json
|-- config_automl_test.json
|-- kd_config.json
|-- kd_train.py
|-- parse_config.py
|-- pkm_config.json
|-- requirements.txt
|-- simple_test.py
|-- test.py
|-- test_automl.py
|-- train.py
└-- utils
    |-- __init__.py
    |-- api_response.py
    |-- error_handler.py
    |-- memory.py
    |-- query.py
    |-- util.py
    └-- utils.py

Getting Started

  • Train & Validation
python train.py -c config.json
  • Inference
python test.py -c config.json    # test_config.json
  • Train (Knowledge Distillation)
python kd_train.py -c kd_config.json

5. Demo (TODO)

6. Reference