掌握NLP基础工具,以及预训练模型的使用方法。
- 学会用StanfordNLP工具包做分词、词性标注、命名实体识别、句法分析等基础操作。
- 整理NLP常用知识的说明文档:attention、transformer、BERT、GPT、prompt等。
- 文本分类项目 Toxic Comment Classification
- 基于pytorch设计一个用到BERT(或其他预训练模型)的方案并完成预测。
- 在比赛的提交方案中,阅读并总结三种不同的可行方案,以此熟悉常见的文本分类方法。
此三周的项目都选于Kaggle比赛,旨在熟悉算法的思想和用例,不过多追求准确率。若数据量过多导致训练速度慢,可适当减少数据。