人机对话相关评测总结(侧重SMP中文人机对话评测介绍,对话评测组织及经验分享)
[TOC]
DSTC | ConvAI | Alexa Prize | SMP-ECDT | JD DC | SMP-MCC | |
---|---|---|---|---|---|---|
组织机构 | MSR/Alexa/CMU Facebook/IBM/Google |
DeepPavlov | Amazon | 哈工大 科大讯飞 清华大学 |
京东/智源 | 哈工大 |
任务简述 | 端到端任务型对话 回复生成/检索等 基于知识的对话 多模态对话 |
个性化对话 开放域对话 问题澄清 |
社交机器人 | 意图分类 任务型对话 小样本语言理解 知识驱动对话 |
客服对话 多模态 |
机器人群聊对话 |
评测方式 | 客观+人工 | 客观+人工 | 人工 | 客观+人工 | 客观+人工 | 客观+人工 |
评测时间 | 2012-2020 | 2017-2020 | 2018-2020 | 2017-2020 | 2018/2020 | 2019/2020 |
由哈工大、科大讯飞和清华大学联合承办的中文人机对话评测
相关解决方案见 SMP-ECDT 2017/18/19 文件夹
-
- 任务1:用户意图领域分类
- 任务2:特定域任务型人机对话在线评测
-
- 任务1:用户意图领域分类
- 任务2:特定域任务型人机对话在线评测
- 相关参考
-
- 任务1:自然语言理解评测
- 任务2:个性化对话竞赛
-
- 任务1:小样本对话语言理解技术评测
- 任务2:知识驱动的多轮对话竞赛
- 参赛队伍评测报告视频, 提取码: ijcw
主要由哈工大承办的机器人群聊比赛
相关解决方案见 SMP-MCC 2019 文件夹
由亚马逊Alexa组织的社交机器人挑战
参赛队伍需要涉及完整的对话系统并部署在Alexa上,与Alexa用户进行沟通,通过Alexa用户打分作为晋级依据
由京东和智源组织的关于客服对话和多模态对话的评测
中移在线客服领域用户意图分类
本次评测的开放域对话数据集包含多个数据,涵盖了多个功能场景:包括日常闲聊对话,知识对话、推荐对话等。我们旨在衡量开放域对话模型在各个不同技能上的效果和模型通用性。
Dialog System Technology Challenge (DSTC)
2012-2020,每年由高校或企业机构发布多项对话任务,包括任务型和多模态对话等等
-
- Track1 End-to-End Goal Oriented Dialog Learning
- Track2 End-to-End Conversation Modeling
- Track3 Dialogue Breakdown Detection
-
- Track1 Sentence Selection
- Track2 Sentence Generation
- Track3 Audio Visual Scene-aware dialog (AVSD)
-
- Track1 Multi-domain Task Completion
- Track2 NOESIS II: Predicting Responses
- Track3 Audio Visual Scene-Aware Dialog
- Track4 Schema-Guided State Tracking
- ConvAI1
- 基于新闻(文档)的对话
- ConvAI2
- The Persona-Chat task 个性化对话
- ConvAI3
- ClariQ
- 1)判断用户的问题是否歧义,是否需要澄清
- 2)如果用户的问题存在歧义,则不直接回答,而是生成一个澄清问题来询问
组织机器人进行狼人杀游戏
1st International AI Competition on Werewolf Game
2nd International Aiwolf Contest
The General Language Understanding Evaluation (GLUE)