亚马逊宣布:他们计划向公众公开“Topical Chat”数据集

电子说

1.3w人已加入

描述

4月1 日, 亚马逊宣布:他们计划向公众公开“Topical Chat”数据集,超410万单词21万句子的语料库将于2019年9月17日发布。

该数据集是为参加Alexa Prize Socialbot Grand Challenge 3竞赛的团队开发的,申请截止日期为2019年5月14日,比赛于2019年9月9日开始。所有参加Alexa Prize竞赛的团队将可以访问此数据集的扩展版本(扩展主题聊天数据集),其中包括正在进行的集合和注释的结果。

主题聊天数据集将包含超过210,000个句子(超过4,100,000个单词),可支持高质量,可重复的研究,将成为研究界公开可用的最大社交对话和知识数据集。

每个语料库的对话和对话轮次与提供给众包工作者的知识相关联,并且所述知识是从与一组实体相关的一系列“非结构化”和“松散结构化”的文本资源中收集的。

亚马逊高级首席科学家Dilek Hakkani-Tur在博客文章中明确表示,没有任何语料是与Alexa客户的互动。

该数据库是实现基于知识的神经反应生成系统的后续研究,解决其他公开数据集无法解决的自然对话中的难题。这将使研究者可以专注于研究对话中主题和知识选择方面的转换,以及如何在对话中融入事实和观点。

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分