深度学习与机器阅读

PCB88475579 2019-09-20 3132

电子说

1.2w人已加入

描述

不到现场，照样看最干货的学术报告！嗨，大家好。这里是学术报告专栏，读芯术小编不定期挑选并亲自跑会，为大家奉献科技领域最优秀的学术报告，为同学们记录报告干货，并想方设法搞到一手的PPT和现场视频——足够干货，足够新鲜！话不多说，快快看过来，希望这些优秀的青年学者、专家杰青的学术报告，能让您在业余时间的知识阅读更有价值。

人工智能论坛如今浩如烟海，有硬货、有干货的讲座却百里挑一。“AI未来说·青年学术论坛”系列讲座由中国科学院大学主办，承办单位为中国科学院大学学生会，协办单位为中国科学院计算所研究生会、网络中心研究生会、人工智能学院学生会、化学工程学院学生会、公共政策与管理学院学生会、微电子学院学生会，百度为支持单位，读芯术、PaperWeekly为合作自媒体。“AI未来说·青年学术论坛”第八期“深度学习”专场已于2019年8月25日下午在中科院举行。中科院付鹏为大家带来报告《深度学习与机器阅读》。

付鹏，男，中国科学院信息工程研究所博士，现为中国科学院信息工程研究所助理研究员，主要从事自然语言处理、机器学习，具体包括情感/情绪分析、语义理解、机器阅读、文本生成等，在2018全国“军事智能-机器阅读”挑战赛中，获得决赛总成绩第一（1/267，奖金20万），并且包揽了所有单项第一名，主持和参与了国家自然科学基金、国家重点研发计划等课题，近几年在AAAI、EMNLP、CIKM等国内外学术会议与期刊上发表学术论文10余篇。

报告内容：本次报告主要包括机器阅读概述、传统机器阅读方法、深度学习方法和竞赛分享四个部分。

深度学习与机器阅读

付鹏老师先介绍了自然语言处理的概念，即研究实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理技术的发展经历了基于规则（1990年以前）、基于统计学习（1990年~2012年）和基于深度学习（2012年至今）的方法三个阶段，涉及由浅入深的四个层面，分别为形式、语义、推理和语用，当前正处于由语义向推理的发展阶段。

然后引出了自然语言处理技术所面临的难题：1）中文分词（segmentation）困难，如“一行行行行行，一行不行行行不行”和“一位友好/的哥/谭市民”；

2）歧义（ambiguity）现象：一是结构歧义，如“今天中午吃馒头”和“今天中午吃食堂”；二是指代歧义，如“他快抱不起儿子了，因为他太胖了”；三是语义歧义，如“她这个人真有意思（funny）”，“人们以为他们有了意思（wish）”，“我根本没有那个意思（thought）”和“真没意思（nonsense）”；

3）未知语言现象：一是新词，如不明觉厉、累觉不爱和十动然拒；二是旧词新义，如母鸡、白骨精和潜水；三是新用法新结构，在口语中或部分网络语言中，不断出现一些“非规范的”新的语句结构，如c位出道、ORZ和热skr人了；

4）不同语系的差异：一是屈折语，用词的形态变化表示语法关系，如英语、法语等；二是黏着语，词内有专门表示语法意义的附加成分，词根或词干与附加成分的结合不紧密，如日语、韩语、土耳其语等；三是孤立语，形态变化少，语法关系靠词序和虚词表示，如汉语。

接着介绍了自然语言处理的技术概览，主要包括：1）NLP基础技术，如词汇表示和语义分析、短语表示和语义分析、句子表示和语义分析以及篇章表示和语义分析；2）NLP核心技术，如情感分析、信息检索、机器翻译、机器阅读、问答系统、语言生成、推荐系统以及聊天和对话；3）NLP+，如智能分析、搜索引擎、商业智能和舆情分析。

进而引出了机器阅读的主题，机器阅读是自然语言处理领域“皇冠上的明珠”，涉及到语义理解、知识推理等多项复杂技术，极具挑战性，该技术旨在让AI代替人类，自动阅读新闻报道等信息并根据问题给出答案，可应用于舆情分析和情报挖掘领域等多个场景。机器阅读的难点挑战主要包括：1）语义推理难，语言博大精深，如“作为失败的典型，你真的太成功了”；2）语义关联难，字同意不同，如“谁是特朗普的儿子”和“谁的儿子是特朗普”；3）语义表示难，分词歧义，如“昨天/下午”和“作/天下/午”，一词有多义，如“我爱吃苹果”和“苹果发布会”。

在介绍完机器阅读的难点挑战之后，又介绍了机器阅读的发展历程：TeachingMachines to Read and Comprehend（Karl Moritz Hermann et al.） → Attention-Sum Reader（Kadlec et al.） →SQuAD（Rajpurkar et al.） → Match-LSTM（Wang et al.） → R-Net（Wang et al.） →BiDAF（Minjoon Seo et al.） → QA-Net（Yu et al.） → BiDAF+self-attention + BERT。

紧接着介绍了传统机器阅读方法，主要包括早期系统和机器学习时代的方法。其中，在介绍早期系统时，介绍了QUALM系统（Lehnert，1977）、早期数据集（Hirschman， 1999）、Deep Read系统（Hirschman， 1999）和QUARC系统（Riloff andThelen， 2000）。在机器学习时代，机器阅读的数据被转化为《文章，问题，答案》的三元组形式，有两个重要的数据集：1）MCTest，四选一数据集，包含660篇科幻小说；2）ProcessBank，二分类数据集，包含585个问题和200个段落，是生物类型文章，需要理解实体关系和事件。基于传统规则方法的特点包括：1）不使用训练数据集；2）启发式的滑动窗口方法，计算word overlap、distance information；3）文本蕴含方法，用现有的文本蕴含系统，把（问题，答案）对转化为一个statement；4）max-margin学习框架，使用了很多语言特征，如句法依存、semantic frames、指代消解、discourse relation和词向量等。

随后，以传统机器阅读的方法作为引入，引出了深度学习的方法。先介绍了机器阅读的主要步骤：文本表示（将文本表示成机器能理解的符号）→ 语义匹配（寻找问题和原文句子的语义关联） → 理解推理（对语义关联进行加工和推理） → 结果推荐（对候选答案进行排序和输出）。

在介绍完机器阅读的主要步骤之后，又介绍了机器阅读的主要数据集：1）MCTest数据集，给定一篇文章、一个问题以及四个选项，预测哪个选项是问题的答案；2）CNN/Daily Mail 数据集，给定一篇文章和一个问题，预测问题中被X替代的实体是文章中的哪个实体；3）SQuAD数据集，给定一篇文章、一个问题，预测文章中的一个区间（一个或几个词）作为答案；4）Quasar-T数据集，给定几篇文章、一个问题，预测文章中的一个区间（一个或几个词）作为答案。

然后又讲到了注意力机制，Seq2Seq模型存在两个问题，一是定长的中间向量 c 限制了模型性能，二是输入序列的不同部分对于输出序列的重要性不同。对于Seq2Seq存在的问题，提出了相应的解决方案：解码器中的每个时刻不是输入固定的c，而是输入不同的 ci，每个时刻的 c 自动选取与当前输出最相关的上下文。其中，ci 为编码器中隐状态的加权和。

在介绍完注意力机制之后，又详细介绍了机器阅读模型BiDAF （ICLR 2017），该模型包括输入部分、双向注意力和输出部分，其中，输入为一篇文章X和一个问题Y，输出为文章中每一个词作为答案开始的概率和答案结束的概率。双向注意力是上下文（context）和检索（query）之间相互指导的注意力机制。

接着又进一步介绍了机器阅读的最新进展，重点讲解了两篇文章，分别为Improving Machine Reading Comprehension with Reading Strategies （NAACL 2019）和Adversarial Examples for Evaluating Reading Comprehension Systems （EMNLP 2017）。其中，前者是基于已有模型的改进，受阅读策略被证明可以提高阅读理解的水平的启发，提出了三种阅读策略：Backand Forth Reading，Highlighting 和 Self-Assessment，并且模型中用到了GPT （GenerativePre-trained Transformer）。后者介绍了机器阅读的新问题-对抗阅读，文本针对斯坦福问答数据集（SQuAD）提出一个对抗评估方案，自动生成并在段落中插入对抗语句，然后测试系统能否围绕这一段落回答问题。这些对抗语句的目的在于干扰计算机回答系统，但并不会改变问题的正确答案，也不会对人类造成干扰。在这种对抗方案中，16个已发表模型的精确度从75%（F1数）降到了36%。当对抗系统被允许加入不符合语法的短语串，有四个模型的平均精度下降到了7%。

在介绍完最新的研究进展之后，又介绍了多文档阅读，多文档阅读的过程：问题文档集合→ 文档检索模块 → 答案抽取模块 → 最终答案。多文档阅读主要存在三个难点：1）需要基于多个段落预测答案；2）与问题相似的段落干扰问题；3）远程监督假设带来噪音问题。然后又介绍了国内外的研究现状，开放域问答包括单段落方案和多段落方案，其中多段落的方案又包括基于答案重排序和基于答案置信度。

接着，付鹏老师又介绍了他所在团队提出的模型Ranking and Sampling in Open-Domain Question Answering （EMNLP 2019），该模型的特点：1）在段落选择部分充分利用段落和问题以及段落和段落之间的信息，采用层级注意力机制和自注意力机制进行降噪；2）在训练时采用随机采样→ 带权采样段落选择方案，提升模型泛化能力，避免干扰；3）解决开放域问答中的噪音和干扰问题，提升系统准确率。

最后，付鹏老师介绍了他们在全国“军事智能-机器阅读”竞赛中的参赛经历，他所在的团队获得了决赛总成绩第一名，并且包揽了所有单项第一名（军事新闻、防务快讯、非密情报三个单项比赛），RougeL值高达91.39%。并介绍了竞赛的任务、问题实例、数据特点以及总体的框架。

其中竞赛任务的问题包括6种类型：1）事实型问题（第X舰队指挥官是谁？）2）列表型问题（X国舰载机机型？）3）数值型问题（XX舰的排水量？）4）定义型问题（“XX一体站”的定义？）5）观点型问题（XX对军事智能化的指示？）6）篇章型问题（X国与X国领土争端的进展？）。

数据的特点包括：1）文章的长度较长，经典的SQUAD数据集的最长文章的单词数在700以下。但是该数据集文章中字符的个数普遍在几千甚至上万，最长的一篇还有10万多的字符；2）标注的问答可能在文章中出现多次或者不出现，训练数据标注存在噪音问题；3）一部分问题的答案由文中不相邻的多句话组成，比如，列表型问题和篇章型问题可能出现答案由文中不相邻的多句话组成，但是数目比较少。

模型的总体框架分为两步：1）利用问题去筛选答案候选集；2）利用模型预测最终答案。总体框架的流程：数据预处理→ 答案候选集筛选 → 模型预测答案 → 后处理 → 最终答案。更多精彩内容请关注微信公众号中的视频分享。

打开APP阅读更多精彩内容