×

基于NLP、机器学习技术实现动作引擎的实践进展

消耗积分:1 | 格式:rar | 大小:0.6 MB | 2017-09-30

分享资料个

  搜索引擎大家都很熟悉,比如说一个朋友跑北京马拉松,你就想到网站去看,你就能得到马拉松的官网,看到相应的信息,但是有些时候我们会有些具体的问题,比如说深圳的年降雨量,搜索引擎回来的结果很有可能第一个结果不会有,但是你点进去才能找到你的答案,如果你在手机上问这个问题的话,很有可能字很小,是一件很困难的事情,我们在做自动问答的产品,这个产品就是有一个问题,我们希望在搜索结果里头把这个答案给你找出来,然后你就可以直接看到,用不着点击到网页里头去寻找你的答案。

  这是另一个例子,我们这个产品可以看成是回答引擎,就一般的搜索结果关健词是黑体,如果是答案那就是我们这个问答产品做的,什么化学物可以杀臭虫,我们就会把这个答案显示出来,另外我们也把上下文给你列出来,因为这个时候很多时候会有帮助。

  如果我们内部的信心比较足的时候,还会把答案用很大的字体放到最前头,比如最快的鸟是什么,这个答案就出来了,这是一种猎鹰,可以看到确实飞的很快,就跟个小飞机一样,在做问答系统的同时还可以学到很多没有用的知识。

  但是有些时候你想做事情,比如北京到上海的机票,那时候我们就没有一个很简单的答案去给你,但是反正你会看到很多广告,帮着东家挣钱。我是今年4月份从谷歌出来,然后在一个小创业公司做一款手机助手的产品,这个助手就你如果有一个请求,就希望把这个事情帮用户给做了,比如北京到上海的机票没有了,说完以后助手会自动打开携程,然后填上出发地目的地,最后把携程里的结果给你查出来。

  下面我就想具体的讲一些回答助手的细节,搜索引擎和回答引擎最大的区别是什么呢,我觉得就是说你做搜索的时候你要找什么东西,用户已经告诉你,那都是关健词,所以你要知道到哪儿去找,就是有些网页是可信赖,有些网页不靠谱,你要给用户可靠的结果,你要去什么地方找,但是问答引擎呢答案在用户那里头并没有,你要知道找什么东西,就比如说刚才的这个例子,这个下面这个结果就是说如果我们这个回答引擎没有触发的话,这个会是谷歌的头一个搜索结果,这里可以看到深圳降雨量,这个实际上是一个同义词,这是谷歌的模式之一,就把看着像同义词的东西找出来,能够当做同义词用,但是在同一个结果里头,你要找的这些词都有,但并不一定包含这个答案,那么如果我们找到这个答案以后,就可以把有答案的结果放在最前头。

  这是另一个例子,就比如说我在准备怎样加这个箭头搜索到回答,怎样插入特殊字符,这个也是我们团队做出来的结果,这个里面你就可以看到,就说哪怕你没有具体内容,可以看到这是在描述一个过程,这是找答案的时候一个很重要的信息,你要知道找什么东西。其实也找了一个也像是描述这个过程,但这个讲的是office。

  下面用一个具体的例子来解释一下回答的过程,就什么酶可以分解淀粉,然后这是我们找到的答案,首先我们要做分析,然后确定他是不是问问题,而且是问的问题里头要找的是什么东西,这个结果呢是说这个确实是问题,他找的是这个酶,知道这个以后呢把找出来的红的叫Focus Words,一个问题里头他的焦点是什么,然后我们如果找到了这个焦点,我们就可以启动下面这个问答的过程,找焦点如果是一个显性的疑问,谁、什么、几个之类的,其实很容易就找到这个问题的焦点,但有些时候一个query并不像一个问题,比如“fastest bird”,虽然没有疑问词,但也是一个问题。实际上有其他的显性的问题,就比如有别人会问“what is the fastest bird”,这样的话你就可以知道,如果只是缺少疑问词,那也可以把它当一个问题去答。

  有的时候有疑问词,但也不一定是一个问题。比如“when in rome rotten”,实际上不是一个问题。找到焦点以后呢,我们就可以从搜索结果里头看什么东西有可能是答案,就我们知道要找“enzyme”,就得看这个谷歌比如说头十个网站里头有哪些东西有可能是讲这个的。这个时候我们就需要定义一个Expected Answer Type,系统必须有一个大的方向,就是你知道用户问的问题,但是你不能随便拿来一个东西,不管它是不是enzyme。这个有多种做法,在学术界用的最多的是用比较粗颗粒的Type就把问题的分成很多种,然后就可以用普通的识别去找出这些东西,但是这个问题就是说,在用户问问题的时候,他可能用的是另一个词,需要做一个映射,比如melting point映射到TEMPERATURE,annual rainfall映射到LENGTH,assistantcoach映射到PERSON,这些也是要解决的问题。还有一个办法,就是我们干脆就能够就从用机器学习的办法,就有可能用户问的这些不同的焦点词都做一个模型,然后就可以用这个模型来决定什么东西是不是有可能的答案。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

评论(0)
发评论

下载排行榜

全部0条评论

快来发表一下你的评论吧 !