电子说
1998 年,一些斯坦福大学的研究生发表了一篇论文,描述了一种新型的搜索引擎:“在本文中,我们将会介绍 Google 这种大型搜索引擎的原型。该原型大量使用了超文本形式的结构。Google 旨在有效地对万维网数据进行检索和编制索引,并生成比现有系统更令人满意的搜索结果。”
该研究的关键创新是一种称为 PageRank 的算法,该算法通过基于用户在网络上查询内容与网络上其他页面链接的相关性来计算搜索结果,并且对搜索结果进行排序。在 PageRank 的支持下,Google 成为了通往互联网的门户,而谢尔盖・布林和拉里・佩奇建立了世界上最大的公司之一。
现在,一组 Google 研究人员发布了一项提议,要求对引擎进行彻底的重新设计,从而排除现有排序的方法,并用单一的大型 AI 语言模型(例如 BERT 或 GPT-3,以及它们的未来版本)来代替。
这样一来,用户将不再用在庞大的网页列表中搜索信息,而是通过对这些页面上经过训练的语言模型提出问题来直接寻找答案。
这种方法不但可以改变搜索引擎的工作方式,而且可以改变它们可以做的事情,以及我们如何与之互动的方式。
即使网络的规模激增,搜索引擎也在变得越来越快,且越来越准确。现在我们使用 AI 来对结果进行排序,而 Google 可以通过 BERT 来更好地理解用户搜索的内容。
然而,在这些调整之下,所有主流搜索引擎的工作方式仍与 20 年前相同:爬虫将网页编入索引(可不间断地读取网络并维护找到的所有内容的列表的软件),在与用户查询相匹配的结果索引中收集数据,然后对结果进行排序。
唐纳德・麦茨勒(Donald Metzler)和他在 Google 研究部的同事写道:“这种索引检索然后排序的蓝图经受得住时间的考验,但也很少受到挑战或被认真地重新考虑一下。”
问题就在于,即使是当今最好的搜索引擎,它仍然会以包含所需信息的文档列表来进行响应,而不是包含信息本身。
搜索引擎也并不擅长回答需要从多个来源获得答案的查询任务,就像你看病时,医生给你一篇需要阅读的文章列表,而不是直接给你答案一样。
麦茨勒和他的同事对能像真人专家那样工作的搜索引擎十分感兴趣,它应当以自然语言生成答案,并由多个文档合成,而且像维基百科的文章一样,以支持证据的形式备份其答案。
大型语言模型为这样的想法奠定了一些基础,GPT-3 在大多数网络和数百本书上都接受过培训,它可以从多种来源中获取信息,以自然语言回答问题。
现在的问题在于它无法跟踪这些来源,也无法提供证据来支持这些答案。我们无法判断 GPT-3 是在模仿可信赖的信息还是虚假信息,或者只是散播自己的废话。
麦茨勒和他的同事们称语言模型为 Dilettantes——“人们以为它懂的很多,但实际上它的知识很肤浅。”
他们声称,解决方案是构建和培训未来的 BERT 和 GPT-3,以保留其单词来源的记录。目前尚无此类模型能够做到这一点,但原则上是可行的,并且朝着这个方向的早期工作也已被提上日程。
来自英国谢菲尔德大学研究网络信息检索的张子琦说,在不同的搜索领域,从响应用户查询、到总结文档、再到结构化信息,已经有了数十年的发展。
但是,这些技术都没有彻底改革过搜索,因为它们每个都只是解决特定的问题而无法被通用化。他说,这篇论文中提到的令人兴奋的事情就是一些大型语言模型能够同时完成所有这些操作。
然而,张也指出,语言模型在技术性或专业学科上表现不佳,因为训练这些语言的文本中很少有这类范例。
他说:“网络上关于电子商务的数据可能比有关量子力学的数据多数百倍。” 而且当今的语言模型也偏向英语,这会使网络上的非英语部分无法得到充分服务。
但张还是很喜欢这个主意,他说:“要是在过去,这么做是不可能的,因为大型语言模型只是最近才兴起的。如果成功了,它将改变我们的搜索体验。”
原文标题:GPT-3或宣告新型搜索引擎的诞生:通过语言模型提问即可找到答案
文章出处:【微信公众号:DeepTech深科技】欢迎添加关注!文章转载请注明出处。
责任编辑:haq
全部0条评论
快来发表一下你的评论吧 !