2023年大语言模型(LLM)全面调研:原理、进展、领跑者、挑战、趋势

描述

在数据成为新石油的世界中,语言不再只是人类的专长。数据在人工智能中被大量使用,并塑造了当今最热门的AI话题—大语言模型。随着大语言模型的到来,人工智能现在正在学习交流、理解和生成类似人类的文本。


 

业界著名大语言模型(LLM),如OpenAI的GPT系列、Bloom、Bard、Bert、LaMDa、LLaMa等,都有自己的用户群体。大语言模型正在彻底改变我们与技术互动的方式,它们正在塑造一个与机器交流就像与朋友聊天一样自然的未来。从生成创意内容到协助高级研究,大型语言模型正在融入我们的日常生活。

在本文中,我们将探讨大语言模型(LLM)是什么、它如何运作、它为何受到关注,以及它如何塑造我们的未来。

1 - 什么是大语言模型(LLM)?


 

大型语言模型(LLM)是基于人工智能的先进模型,经过训练,它可以密切反映人类自然交流的方式处理和生成人类语言。这些模型利用深度学习技术和大量训练数据来全面理解语言结构、语法、上下文和语义。我们日常交互的许多应用程序(例如聊天机器人、AI搜索引擎、内容生成工具等)的幕后运行着GPT-3、GPT-4、LaMDA、BLOOM、LLaMA等著名大语言模型,LLM的出现彻底改变了自然语言处理任务。

但这对我们意味着什么?除了为我们的日常交互提供动力之外,LLM还在改变行业、简化工作流程,甚至创造新的艺术内容。它们开启了令人兴奋的可能性,并重新定义了我们对技术的期望。这场技术变化并不仅仅带来更智能的小工具或更高效的软件,而是可能塑造一个人类和机器可以像人类相互交流一样进行交流的未来。尽管看起来很科幻,但这种变革就真真切切正在发生。

2 - 大型语言模型如何工作?


 

如果您正在阅读本文,您可能至少使用过一种文本生成人工智能工具,例如ChatGPT。这些工具的工作原理是学习人类花费数年时间创建的大量数据集。大语言模型一般需要学习TB的文本数据,并且在学习过程中需要海量的计算资源。

所有这些大语言模型都基于Transformer工作。Transformer是一种神经网络架构,它使计算机能够通过分析文本中单词和短语之间的关系来理解、解释和生成人类语言。与以前按顺序处理语言的模型不同,Transformer可以同时查看多个句子部分。现在,为了让这个想法更具有相关性:想象一下阅读一本书并立即理解所有角色、情节曲折和情感,而不是逐字逐句地理解。Transformer对语言做了类似的事情,快速掌握文本背后的含义。这种独特的语言处理方式使Transformer成为强大的计算机程序的基础,这些程序可以以人类的方式聊天、写作和思考。

那么,之前的模型是什么?Transformers是如何“改变”LLM游戏并在自然语言处理领域获得全面应用的?Transformer架构的内部工作原理是什么?请继续阅读以找出答案。

2.1 - 编码器-解码器 (Encoder-decoders)

编码器-解码器(Encoder-decoders)架构由Google和多伦多大学研究人员于1997年提出,是大语言模型的核心。它解决了序列到序列的任务,例如机器翻译、文本摘要和问答。

至于机器翻译,本质上是这样的:编码器获取一个句子,例如英语句子,并将其转换为某种向量表示。该向量包含原始句子的所有基本信息。然后,解码器接管,将这些向量翻译成一种新语言,例如德语。为了确保我们充分想象这个过程,让我们更详细地了解编码器-解码器架构中的机器翻译阶段。我们将把“The weather is nice today”这句话翻译成德语“Das Wetter ist heute schön”。这里的编码器-解码器架构有五个主要组件:

人工智能

编码器-解码器。图源:superannotate.com

输入嵌入:英语句子“The weather is nice today”中的每个单词通过嵌入层转换为唯一的向量。这些向量保存了单词的上下文含义。

位置编码:Transformer将位置编码添加到这些向量中,帮助模型识别句子中的单词序列。

编码器:然后向量通过变压器中的多个编码器层。每个编码器层由自注意力机制和前馈神经网络组成。自注意力机制权衡上下文中每个单词的重要性,前馈网络修改单词向量以使其与目标表示对齐。

解码器:编码器的最终输出(一组代表英语句子的向量)被馈送到解码器。与编码器非常相似,解码器具有自注意力层和前馈网络。解码器中的额外注意力层关注编码器的输出向量,通知模型输入句子的哪些部分在输出生成的每个步骤中是重要的。

线性和softmax层:解码器的输出经过线性层和softmax函数。这些生成目标语言(德语)中预测的下一个单词的概率分布。选择概率最高的单词,并且该过程不断进行,直到生成句末标记。


在翻译任务中,语言模型同时使用编码器和解码器组件。然而,这些组件也可以根据手头的具体任务独立运行。例如,可以训练仅编码器模型来处理分类自然语言处理任务,例如情感分析或序列标记。双向编码器表示(Bidirectional encoder representations,BERT)是纯编码器模型的典型示例。仅解码器模型,如GPT模型系列、BLOOM、Jurassic和LLaMA,随着它们的发展和扩展也变得越来越流行和强大。在现代,这些模型在各种任务中表现出了令人印象深刻的性能。Bard或T5等模型同时使用编码器和解码器组件,并且精通摘要或释义等序列转换任务。

2.2 - 基于RNN的模型

2014年,Cho和苏茨克韦尔等人提出了使用基于递归神经网络(RNN)的编码器-解码器架构来执行序列到序列任务的想法。

在早期,RNN被用作编码器和解码器的构建块。编码器RNN逐个处理输入序列标记,并在每一步更新其隐藏状态。编码器的最终隐藏状态捕获整个输入序列的上下文信息。该隐藏状态用作解码器RNN的初始隐藏状态。

然后解码器RNN接管并逐步生成输出序列。在每个时间步,解码器RNN使用当前输入标记、先前的隐藏状态以及(可选)先前生成的输出标记来预测序列中的下一个标记。此过程将持续进行,直到生成序列结束令牌或达到预定义的最大长度。

2.3 - Transformer之前的模型

正如我们提到的,在Transformer出现之前,编码器-解码器文本生成是通过RNN技术完成的,这有两个主要缺点。

长期依赖性:RNN与长期依赖性作斗争,其中模型需要记住或使用序列中较早时间步骤的信息以用于后面的时间步骤。随着序列变长,RNN维护这些依赖性的能力变得越来越差。这意味着捕获句子中不同位置的单词之间的关系对于RNN来说是一项挑战。让我们通过一个例句来理解。

 

“我觉得她有点不对劲……她看起来[]”

 

在基于RNN的系统中,当模型到达“她看起来[]”部分时,它可能会忘记句子的第一部分。它将查看前一个词“看起来”,并对最合适的下一个词(比如“很棒”)做出错误判断。

人工智能


RNN输出错误结果。图源:superannotate.com

我们很快就会看到如何通过Transformer模型解决这个问题。

顺序逻辑:RNN一次一步地处理序列。这种计算的顺序性质使得并行化变得不可能,增加了训练时间并降低了处理大规模数据时的效率。

当处理一个句子时,RNN一个接一个地读取单词,就像连锁反应一样。如果你有一个20个单词的句子,第20个单词必须等待前面19个单词的计算。这种顺序处理使得并行化变得不可能,从而导致训练过程更长。

2.4 - Transformer模型

RNN模型少数但显着的缺点催生了Transformer架构。Transformers由Google研究人员于2017年诞生,他们通过引入自注意力机制彻底改变了LLM行业。谷歌和多伦多大学的研究人员发表的《Attention is All You Need》以及Transformer机制的诞生,标志着现代大语言模型快速发展的开始。

人工智能


Attention is All You Need。图源:https://arxiv.org/pdf/1706.03762.pdf

让我们看看Transformer如何解决RNN面临的问题:

1.注意力机制:Transformer架构中的注意力机制可以学习关注它正在处理的单词的含义。简单来说,注意力层计算序列中所有单词对之间的注意力分数,这决定了每个单词应该关注其他单词的程度。想象一下您正在阅读一个复杂的句子。你自然会更关注某些单词而不是其他单词,以掌握整体含义。同样,注意力机制允许LLM在生成响应时专注于关键的输入部分,从而使输出更加准确且与上下文相关。在这个例子中,Transformer模型可以直接将这个人感到悲伤的事实与之前有关她出了问题的信息联系起来,无论这两条信息之间的距离是长还是短。

人工智能


Transformer输出正确结果。图源:superannotate.com

2.并行化:与RNN不同,Transformer不会逐步处理序列。相反,它们同时处理序列中的所有标记,从而允许并行计算。Transformer模型架构引入了多核GPU的使用,它可以并行处理输入数据,从而利用更大的训练数据集。这解决了限制基于RNN的系统高效工作的时间和计算资源问题。在扩展句示例中,转换器同时处理所有20个单词,从而实现并行计算。这种同时处理意味着我们的示例句子中的所有单词都会同时分析,从而大大减少了处理时间。

2.5 - Transformer模型生命周期

为了了解大型语言模型的工作原理,我们还需要了解Transformer模型所经历的阶段。

人工智能

Transformer模型生命周期。图源:superannotate.com

1.一切开始时,对项目需要有一个清晰的愿景。从一开始就定义范围至关重要,因为它直接影响模型的大小和架构。LLM会是一个多任务处理者,擅长生成长格式文本任务,还是会专注于狭窄的特定功能,例如命名实体识别?精确定位需求可以节省宝贵的时间和计算资源。

2.一旦对项目有了清晰的愿景,就可以决定是从头开始训练自己的模型还是使用现有的基础模型作为基础。一般来说,修改现有模型是一种常见且有效的途径,尽管在某些情况下可能需要从头开始训练。

3.模型准备好后,下一阶段是性能评估。如果结果不符合期望,可能需要额外的训练。可以从“快速工程”开始,使用与任务相关的示例来指导模型。如果这还不够,下一步可能是微调模型(我们将很快对此进行更详细的解释)。随着模型变得越来越强大,确保它们在部署时表现良好并且其输出符合人类偏好变得越来越重要。

4.这个过程的一个关键部分是不断评估。使用指标和基准可以跟踪模型的执行情况并进行必要的调整。这是一个迭代的过程。可能会在快速工程、评估和微调之间循环,直到达到所需的性能。

5.当拥有满足性能需求并符合期望的模型时,就可以进行部署了。在此阶段优化模型可以确保计算资源的有效利用和良好的用户体验。

6.最后还需要考虑应用程序所需的基础架构。每个LLM都有其局限性。为这些做好准备并建立补偿它们的基础设施至关重要。

3. 从人类反馈中强化学习(RLHF)

人类反馈强化学习(RLHF)是机器学习的最新突破之一,它将人类反馈融入强化学习任务中。当模型执行任务或做出预测时,人们会提供关于它是否做得好或哪里出错的反馈。假设正在使用LLM来起草客户支持回复。第一次,LLM可能会生成过于正式或缺乏有关产品的具体细节的响应。用户提供的反馈表明响应中存在的问题。通过RLHF,模型可以从反馈中学习,对于以后的查询,LLM有更大的机会生成更友好和详细的响应。如果有类似的询问,LLM可能会生成更友好和详细的答复。当不断提供反馈时,该模型会变得更加擅长制定符合应用基调和客户特定需求的响应。

人工智能

根据人类反馈进行强化学习。图源:superannotate.com

此外,传统的强化学习可能会优化语法正确性和字数。借助RLHF,人类评估者可以引导模型走向创造力、情感共鸣和原创性,这些元素难以量化,但对于令人难忘的叙述至关重要。

但RLHF的真正魔力在于它结合了两方面优点的潜力:机器的计算能力和人类的直观理解。这不仅仅是让人工智能变得更聪明;这是为了让它变得更明智。

4 - 提示工程(Prompt Engineering)

提示工程(Prompt Engineering)是掌握大型语言模型的一个非常重要且有趣的部分。这是一个优化人工智能性能的过程,擅长这个过程的人通常会成功地从LLM那里获得他们想要的输出。我们将用户提供给模型的输入文本称为“提示”,将LLM生成的输出文本称为“结果”。

如果使用过任何大型语言模型,用户可能在不自觉中已经进行了提示工程。如果模型在第一次尝试时未提供所需输出的情况,用户一般会多次修改请求以“提示”模型期望它返回的内容,这本质上就是是提示工程。而提示工程的一项关键策略就是情境学习(In-context learning)。

4.1 - 情境学习(In-context learning)

情境学习是一种通过提示中的特定任务示例来改进提示的方法,它为LLM提供需要完成的任务的蓝图。情境学习包含下面一些技术:

“零样本推理(Zero-shot inference)”是一种用于GPT-3等LLM的策略,它将输入数据合并到提示中,而无需任何额外的示例。虽然这种方法通常适用于较大的模型,但较小的模型可能很难理解任务。这只是一种问答方法,您的请求可能足够简单,不需要模型的额外提示。

如果零样本推理不能产生所需的结果,则可以使用“单样本(one-shot)”或“少样本(few-shot)推理”。这些策略包括在提示中添加一个或多个已完成的示例,帮助较小的法学硕士表现得更好。例如,要对电影评论的情感进行分类,提示将包括说明、评论文本以及最后的情感分析请求。

假设正在尝试教导LLM提高其对电影评论进行分类的能力。可能会用到这样的提示:

 

对这篇评论进行分类:“一部令人惊叹的杰作,让我激动不已。” 情绪:积极

 

现在给模型分类“一部花了我一生三个小时的无聊电影”,它会将情绪分类为“负面”。

人工智能

情境学习。图源:superannotate.com

大语言模型的表现很大程度上取决于其规模。较大的模型更擅长通过零样本推理处理各种任务,即使是那些没有明确训练过的任务。然而,较小的模型擅长执行与其训练类似的任务。因此,找到完美的平衡通常需要尝试不同的模型和配置。

4.2 - 微调(Fine-tuning)

需要承认的是,对于较小的模型,即使包含五六个示例,上下文学习也并不总是有效。此外,“上下文窗口”(模型可以处理的上下文学习量)也有其局限性。提示中包含的任何示例都会占用上下文窗口中的宝贵空间,从而减少了包含其他有用信息的空间量。如果多个示例不能提高模型的性能,那么可能是时候对LLM进行微调了。此过程涉及使用新数据进行额外训练以提高特定任务的性能。

微调是预训练之后的过程,其中模型在较小的特定数据集上进一步训练(或微调)。该数据集通常与特定任务或领域相关。通过在这个更窄的数据集上进行训练,模型变得专业化,并且在与该特定领域相关的任务上表现更好。

例如,如果想要一个语言模型来回答医学问题,可以使用医学教科书和期刊对其进行微调。这样,LLM就能更好地理解和生成与医学主题相关的回复。

请注意,就像预训练一样,完全微调需要足够的内存和计算预算来存储和处理训练期间更新的所有梯度、优化器和其他组件。

5 - 大语言模型的挑战和局限性

深入研究语言模型的核心,我们也必须面对它们的挑战。以下是一些值得一提的挑战:

海量数据和计算:第一个重大挑战是大语言模型所需的海量数据。LLM对用于训练的大量文本数据有着巨大的需求。从逻辑上讲,LLM摄入的数据越多,需要的计算资源就越多,更不用说时间了。这使得大型语言模型训练过程资源密集。

可解释性问题:接下来是可解释性问题。众所周知,大型语言模型的功能就像密封的金库一样。确定它们产生某些输出的原因和方式具有挑战性,因为它们的工作方式就像没有密钥的密码。OpenAI试图通过引入一种工具来解决这个“黑匣子”问题,该工具可以自动识别模型的哪些部分负责其行为的哪些部分。

人工智能

可解释性问题。图源:openai.com

过度概括:尽管LLM接受过广泛多样的数据训练,但有时会做出广泛的概括,而忽略了语言、文化和背景中更细微的差别。

无意识的错误信息:LLM缺乏综合的事实核查程序,使他们很容易生成看似合理但实际上不正确或具有误导性的文本。当这些模型部署在准确性至关重要的应用程序中(例如新闻报道或医疗诊断)时,这一点尤其令人担忧。这也是一个正在解决的问题,我们很快就会看到如何解决。

灾难性遗忘:大型语言模型(LLM)可以适应特定任务,例如通过称为“微调”的过程生成诗歌。虽然使用相对较小的数据集进行微调可以使模型在特定任务上表现出色,但它可能会导致“灾难性遗忘”,即模型在其他任务中失去熟练程度。如果保留多任务处理能力至关重要,“多任务微调”或“参数高效微调”(PEFT)等解决方案可以防止这种遗忘,使模型成为性能优化的专家,而不会失去其一般能力。

是的,我们应该小心对待大语言模型。LLM可能会避免承认它不知道的事情,并且很可能给出错误的信息。因此,尤其是对于关键案例,比如说医学诊断,需要谨慎对待LLM的结果。

6 - 负责任的人工智能(Responsible AI)

生成人工智能的世界,特别是与大型语言模型(LLM)相关的世界,正在经历疯狂的变化。让我们了解一些围绕人工智能的道德问题。

这里要解决的三个基本挑战是毒性、幻觉和知识产权问题。

‍毒性:人工智能背景下的毒性是指可能对特定群体,特别是边缘化或受保护群体产生不利影响的有害或歧视性语言。针对这一挑战的缓解策略包括精心管理训练数据、过滤掉不合适的内容以及雇用多元化的人类注释者团队进行训练。各种注释团队有助于确保考虑各种观点,从而降低人工智能模型中存在偏见的风险。

幻觉:另一方面,幻觉是人工智能产生毫无根据或不真实的输出的情况。问题是,人工智能有时会尝试填补一些缺失数据的空白,导致人工智能开始“产生幻觉”。这种现象可能会导致误导或不正确的输出。用户教育在应对这一挑战方面发挥着至关重要的作用。用户需要了解人工智能技术的现实以及产生幻觉的可能性。其他潜在的解决方案包括将人工智能输出与经过验证的数据源交叉引用,开发将输出追溯到原始训练数据的方法,以及明确定义人工智能的预期和非预期用途。

知识产权问题:当人工智能模型生成可能侵犯现有版权或抄袭现有作品的内容时,就会出现知识产权问题。解决这个问题需要技术创新、政策制定和法律干预相结合。机器学习等新兴概念(指减少或删除受保护内容或其对人工智能输出的影响)以及内容过滤和阻止等保护措施可以帮助缓解这一问题。

为了负责任地实施和使用生成式人工智能模型,定义特定用例、持续评估风险并定期根据数据和系统评估性能至关重要。重要的是要记住,创建人工智能是一个持续、迭代的循环,需要随着时间的推移进行勤奋的监控和改进。此外,制定明确的治理政策并让每个利益相关者在整个人工智能生命周期中承担责任,以确保负责任的人工智能使用也至关重要。

7 - 大语言模型领域的主要参与者

生成式人工智能和大型语言模型(LLM)领域涌入了大量现金,资金数额疯狂,竞争激烈。下面是一些在LLM竞赛中的佼佼者。

OpenAI是LLM的开拓者、创新者和主要参与者。OpenAI成立于2015年,到2023年6月累计融资达到113亿美元,在2022年底催生了ChatGPT的火热,也标志着企业目前对LLM痴迷的开始。OpenAI的所有GPT模型,尤其是最近的模型(GPT-4Turbo、GPT agents、Q*算法)都获得了广泛关注,它们的快速进步既充满希望又令人恐惧。不仅数亿人将ChatGPT用于日常办公任务、工作或爱好,而且数百家企业也在其产品中采用GPT系统。世界在生成式人工智能和LLM领域沸腾。

Google是大语言模型的奠基者和主要参与者。Google最早提出了Transformer和Bert等大语言模型的关键基础架构和模型。Bert是一种预训练的深度学习神经网络,它可以在各种自然语言处理任务中表现出色。Bert的主要贡献是,它可以通过双向编码器来理解上下文,从而更好地预测单词的含义。这使得Bert在各种自然语言处理任务中表现出色,例如问答、文本分类、命名实体识别等。此外,Google还开发了其他语言模型,例如T5、PaLM 2,这些模型也在自然语言处理领域中取得了很大的成功。

微软是大语言模型的企业参与者。它与Meta、OpenAI、Adept等法学硕士参与者合作并提供资助,并在该领域发挥了重要作用。微软的Bing使用ChatGPT,但与此模型不同的是,Bing使用互联网和实时数据(而ChatGPT的响应包括截至2021年的数据)。Bing使用ChatGPT,但与OpenAI的模型不同,它可以访问互联网,并且运行起来就像人工智能驱动的搜索引擎。与以2021年为知识截止日期的ChatGPT不同,Bing提供最新的响应。Bing允许每个对话有20个回复,建议后续问题,并具有三种对话风格(更精确、创造性和平衡)。

MetaAI(以前称为FacebookAI)是一个开源玩家,拥有LLama和LLama2等知名开源LLM模型。通过开源模型,Meta旨在让企业、初创公司、企业家和研究人员能够使用其开发的工具,这些工具的开发规模是他们自己难以构建的,并得到他们可能无法获得的计算能力的支持,这将打开一个充满机遇的世界让他们以令人兴奋的方式进行实验和创新,并最终从经济和社会上受益。

xAI于11月4日推出了名为GrokAI的语言模型。Grok是一种实时语言模型,其特点是幽默和讽刺。它根据X的内容进行训练,并使用检索增强生成(RAG)技术来提供新鲜且最新的信息。xAI向语言模型迈出了非常大胆的一步,构建了一个不符合大多数其他语言模型编程的道德和伦理约束的模型。它可以变得狂野和粗俗,这取决于要求的内容。

Anthropic是这些参与者中最年轻的之一,在2021年成立后就成功筹集了15亿美元。其创始人是前OpenAI员工,而他们的模型(Claude)最与众不同的一件事是他们称为“宪法人工智能”的新技术——人工智能监督其他人工智能的系统。换句话说,这里的人为干预被最小化,只是制定一些规则和指南,其余的都是人工智能。宪法人工智能是关于通过零人类标签的自我改进来训练无害人工智能助手的模型。请注意,这种新颖的技术受到Quora、RobinAI等许多用户的喜爱。

Cohere成立于2019年,拥有4.35亿美元资金。Cohere的创始人之一艾丹·戈麦斯(AidanGomez)是我们之前讨论过的革命性论文《Attention is all you need》的合著者。Kon于2023年初加入Cohere,他表示:“我们作为独立的、与云无关的企业AI平台而脱颖而出。我们专注于帮助客户利用他们的数据创建专有的LLM功能,并创造战略差异化和业务。”价值。”未来,Cohere计划构建模型,为客户执行真正的助理会做的任务—安排通话/会议、预订航班和归档费用报告。

Inflection AI由LinkedIn联合创始人Reid Hoffman和DeepMind创始成员Mustafa Suleyman领导,最近获得13亿美元投资,用于打造更多“个人人工智能”。投资者由微软、里德·霍夫曼、比尔·盖茨、埃里克·施密特和新投资者英伟达领投。这笔资金用于构建他们的第一个产品:个人人工智能助理PI。苏莱曼说,他们的目标是使人机对话尽可能自然,人类不需要简化他们的想法就可以与机器交流。“个人人工智能将成为我们一生中最具变革性的工具。这确实是一个拐点,”苏莱曼在一份预先声明中说道。Inflection与微软和Nvidia有着深厚的联系(微软也是OpenAI的大投资者),拥有大量现金来运营和运营他们需要的东西,穆斯塔法似乎对此非常有信心。

Adept是一家由前DeepMind、OpenAI和谷歌工程师和研究人员共同创立的初创公司,其概念与Inflection类似—可以自动化任何软件流程的人工智能。该玩家拥有4.15亿美元的资金,但具有讽刺意味的是,该网站空空荡荡,还没有任何产品。在他们的网站上,您可以加入等候名单,以便在产品准备好后获得通知。创始人表示,该模型将能够使用Airtable、Photoshop、Tableau和Twilio等现有软件来响应“生成每月合规报告”或“在蓝图中这两点之间绘制楼梯”等命令来完成任务。

这些只是致力于大型语言模型的众多公司和组织中的一小部分。HuggingFace、BigScience、StabilityAI、Cerebras等其他公司也参与了这场竞赛。该领域正在迅速发展,新的参与者不断涌现。

人工智能

LLM大玩家。图源:superannotate.com

8 - 大语言模型的发展趋势

大型语言模型很流行并被大量使用,但它还有很多改进和发展的空间。我们收集了大语言模型的一些最新趋势。

1. 合成数据(Synthetic data)

随着对隐私的更多关注,合成数据正成为一个热门话题。这些数据不是从现实场景中收集的,而是从头开始创建的。使用合成数据,我们可以减少对隐私问题的担心。这可能会改变我们在需要大量模拟的行业(例如视频游戏或灾难响应培训)中使用人工智能的方式。

下面是谷歌研究人员创建的语言模型的示例,该模型使用自行生成的解决方案作为目标输出。

人工智能

语言模型生成多个CoT推理路径和答案。图源:t.co/R0pWSNJ2sX

2. 事实核查(Fact-checking)

现在是信息爆炸的社会,但并非所有信息都是准确的。大型语言模型的另一个潜在改进是自动事实检查。我们正在迈向这样一个未来:人工智能可以实时告诉我们所阅读的内容是否准确。这可以帮助我们打击虚假信息的传播,甚至发现深度伪造信息。

目前,谷歌的REALM和Facebook的RAG是解决LLM事实准确性和可靠性问题的两种最有前途的技术。除此之外,GPT的最新版本之一WebGPT使用Microsoft Bing来浏览请求,它在回复中加入了引用,使生成的回复更加准确和可靠。事实上,WebGPT在响应准确性方面优于ChatGPT和其他技术。

人工智能

真实的质量检查结果。图源:arxiv.org/pdf/2112.09332.pdf

当模型在其输出中涵盖来自互联网的信息时,它会包含引用,使个人能够验证信息的来源。WebGPT的初步研究结果令人鼓舞,该模型在准确响应的百分比以及提供的真实和信息丰富的答案数量方面优于所有GPT-3模型。

3. 专家模型(Expert models)

专家模型不是利用大型语言模型中的所有参数,而是使用最适合给定查询的这些参数的子集,这使得它们的计算要求较低。简而言之,这就是专家模型的概念。他们被称为专家主要是因为他们非常擅长特定领域,例如法律或医学。如果提示要求提供与德语医学成像相关的详细信息,则只有这些专家将被激活,其余专家保持不活动状态。

其中一些稀疏专家模型包括Google的SwitchTransformer(1.6万亿个参数)、Google的GLaM(1.2万亿个参数)以及Meta的Mixture of Experts(MoE)和Mixture of Tokens(MoT)(1.1万亿个参数)。

综上所述,合成数据、事实核查和专家模型是人工智能发展的三大趋势,重新定义了人工智能的可能性。

9 - 要点总结

如今,大型语言模型在人工智能世界中风光无限。当我们探索其内部运作、挑战、未来趋势以及推动其发展的关键技术时,有一件事变得清晰:大语言模型有取得更大进步的潜力。人类和机器能力的融合正在开拓语言和认知领域的视野。我们迫不及待地想看看大型语言模型的世界即将发生什么。

 

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分