ChatGPT的逻辑推理能力是如何学到的？

jf_78858299 2023-02-22 5028

电子说

1.4w人已加入

描述

看到ChatGPT的华丽诞生，心情很复杂，既高兴、惊喜，也感到恐慌，高兴和惊喜的是没有预料到这么快就见证了自然语言处理（NLP）技术的重大突破，体验到通用技术的无限魅力。恐慌的是ChatGPT几乎可以高质量地完成NLP中的大多数任务，逐渐认识到很多NLP的研究方向遇到了极大挑战。

总体而言，ChatGPT最令人非常惊艳的是它的通用性，相比于GPT-3需要通过设计非常精巧的提示来实现效果并不太好的各种NLP能力，ChatGPT已经让用户感受不到提示的存在。作为一个对话系统，ChatGPT让用户自然提问便可实现从理解到生成的各种任务，而且性能在开放领域几乎都达到了当前最佳水平，很多任务超越了针对特定任务单独设计的模型，并且在代码编程领域表现卓越。具体而言，自然语言理解能力（尤其是用户意图理解能力）十分突出，无论是问答、聊天、分类、摘要、翻译等任务，尽管回复不一定完全正确，但是几乎都能够领会用户意图，理解能力远超预期。相比于理解能力，ChatGPT的生成能力更加强大，可以针对各种问题生成具有一定逻辑且多样化的长文本。总的来说，ChatGPT表现出的更多是惊艳，是通向AGI的初步阶段，一些技术瓶颈解决后会更加强大。

对于ChatGPT表现案例的总结已经非常多了，这里主要总结一下自己对ChatGPT技术问题的一些思考，算是与ChatGPT断断续续交互两个多月的一个简单总结。由于无法了解ChatGPT的具体实现技术和细节，所以几乎都是主观猜想，肯定有很多不对的地方，欢迎一起探讨。

1. ChatGPT的通用性为何做得如此之好？

只要使用过ChatGPT，我们就会发现它不是一个传统意义上的人机对话系统，实际是一个以自然语言为交互方式的通用语言处理平台。2020年的GPT-3虽然拥有了通用能力的雏形，但是需要精心设计提示语来触发相应功能，而ChatGPT允许用户采用非常自然的提问就可以准确识别意图完成各种功能。传统方法往往先进行用户意图识别，再针对不同意图调用相应功能的处理模块，例如通过用户数据识别出摘要或翻译意图，再调用文本摘要或机器翻译模型。传统方法在开放域的意图识别准确率不够理想，而且不同功能模块各自为战无法共享信息，难以形成强大的NLP通用平台。ChatGPT突破了各自为战的模式，不再区分不同功能，统一认为是对话过程中的一种特定需求。那么，ChatGPT的通用性为何做得如此之好呢？一直在思考这个问题，由于没有条件实验证实，所以仅能猜想。根据Google的Instruction Tuning研究工作FLAN，当模型达到一定规模（e.g. 68B）且Instruction任务的类型达到一定数目（e.g. 40），模型就涌现出对新意图的识别能力。OpenAI从其开放的API中收集了全球用户各种任务类型的对话数据，根据意图分类和标注，然后在175B参数GPT-3.5上进行Instruction Tuning，自然就涌现出了通用的意图识别能力。

2. 为什么面向对话的微调没有遭遇灾难性遗忘问题？

灾难性遗忘问题一直是深度学习中的一个挑战，经常因为在某个任务上训练后就丧失了在其他任务上的性能。例如，一个30亿参数的基础模型，先在自动问答数据上进行微调，然后在多轮对话数据上进行微调，结果会发现模型的问答能力大幅度下降。ChatGPT似乎不存在这个问题，其在基础模型GPT-3.5上进行了两次微调，第一次依据人工标注的对话数据进行微调，第二次根据人类反馈的强化学习进行微调，微调使用的数据很少，尤其是人类反馈的打分排序数据更少，微调后竟然仍然表现出强大的通用能力，而并没有完全过拟合到对话任务。这是个非常有趣的现象，也是我们没有条件验证的现象。猜测可能有两方面的原因，一方面是ChatGPT使用的对话微调数据实际可能包含了非常全面的NLP各种任务，正如InstructGPT中对用户使用API的问题分类可以发现，很多都不是简单的对话，还有分类、问答、摘要、翻译、代码生成等等，因此，ChatGPT实际是对若干任务同时进行了微调；另一方面，可能当基础模型足够大之后，在较小数据上的微调不会对模型产生很大影响，可能仅在基础模型参数空间非常小的邻域中优化，所以不会显著影响基础模型的通用能力。

3. ChatGPT的大范围上下文连续对话能力是如何做到的？

使用ChatGPT时就会发现它一个让人十分惊讶的能力，即使和ChatGPT交互了十多轮，它仍然还记得第一轮的信息，而且能够根据用户意图比较准确地识别省略、指代等细粒度语言现象。这些对我们人来说似乎不算问题，但是在NLP的研究历史中，省略、指代等问题一直是一个难以逾越的挑战。此外，在传统对话系统中，对话轮次多了之后，话题的一致性难以保障。但是，ChatGPT几乎不存在这个问题，即使轮次再多，似乎都可以保持对话主题的一致性和专注度。猜测这个能力可能有三方面的来源。首先，高质量的多轮对话数据是基础和关键，正如Google的LaMDA，OpenAI也采用人工标注的方式构造了大量高质量多轮对话数据，在此之上进行的微调将会激发模型的多轮对话能力。其次，基于人类反馈的强化学习因为提升了模型回复的拟人性，也会间接增强模型多轮对话的一致性能力。最后，模型对8192个语言单元（Token）的显式建模能力使其几乎可以记忆普通人一整天的对话数据，在一次对话交流中很难超出这个长度，因此，所有对话历史都已经被有效记忆，从而可以显著提升连续多轮对话的能力。

4. ChatGPT的交互修正能力是如何炼成的？

交互修正能力是智能的一种高级体现，对我们来人说稀松平常的事情却是机器的痛点。在交流过程中，被指出问题后我们会立刻意识到问题所在并及时准确地修正相关信息。对于机器而言，意识到问题、识别问题范围并更正对应信息的每一步都不是一件容易的事情。ChatGPT出现之前尚未看到过具有较强交互修正能力的通用模型。与ChatGPT交互后就会发现，无论是用户更改自己之前的说法还是指出ChatGPT的回复中存在的问题，ChatGPT都能够捕捉到修改意图，并准确识别出需要修改的部分，最后能够做出正确的修正。目前为止，没有发现任何模型相关的因素与交互修正能力直接相关，也不相信ChatGPT具有实时学习的能力，一方面是重启对话后ChatGPT可能还会犯相同错误，另一方面是基础大模型的优化学习从来都是从高频数据中总结频繁模式，一次对话无论如何也难以更新基础模型。相信更多的是基础语言大模型的一种历史信息处理技巧，不太确定的因素可能包括：（1）OpenAI人工构建的对话数据中包含一些交互修正的案例，微调后拥有了这样的能力；（2）人工反馈的强化学习使得模型输出更加符合人类偏好，从而在信息修正这类对话中表现得更加遵循人类的修正意图；（3）可能大模型达到一定规模（e.g. 60B）之后，原始训练数据中的交互修正案例就被学到了，模型交互修正的能力自然就涌现出来了。