李德毅院士等：机器认知四要素说

主线科技Trunk 2023-09-05 1686

描述

机器认知四要素说

摘要：作者用认知物理学的方法，从认知的源头—认知的形式化谈起，从宇宙构成的“物质说”，到工具构成的“二要素（物质、结构）说”，再到动力机器构成的“三要素（物质、结构、能量）说”，再发展到机器认知构成的“四要素（物质、结构、能量、时间）说”，深入展开，层层递进，从思维的自动化，跃升到认知的自成长。用“认知四要素说”解释典型认知事件，例如，解释爱因斯坦的质能方程，讨论西蒙的”物理符号系统假设”的局限，以及机器对圆周率精度暴力计算的贡献,随着ChatGPT日复一日地被全球使用和认可，作者预言，继对话图灵测试常态化之后，人工智能的下一个里程碑将是具身图灵测试常态化。

详细摘要： ChatGPT在全世界各行各业的普遍试用，实现了对话图灵测试的常态化。我国在全球率先提出的国家重大发展战略——新一代人工智能，要迎接这一挑战，有必要从认知物理学的角度，回答1950年图灵发出的天问：机器能思维吗？进而追问：机器如何思维？如何认知？无论是碳基人类的认知，还是硅基机器的认知，都是由物质、能量、结构和时间这四个最基本要素组成的复杂构体之间的相互作用，都依赖负熵为生，结构和时间是认知的奠基石，它们寄生在物理空间的物质和能量上，构成硬构体；认知空间里的软构体寄生在硬构体或者已有的其他软构体之上，构成丰富层次性的、多尺度的感觉、概念、信息和知识，体现精神世界。我们从曾经的人工智能符号主义学派那里拓展“抽象”，从连接主义学派那里拓展“联想”，从行为主义学派那里拓展“交互”，站在薛定谔、图灵和维纳等科学巨人的肩上，让抽象、联想和交互成为认知的核心，软构体与硬构体互动。认知的机器可由现场可编程门阵列、数据处理单元、计算处理单元、图形处理单元和张量处理单元及存储器等硬构体组成，还可植入体现基因遗传的“幼儿认知核”这样的异构硬构体，形成机器具身；在其上再寄生丰富的、多尺度的软构体。机器的秩序体现出维持自身和产生有序事件的能力，用软构体精确调控物质和能量，形成协同有序的思维活动。机器配置的异构传感器和思维的速度将不再困囿于碳基生命体的生化参数的极值，能够通过多通道跨模态感知，进行暴力思维，用记忆维持认知的连续性，记忆约束计算，生成认知空间的计算智能和记忆智能，可自举、自我复用和自我复制，提升想象力和创造力。新一代人工智能将从数学的机械化，跃升为思维的自动化，进而跃升为认知的自成长，认知世界的思维和物理世界的行为互为验证，知行合一，从对话图灵测试的常态化，走向具身图灵测试的常态化。认知机器将和科学家、工程师、能工巧匠一起做出发现、发明和创造，各智其智，智智与共，成为思维的超强加速器和具身行为的超强放大器，人类进入到了人机共生共创、迭代发展的智能时代。

0 引言

人类拥有两个空间。一个是客观的、外在的物理空间或者世界。在这个空间里，人类感知宇宙，认识太阳、星星、月亮和地球等天体；认识海洋、江河、湖泊和高山等天然物质；认识微生物、植物、动物，认识“我”之外的所有生命；认识工具、桌椅、电灯、汽车、楼房、书本、地图、学校、雕塑、机器、人造卫星等人造物。所有这些，都是实实在在的物理存在。我们还有一个主观的、内在的认知空间或者精神世界，需要认识意识、欲望、情感、信仰和智能，认识自己的感受、体验和觉察[1]。内部世界的意识、欲望、情感、信仰和智能的不同组合演变出不同的价值体系。

当以意识、欲望、情感、信仰的价值体系作为主要价值观时，爱、平等、正义、人权、尊重、成长、创造就成为了我们的价值标准[1]。如果仅仅以智能作为主要价值观看待客观的物理世界时，就会把人的认知物化，用文字、工具、艺术、机器，甚至用智能机器去实现它们，把智能从生命中剥离出来，不受意识、情感等纠缠，让智能延展到体外，成为人工智能，存在于物理世界，甚至发射到太空，成为人类文明生态的一部分，助推人的智能发展。

一个碳基生命的死亡，即个体精神消失，认知终结，这只不过是有机物质转变为无机物质而已。人类还在繁衍，宇宙依然浩瀚，星河依然流转。宇宙的年龄大约是140亿年，地球的年龄大约是45亿年，促成人类认知的演化充其量才500万年。如果将地球的年龄缩短成一年，则人类仅在最后的半小时才出现[2]，笛卡尔说[3]，我思故我在，指的是人在认知空间里的精神还在。你我思不思，地球依然存在和运转。在客观的物理世界面前，千万不要把人类主观的精神世界夸大了，宇宙的力量与个人的愿望和幸福原本是不相干的，物理世界是不是就是人们认知的那个样子，无从核对。这是理解人类发明机器认知的大背景。

当前，ChatGPT[4]在全世界各行各业的普遍试用和认可，实现了对话图灵测试的常态化，也是对我国在全球率先提出的国家重大发展战略——新一代人工智能的挑战。深刻认识新一代人工智能的基础、内涵、外延、技术特征以及发展途径，是实现这一国家战略的重要保证。无论是人的认知，还是机器的认知，无论是全球的人工智能前沿，还是中国特色的人工智能，都有必要用认知物理学[5]的方法，从认知的源头——认知的形式化开始。

1 认知的形式化

1.1 认知的定义

人类认知的整个活动，就是如何解释、解决人类在生存和繁衍等过程中所遇到的现实问题。每一次认知活动可分为感知、思维、行动、再反馈到感知的循环。感知是认知的源泉，思维是发生在自我认知空间里的活动，它自成体系，充满想象，可以比物理世界更为深邃；行动是认知的外化表现和目的，感知和行动均发生在物理空间里，通过交互形成具身智能，精神世界的认知和物理世界的行为一体，认知不停地在客观的物理空间（物理世界）和主观的认知空间（精神世界）螺旋式轮回，以回答“在哪里”、“是什么”、“为什么”、“如何做” 等问题。伟大的物理学家阿尔伯特‧爱因斯坦说过：“宇宙里最不可理解的事，是宇宙竟然是可以被理解的”[6]。但个人在宇宙里的地位太过渺小，单个寿命不过百年，要认识无限是一件十分困难甚至是不可能的事情。人类竟然能够通过人类文化、文明的代代传承，形成科学的理论和技术的发明，解释如此广袤的宇宙，永不停止探索的脚步，把越来越多的未知变成已知，变成一定程度的可解释性，这种有限理性其实是人类认知过程中的群体共识。千年前还不可理解的东西，今天的人可能已经理解了其中的一部分，另外部分可能因为知识断层等仍然无法理解。人类的认知螺旋式发展，不会有尽头，人类认知之范围愈大，其与未知接触之界面会更大。尽管人类认知有曲折，但却是在一步步逼近真理。

认知的能力是学习的能力（即解释、解决预设问题的能力），以及解释、解决现实问题的能力[7]。所谓预设问题，通常来自现实问题，并已经被形式化，证明有了行之有效的解决方案，如写在学校课本里的知识。学习是在外界的帮助下把自己以前的未知变为已知，是解释、解决新问题的基础。解释、解决现实问题是学习的目的，两者相互促进。物理空间的具身智能包含感知智能和行为智能，其中感知智能又可分为时空识别智能（即位置、方向和时间的识别能力）和模式识别智能，因为生存和繁衍的需要，甚至成为感知直觉，如人脸、语音的识别等。认知空间里有计算智能和记忆智能，记忆优先于计算，约束计算，反映计算的适用范围或边界。学习也好，解释、解决现实问题也好，除了认知空间的思维活动，还需要在物理空间和认知空间反复交互验证，通过包括语言在内的具身行为对外体现，并形成记忆的累积，实现认知的自成长。学习的结果是记忆的修饰、修改和重塑，是记忆的存储、调控和提取，学习的目的是解释、解决新遇到的现实问题。正所谓“学而不思则罔，思而不学则殆”。国内把指导学习（Supervised learning）译成监督学习，把无指导学习（Unsupervised learning）译成无监督学习，不很准确，因为指导包括引导、解释、纠错、监督等丰富的内涵。大自然赋予人类的是渴望多于智慧，“求真”、“求知”和“求美”是人类天生的欲望，是人类在生存和繁衍中被物竞天择，适者生存，自然进化发展出来的。认知空间不仅是人记忆知识的仓库，更是放飞想象力的天空，物质难以约束想像的范围，人可以想像不存在的东西，这正是精神力量的伟大之处。

1.2 四种基本认知模式：演绎、归纳、创作和发现

讨论认知的形式化，要分析认知的开放性，尤其是交互性；要分析认知的不确定性，尤其是不确定性中的基本确定性；要分析认知的层次性，尤其是递归性；要分析认知的主动性，尤其是注意力机制；要分析认知的复杂性，尤其是涌现机制；要分析认知的整体性，尤其是感知-思维-行为之间的协同性。分析人或者机器在客观的、实在的、外在的物理空间和主观的、抽象的、内在的认知空间之间迭代形成的认知，是如何逐步逼近真实的；分析一代代传承的群体智能和个体智能迭代形成的人类认知具有的演绎、归纳、创作和发现四种基本模式，也就是知识驱动的推理模式，如数学定理证明；记忆驱动的经验模式，如深度学习；联想驱动的创作模式，如从天体定位到人造卫星定位工程到星链工程；以及假说驱动的发现模式，如门捷列夫预言新的化学元素。还要分析多元认知模式形成的智能，它覆盖形象思维、逻辑思维和顿悟，抽象、联想和交互相互支撑，相互驱动，互为先导，互为补充，螺旋推进。就单个人的认知发展而言，想象力和创造力有差异，即使对同一个问题，在不同时期、不同情境下，也可能采用不同的认知模式，存在不确定性。讨论认知的形式化，还要探讨人类智能的体外延伸累积形成的人工智能是如何增强人的认知的；人或者机器在思维、学习、成长过程中存在的多元认知，各智其智、智人之智、智智与共、兼容并蓄；认知模式之间的不停转换，构成趋于统一的无尽认知。

1.3 用递归和迭代来克服熵增，维持机器的秩序

人的认知也好，机器认知也好，它们都不能违背广义物理学的规律和原理，其中最根本、最基础的就是熵增原理[8]。一个孤立系统总的无序程度，即“熵”，在自然过程中只会增加。当熵达到最大值时，系统会出现严重混乱，走向终结，人要死亡。要使它们维持秩序，宇宙、生命和机器都擅长应用简单重复的基本操作进行轮回或循环，克服熵增，维持秩序，呈现规律。

人类的生存和繁衍是一代一代迭代进行的，表现为基因的遗传。个体的生命组织里有很多递归和分形的现象。人类的进化，包括人的智能在内，也可以说是一个循环的过程。无论是人还是机器，认知活动中的循环现象比比皆是。

在讨论认知形式化的时候，我们注意到生命和认知中的一个重要的循环活动是迭代，用这次迭代的结果作为下一次迭代的初值，不断递推，累积发展。另一个重要的循环活动形式是递归，但递归与迭代不同。迭代是往前走，形而上。例如，人脑中的知识，从小学到大学到成年，就是这样自我复用、迭代成长的；又例如人类社会的科学和技术，特别是智能机器一代一代的批量生产，也是迭代发展的。而递归是往回找，形而下。例如认知机器中的具身智能最终是通过硬构体[9]中机器指令递归执行的。又如ChatGPT中的自回归生成系统，就充分利用了递归和迭代[32]。递归和迭代对于生命和认知的自引导、自成长，尤其重要。

碳基生命由细胞组成。诺贝尔奖获得者埃尔温·薛定谔在《什么是生命？》[10] 中写道：生命是很多种能够决定个体未来发展完整模式的密码本，人活着就是在对抗熵增规律。人和所有生物一样都遵循最基本的物理定律，都会衰老，都依赖负熵为生。我们可以从机器认知的角度，去理解查尔斯·达尔文的进化论[11]，尤其是物种多样性；理解弗朗西斯·克里克的遗传学[12]，尤其是基因工程；理解埃里克·坎德尔的细胞学[13]，尤其是认知神经生物学。为此，必须理解机器如何依靠能量形成秩序的，如何通过和外界交互产生负熵的，进而理解机器是如何思维、如何认知的。

宇宙浩瀚，星河流转。宇宙是由物质组成的，物质和能量可以互换。有人说宇宙大爆炸是一次新的涌现，也有人论证是宇宙大爆炸诞生了地球[14]。地球上早在生命出现之前就存在有多种多样形态的物质，几百万年来人类在地球上生存繁衍，日出日落，冬去春来，人类认知的进化，创造了越来越多的人造物，终于从宇宙构成的物质说，逐步发展到今天的“机器认知四要素说”。

2 从“工具二要素说” 到“认知四要素说”

2.1 工具二要素说

首先看看石器时代和农耕时代以来的“工具二要素说”，即物质和结构说。人类发明工具的材质是物质，把各种结构直接寄生到物质上，寄生到构成工具的零部件的相互关系上，结构决定功能，形成硬构体（见图1）。“把第一块石头做成刀”[15]花费的时间是以数十万年计的，物理空间里结构和物质难舍难分。在公元前3200年，苏美尔人就发明了早期的轮子[16]，如果用两个平行的“平面结构”割截一颗天然的树干，再用一个“圆结构”赋予其四周，就成了“轮子” 。倘若没有这个结构寄生在物质上的、让“物体绕轴滚动”的、看似简单的发明和持续发明的硬构体，今天我们很难想象任何一种机械化工具还可以工作。这种知识累积覆盖了从齿轮到自行车、汽车、喷气发动机和精密仪器的所有范围。轮子的发明距今已有5500年的历史，轮子在人类史上的重要作用常常和火的发明相提并论。再例如，人类发明的第一个已知的齿轮计算工具是2000多年前古希腊的安提基特拉机械。如果追溯中国数学的机械化，结构寄生在物质上的最早的算盘，是由我国东汉数学家徐岳发明的硬构体。他所撰的《数术记遗》中有云：“珠算控带四时，经纬三才”。可见，硬构体绝不能简单等同于物质。寄生在物质上面的各种各样的复杂结构，是人类特有的想象力的体现，结构涉及到的尺度，大可大到、小可小到人具身尺度的18个量级左右。石器时代和农耕时代的工具自身没有动力，其结构设计中不考虑能量，工具谈不上是机器，更不是生命，但是已经能够大大扩展人的体力和行为。

ChatGPT

图1 农耕时代的工具：结构寄生在物质上的硬构体的例子

2.2 机器三要素说

为了更好地用机器替代、延展人的体力，工业时代的机器里增加了一个重要要素——“能量”，与物质和结构一起，构成“机器三要素说”。结构直接寄生在物质和能量上，寄生到构成机器的零部件的相互关系上（如图2），形成硬构体，替代肉身，能够运转起来，但不能思维。例如钟摆、蒸汽发动机、电动车等，拓展人的体能，延伸人的行为能力。人类行走的速度和肌肉的力量几千年也没有太大变化，但人类发明的动力机器却大大延伸和拓展了人的体力和行为。人类发明的车辆、船舶、飞机、火箭将人类活动范围延展到陆地、海洋、天空、太空。火箭的速度比人行走的速度高了四、五个量级。如今，无论是机械能、辐射能、热能、化学能、电能、核能，各种各样的动力机器普遍运用，无处不在，能源甚至成为一个国家发达与否的重要标志。在物理的空间里，物质、结构、能量形成的各种各样的复杂硬构体，无论是工具还是机器，对人类社会的生产形态、组织结构、经济繁荣和生活方式带来了根本的变化。

有人把信息革命说成是第四次工业革命，其实未必确切。人类历史已经发生并继续推进着农业革命、工业革命和认知革命，它们并行发展、此起彼伏。石器时代和农耕时代人类发明各种各样的工具，延伸体力。工业革命时代人类发明各类机械和动力机器，延伸和拓展人的体力和行为，但动力机器还不会思维。举例来说，时钟这部机器是依靠物质、能量和结构来维持运转的，然而时间对钟表这部机器的运作没有任何实质贡献。

ChatGPT

图 2 工业时代的机器——硬构体的例子

2.3 机器认知中的基本要素分析

智能时代的认知机器与工业时代的动力机器不同。本文提出机器认知的四要素说，在物质、能量、结构的基础上增加了一个重要要素：时间。

在物理学中，尤其是天体物理学，空间和时间常常是两大维度。物理学中的任何物体，其结构一定寄生在物质和能量上，结构不可能是物理世界的孤立存在物；在空间里的物质和能量的运动和变化用时间去描述，其结构也随时间而变化，物质和能量可以互换，物质和能量在运动和变化中存在，生命在成长或衰老中存在。我们认为，时间是人类创造出来的主观概念，宇宙里没有绝对时间，也不是物理世界的孤立存在物，时间不是任何一种东西，不宜把时间空间化、物化。人类发明了时间的概念，时间分时刻和时间间隔，用来描述宇宙里物质和能量的运动和变化。人们曾经把时间赋予最高的哲学地位[17]，只是把物质和能量的运动和变化在认知空间中的认识赋予最高的地位。结构相对于时间是独立的要素，不会显得过于具体。结构和时间是人类认知、也是机器认知的奠基石。智能源发于人脑，特别是源于难以计数的各类神经细胞相互作用所致的复杂性，大脑新皮质才是形成结构和时间的思维器官。如果没有记忆，我们就永远活在当下，就不会有结构和时间的概念，正是记忆让我们能够为过去和现在的认知提供了连续性，人类才有抽象结构和发明时间的生物学基础。水、空气和营养是维持生命的必须，记忆是人类对结构和时间的认知，并伴随些许遗忘，是维持生命思维的必须，是生命的灵魂，贯穿于生命始终。只有维持正常的记忆，人类才能具有智能，累积智能，实现价值，生命才有历史感，认知才有成长感。结构和时间弥漫在人的整个认知空间里，数学是人类最抽象的软构体，是人类在自然语言基础上使用的最抽象的专业语言。按照爱因斯坦的定义，时间只是钟表面盘上的一个读数。如果把同一批生产的摆钟放置在宇宙的不同位置，会呈现不同的时间，这就充分证明了时间不能完全脱离和独立于空间，只是用来表达空间的一个属性。有了时间的概念，物质和能量可以映射为认知空间里不同时刻（即时间被冻结时）表现出的拓扑结构和关系。

物质和能量是物理层面的真实存在，结构和时间是认知层面的抽象思维，是人类认知物质、能量的存在和变化的状态参量。在人的精神世界里，用结构表达物质在空间的拓扑与形变，用时间表达物质的运动与变化，反映能量的传递与转换。结构和时间寄生在物质和能量上的诸多硬构体，组成机器具身；而机器思维过程中的数字、符号、信息是大量的软构体，如同人在认知空间里表现出来的思想，它们寄生在硬构体或者已有的其他软构体之上，能自我引导，即自举，能自我复用，即递归，能递推使用，即迭代，更能自我复制或者修改，构成想象。至少存在下一个时间周期，使得机器能再去“思考”。时间让机器里有了活动的秩序，思维才能够“活”起来。人类认知空间里的软构体是思维的要素，支撑形象思维、逻辑思维和直觉思维，体现人的丰富想象力和创造力，体现精神世界，有尺度感、时间感和层次感。如果要给底层软构体取名字，可能是些符号、字母、笔划、数字、前后、左右、上下、顺序、快慢等，也有人称为心语，可统称为符号和符号之间的关联状态。至于感觉、概念、信息和知识都是上层软构体，是合并和归类，反映不同抽象尺度，是物理世界在认知空间的镜像和上层建筑，是想象的现实。当今，包括ChatGPT在内的深度学习巨大成功，其历史意义在于：用物理世界大量硬构体训练机器，用标注代替记忆，用足够多次的循环逼近无穷多，用足够大的数逼近无穷大，用足够小的数逼近无穷小，生成不同粒度的软构体。深度学习宏观上属于记忆驱动的经验认知模式，它能够识别不同人在纸上写出的、有差别的图形A这些硬构体，被合并、归类、抽象成软构体的字母“A”，形成记忆；类似地，还可以判断并识别物理世界存在的千千万万个有区别的实体（硬构体），记忆形成认知空间各类软构体的抽象概念，如“山”、“水”、“树”、“草”、“椅子”、“房子”、“人”、“宠物”等等。从认知的层面看，人类一切思维活动都是抽象。软构体是抽象的结果，是思维的“虚单元”，是硬构体的镜像。如果说，脱氧核糖核酸（DNA）是动植物细胞中带有基因编码的化学物质，是寄生了结构的物质，是硬构体，那么基因编码是软构体。再以无人驾驶汽车为例，物理空间的硬构体包括车厢、底盘、轮胎、电机、传感器、芯片等，认知空间的软构体包括操作系统、驾驶脑[18]程序、行车地图、交通规则等。软构体和硬构体交互，虚实互补，形成汽车具身智能。无人驾驶车体的具身行为，可以和有人驾驶区分不出差别来。

这里要特别指出，认知的要素不是指宇宙构成的要素，宇宙说即物质说，我们从宇宙构成的单要素（物质）说起，到工具构成的二要素（物质、结构）说，再到动力机器构成的三要素（物质、结构、能量）说，再发展到机器认知构成的四要素（物质、结构、能量、时间）说。尽管在物理学中，物质和能量可以互换，但在认知过程中，只有物质，没有能量，无法进行思维活动，也不可能有感知和行为。机器如果停止了能量供给，如断电，机器就死了；而后如果又恢复供电，机器可以再次自举，激活操作系统，重新进入认知的工作状态；但是认知的机器中的硬构体不可能自成长，自我修复，更不可能自我复制，这和软构体很不一样；硬构体老化了、失灵了，被修复之后可以重启，如果有新的硬构体、软构体加进来，只要适配，升级之后，可以提高机器认知的能力。认知的机器毕竟不是细胞组成的生命，没有细胞裂变和生长的生物学基础，不可能繁衍，不可能自我复制机器自身，不能自开机。但可以在四要素的支撑下，自我复制软构件，复制和延展思想，实现认知的自成长，表现出具身智能和通用智能，也可以使自身处于睡眠态，等待被叫醒。

400万年来的人类进化，形成基因优势，脱离野蛮，将结构直接寄生到物质上，发明工具；300万年来人类形成语言优势；6000年前人类发明文字和教育，形成文化文明优势，成为第一次认知革命；最近500年来利用物质、结构和能量，发明机器，形成科技优势，解放了人的体力，大大扩展了人类活动的物理空间，成为第二次认知革命；最近100年来发明更多的传感器和思维机器，解放人的智力，形成智能优势，人类进入第三次认知革命。物质、能量、结构和时间是人类认知的核心要素，也是机器认知的核心要素，认知的机器里增加了更多的软构体。

3 用“认知四要素说”解释典型认知事件

3.1 解释爱因斯坦质能方程

1905年爱因斯坦提出的质能方程E = mc2，是人类在认知空间用结构和时间对宇宙物质和能量之间秩序的认知，依靠软构体 “位移”、“米”、“千克”、“秒”、 “焦耳”、“速度” 等概念的支撑，对宇宙中物质和能量关系进行解释[19]，光速C = λM·fM，其中，λM、fM分别为物质对应的波长与频率，代表了该物质独有的物理性质及其空间波长与时间频率特性，表达能量和质量可以互换。每千克的质量可转化为焦耳的能量。宇宙中的物质是从大爆炸中的能量转化而来的[19]。物体以辐射形式放出能量，其质量就要减少，体现宇宙的整体不变量和质能的统一性。若没有“位移”、“米”、“千克”、“秒”、 “焦耳”、“速度” 这些软构体概念，物质和能量的关系是无法解释的。质能方程将物质、能量、结构和时间四要素及其转换规律，于一个公式中表达。

3.2 回看西蒙的 “物理符号系统假设 ”

回顾人工智能符号主义的先驱赫伯特·西蒙和艾伦·纽厄尔在1976年提出的“物理符号系统”假设[20]，用以表达思维活动中的抽象能力，并认为它是一般智能行为的充分必要条件。数学是培养抽象思维的手段之一，抽象源自早期人类的模仿活动，是思维的想象和创造活动，物理实体通过人的认知抽象，被去伪存真、由表及里、去粗取精之后，成为软构体，体现为一般性、普遍性的符号，形成记忆，并不是真实存在。符号系统由一组代表实体的、抽象的“符号”组成，可以作为另一种称为“表达式”（或符号结构）的再组合。西蒙后来又进一步提出了认知系统模型，提出组块理论[21]，将零散的构件组成有意义的信息单元。现在看来，这些极为有限的符号、表达式、及其集合和操作，都可以称为软构体，只不过存在多个抽象层次，软构体的抽象尺度各个不同。高层抽象的软构体操作，可以由较低层的软构体支撑完成，而较低层次的抽象又可以由更低层次的抽象实现，或上下跳跃，或层层递归。但西蒙的物理符号系统假设在底层远远低估了人类抽象能力的丰富性，过于简单，构不成充分条件，软构体之间也无需那么严格的逻辑关系。当今大语言模型的成功证明了这一点，ChatGPT有高达千亿个参数。除了抽象之外，联想和交互不可或缺，这是物理符号系统假设中没有注意到的。创造力源于想象力，想象力源于大胆地抽象和朴实的联想，深化于冷静地类比，终极于实践的验证。软构体之间的拓扑连接关系多种多样，联想导致关联，导致相似、类比[31]和迁移，由此及彼，触类旁通，举一反三，形成通用知识和一般智能。交互还确保了抽象和联想不可脱离物理世界，得到验证，确保知行合一。然而，西蒙用相当于高层软构体的新符号结构，体现思维活动的迭代发展，让机器通过递归来完成思维，贡献巨大。西蒙因在人工智能、认知心理学和编程列表处理方面的奠基性贡献获得图灵奖，后来又荣获诺贝尔经济学奖和美国心理学协会的终身成就奖，1994年还当选为首批中国科学院外籍院士，让我们敬佩。

3.3 硅基机器成为人类思维的超强加速器

图灵在1936年发表《论可计算数及其在判定问题中的应用》 [22]，对可计算本质进行了严格的数学定义，提出的图灵机是一种简单但运算能力极强的计算模型，奠定了“计算就是智能” 的理论基石。用图灵机可以计算所有的能想象得到的可计算数。后来著名的“邱奇—图灵论题” [23]说明了 “λ演算、递归函数和图灵可计算问题的等价性”，即：所有能行可计算或是机械程序可计算的函数，恰好就是用一般递归函数去逼近无限。可以认为“图灵可计算”是软构体依靠自我复用来逼近无限的过程，开创了机器暴力计算的先河。

以人类对圆周率的认知为例展开讨论。公元前1900年，古巴比伦石匾记载圆周率约等于25/8（3.125）。公元前200多年，阿基米德利用圆的外切与内接 96 边形，求出了圆周率的取值应该在3.140845和3.1428571之间。公元500年，祖冲之为了计算圆周率，在地面画直径1丈的大圆，从这个圆的内接正六边形一直作到 12288 边形，得出π值在3.1415926与3.1415927之间。依靠生物自然进化的人类，借助简单工具计算π值，小数点精度提高1个位数，用了1700年，提高4个位数，又用了800年。然而，1950年在ENIAC计算机上算出π的2037个小数位。1954年在NORC计算机上用13分钟算出3089个小数位。1989年用IBM－VF型巨型机算到小数点后10.1亿位。2010年日本人自组装计算机，算出小数点后50亿位。2011年计算机算到小数点后万亿（1012）位。如果一张A4纸可写60行，每行写17位，要10亿张纸才能写完，纸叠在一起，叠高要10万米！人类借助电脑，图灵机可计算，软构体复用，π的小数点精度提高到1012，仅用了70年。由此可见，硅基机器是人类思维的超强加速器和智能行为的超强放大器，暴力计算呈指数级增长的速度是碳基生命智能望尘莫及的（见图3），人类应该充分享受机器暴力思维的红利，让人工智能服务于工程师的联想驱动的创作模式和科学家的假说驱动的发现模式。

ChatGPT

图 3 用硅基机器计算圆周率精度暴力程度的形象化

硅基机器的暴力计算能力开创了机器动画和虚拟现实的新方向。认知机器里的抽象和联想，通过暴力计算可以生成许多骗过人眼的虚拟现实，如制造出虚拟海啸。当然，如同过度的想象力有时会导致精神病人有幻觉和妄想一样，硅基机器有时也会掉进软构体的死循环，表现为死机，但依然消耗着能量。

人们讨论生物自然进化现象，常用的时间尺度是 “万年” ; 讨论人类文明生态现象，常用的时间尺度是 “千年”; 讨论人类思维和认知的进步，尤其是科学技术的发展，常用的时间尺度是 “百年”甚至 “十年”。当前，智能机器的思维速度已经到达纳秒（10-9）级别，正在奔向皮秒（10-12）、甚至飞秒（10-15）级别，正在用足够小逼近无穷小。人类思维的速度几千年并没有太大变化，依靠自然进化的碳基生命体的反应速度，仍然停留在毫秒（10-3）级别，或许更低。机器思维速度把人类思维速度抛在后面七八个量级。随着计算机时钟精度的提升，CPU的工作频率同步提升，相当于幼儿认知核[24]中语言指令（无论是复杂指令集还是精简指令集）的执行周期被大大缩短。量子计算机的介入，算力还会暴涨。当今机器围棋程序[25]和蛋白质折叠结构预测[26]超强于人脑，不足为怪，更重要的是机器暴力思维可以反过来促进人脑的想象力。图灵在1950年的《计算机械和智能》[27]中说:“我既不贬低不能在选美竞赛中有出色表现的机器，也不贬低同飞机赛跑失败的人”。今天可以这样来理解：我们既不贬低没有意识和情感的思维机器，也不贬低思维速度远远不如硅基机器的生物人。认知机器超越做文秘工作的一般都市白领是完全可能的，要替代情商高、直接服务人的工作还有难度。但是，给之时日，也会有改进。

4 具身图灵测试的常态化

4.1 自动驾驶的出路：车辆具身行为测试的常态化

目前，无人驾驶常常被误认为是一个自动控制问题，受到国际汽车工程师学会（SAE）J3016标准提出的L0到L5等级划分的过度影响；或者是深度学习中的预训练加微调的问题，受到英伟达等端到端深度学习的过度影响。有人从道路环境入手，强调智能网联，依靠北斗/GPS高精度定位、RSU/OBU等路边设施的引导、5G/6G通信网络、或者高精度导航地图[28]来满足驾驶认知的需要；还有人在车辆上增加越来越多的传感器，摄像头增加到几十个、激光雷达增加到七八个，并从64线上升为128线甚至更多，还追加毫米波雷达、红外线雷达等；更有人一味的让智能车在实际道路上行驶上百万公里，企图补全各种情境或事故态势；而交通管理部门正在建立各类测试评估标准，企图囊括尽可能多的驾驶情境，如换道超车、无保护左转、汇入汇出车流、十字路口拐弯、侧方位停车、跟随驾驶、雪地行驶、侧翻、爆胎等事故防范等等，以便给智能车发放驾照。十多年前，我们就提出研发驾驶脑，率先在全球成功地完成了北京至天津、郑州到开封实际道路的无人驾驶。当时所用客车的底盘是一家著名的客车制造商生产的，他们最近忍痛决定停止自动驾驶的研发而转入外包。老百姓戏说自动驾驶“只听楼梯响，不见人下来”，自动驾驶产业化举步维艰。

汽车有着近200年制造发展的辉煌历史，是工业革命的典范，也是智能制造的典范，成就了人类的移动生活。尤其是汽车人体工程学的实践，通过方向盘、油门和刹车，非常自然地延伸了人的四肢和体力，车子成为受控制的身体的一部分。尽管车辆动力学研究日趋成熟，汽车的自动化已经做到了极致，但无需驾驶员的汽车自操控，如果不能像人一样具备与时俱进的学习能力，面对行人没有礼让，切换道路不够果断，尝试并道没有试探，和周边车辆行人的打车需求没有交互，不能应对各种边缘工况，是很难获得人类社会认可的。智能驾驶更核心的是驾驶认知的形式化，是机器驾驶脑的研发和量产，是如何确保机器驾驶比人驾更安全、更节能、更舒适的问题，让曾经的汽车制造商去研发驾驶脑实在是勉为其难。“具身图灵测试”是指测试第三方从机器表现的行为上无法区分各种各样的动力机器是由人操控的，还是机器自主操控的。驾驶事故是无法穷尽的，意外之外还有意外，用车辆的具身图灵测试无法区分是标杆驾驶员还是机器自驾驶，车辆的具身交互智能才是无人驾驶的出发点和归宿。

ChatGPT

图 4 机器驾驶脑的学习过程

机器驾驶脑的一个突出优点，是始终保持注意力，专注车辆行为过程中当前路权和驾驶态势图的自生成，这是会疲劳、有情绪的人类驾驶员无法做到的，无人驾驶是技术发展的必然趋势。教机器开车，培训机器驾驶脑接替标杆驾驶员的工作，有如下三个循序渐进的环节。首先是标杆驾驶员操作、机器驾驶脑学习，这是指导学习；然后是驾驶脑自作业、标杆驾驶员干预，这是半指导学习；再是机器自操控、自学习，这是自主学习。图4中从后往前的反馈是多次的，带有不确定性，有时回到指导学习，有时回到半指导学习。指导学习包含先入为主、赋予任务、引导、释疑、解惑、交互认知、监督等；而自主学习是把指导学习的结果转为长期记忆的重要环节。只有机器的自学习，不断地迭代，才能实现认知的自成长。驾驶脑还可以灵活外挂记忆棒，如典型情境应对库、事故防范库、泊车库等，能够在指导学习和强化学习、特别是自主学习的过程中把越来越多的驾驶未知变为已知，让注意力始终盯住当前路权的变化，自纠错，用具身图灵测试的常态化实现驾驶认知的自成长，这才是无人驾驶的根本出路。

4.2 具身图灵测试常态化是对话图灵测试之后的又一个里程碑

语言智能是人类智能最基本的体现。当前，ChatGPT 正在全人类面前接受着日复一日的、实时的图灵测试[29]，有着不凡的表现。对话，无论是听和说，还是手写，还是敲键盘用文字沟通，都是一种具身的行为，都要消耗能量。但是，GhatGPT无法取代一个人的多种智能，因为它从来没有在文本之外的物理世界中获得过任何行为体验和经验。在人类长时间的进化过程中，除了用视听觉交互之外，更多的是用四肢和躯体与外界环境进行物理交互[30]，我们常常称之为“劳动”。各种各样的动力机器普遍运用，千差万别，无处不在。如农田里的拖拉机、插秧机、收割机，工地上的掘土机、起重机、盾构机，运输线上的汽车、飞机、轮船，工厂里的发动机、发电机、机床、生产线，太空里的航天器，等等。机器不停地运转，创造了一批又一批新的劳动岗位，特别是技能岗位，培养出一大批优秀操作手、能工巧匠、大国工匠，其操作技能常常让人们惊叹不已。人围着机器转，机器围着人转，一代代重复着，成为生活的常态，恩格斯甚至发出“劳动创造人类”的感叹。一切有关动力机器的设计、实现、评估都涉及到人的操控，人与机器的交互，人体具身与机器的行为互动，并且朝向更加完善、自然、便捷的方向发展，人成为整个生产活动实时控制的中心。

如果工业革命以来人类发明和使用的各种各样的机器都能够被人工智能润物细无声地渗透，实现自操控，夜以继日，不知疲倦，在行为上和由能工巧匠操控的机器具身行为不再能够区分，人们将从日复一日的、亿万个形形色色的机器劳动岗位（特别是艰苦工作岗位）上解脱出来，不再长期被各种各样的机械和机器所奴役和捆绑，仍然能够保持各类工农业产品、生活用品的增产、保持经济和社会的繁荣，人们更多地从事更具创造性的自由劳动，人类社会将发生多大的变化啊！所以，无人操控机器的具身图灵测试的常态化，将是继对话图灵测试常态化之后的又一个重要里程碑，也许这个过程不用百年，车辆的自操控亦或会首当其冲。

对任何一台机器，我们希望它一专多能，但不奢望它全知全能，无所不能。我们希望智能机器能自主操控，替代人类社会中各种各样的劳动，尤其是艰苦条件恶劣环境里的工作岗位。机器所感知的世界，由其配置的异构传感器所决定，传感器的种类和精度决定机器感知的质量，决定机器所观察到的物理世界的极限，影响机器的认知和智能，人类完全可以不受碳基生命感知器官的限制，给机器配装上各种各样的硅基传感器和识别系统，比如让它或者戴上显微镜、望远镜，或者看到偏振光、电磁场，或者听到超声波、次生波，配置北斗定位接收机，甚至把特定形式的语言，如编程语言、美术语言、化学语言、材料配方语言等赋予不同的机器个体，让它用专业的术语和人类专家交互。机器的行为即具身智能，和机器具身动力学性质息息相关，例如自驾驶的汽车行为和车辆动力学相关，自航行的水面舰艇行为和船舶海洋动力学相关，自驾驶的飞机行为和机身空气动力学相关，自操控的盾构机和其伺服系统行为相关，自操作的手术机器人和手术刀的灵巧性相关，人类完全可以给机器配置各种各样的、或强大或精细的动能行为装置。因为机器不再受人的感知器官和行为能力局限，不再受肉体的局限，随着机器认知的自成长，几乎任何劳动岗位上，机器做得比人好是很正常的事情。

ChatGPT

图 5 机器学习和机器自作业中的交互和协同

自操控的认知机器除了有金属和非金属的物质组成各种机械之外，可以有强大的动力系统和复杂的伺服系统，更重要的是，可由现场可编程门阵列（FPGA）、数据处理单元（DPU）、计算处理单元（CPU）、图形处理单元（GPU）和张量处理单元（TPU）、及存储器等异构的、硅基的硬构体组成，还可植入体现基因遗传的“幼儿认知核”的硬构体，形成机器具身，在其上再寄生丰富的、多尺度的软构体，可自举和自我复用。智能机器与人的交互通过跨模态感知，实现行为的外循环。机器脑中有异构、并行的瞬时、短时和长期记忆，它们之间的协同构建记忆智能。目前的机器脑中，瞬时记忆和短时记忆，根据系统需求可以采用DPU、GPU、TPU、FPGA等并行处理器和电路，而计算则可采用CPU、GPU等处理器实现。未来的机器脑，有可能采用处理效率更高的3D存算一体化等新架构系统芯片。总之，新一代智能机器是异构的、甚至是超异构的组成，这些机器在学习和作业中，与调教机器的人交互，实现使命对齐（见图5）。软构体通过硬构体在物理世界获得反馈，充分利用预测和控制，形成感知-思维-行为的循环回路，得以证实，才能形成越来越正确的认知。

ChatGPT

图 6 机器自作业流程图

可交互、会学习、自成长的认知机器的自作业流程图，如图6所示。图中可以看到控制系统的多层次的嵌套执行，有具身行为的反馈回路，有注意力的反馈回路，有传感器的感知环境的反馈回路，在各层级间进行合理分配；有长期记忆、瞬时记忆、工作记忆的转换，有搜索相关事实和知识的引擎，有行为的决策，更有对记忆的修改和对记忆的快速提取，通过纠正错误的负反馈回路来对齐使命目标。

5 结束语
智能时代的机器智能，已经从数学的机械化跃升为思维的自动化，进而跃升为认知的自成长。从对话图灵测试的常态化，走向具身图灵测试的常态化，认知机器将和科学家、工程师、能工巧匠一起做出发现、发明和创造。人类将进入到了人机共生共创、迭代发展的智能时代，也为可交互、会学习、自成长的新一代人工智能的系统架构奠定了基础。

最后补充一点，人体肉身行为的模拟，其实并不是人工智能的重点，因为智能科学和技术主要不是做人工生命，也不是追求类人形状的仿生工程，至今我们没有看到哪一台机器自身能够有一丝的自尊心或者好奇心，更看不到全世界机器人联合起来的任何迹象。

我们应该牢牢记住，人类发明认知机器的根本目的，是把物理世界直接当作认知对象，解释、解决人类在生存和繁衍的过程中遇到的现实问题。让我们拥抱认知机器替代社会大量人力劳动岗位，并辅佐人类更多创造的新一代人工智能时代。人类一定会更加智慧、更加尊严、更加优雅地生活！

打开APP阅读更多精彩内容