机器是否也能拥有“意识”?何通过数学和计算机程序来实现这一点?

电子说

1.2w人已加入

描述

9月20日,在新智元AI WORLD 2018世界人工智能峰会上,伦敦大学学院计算机系教授汪军作了《论机器意识的可能和实现》的演讲。汪军教授的研究方向之一是多智体强化学习,由于最近在研究“机器意识”这个课题,汪军教授的演讲也从“意识”讲起,最后讨论了机器是否也能拥有“意识”,如果答案是肯定的,那我们又该如何通过数学和计算机程序来实现这一点?

我们是谁?我们从哪里来?到哪里去?

这是一个永恒的问题。

9月20日,在新智元AI WORLD 2018世界人工智能峰会上,伦敦大学学院计算机系教授汪军作了《论机器意识的可能和实现》的演讲。

伦敦大学学院计算机系教授汪军

汪军教授的研究方向之一是多智体强化学习,也就是有多个“agent”互动,包括沟通、协作与竞争。由于最近在研究“机器意识”这个课题,汪军教授的演讲也从“意识”讲起,最后讨论了机器是否也能拥有“意识”,如果答案是肯定的,那我们又该如何通过数学和计算机程序来实现这一点。

汪军教授介绍了他们团队研究用AI打桥牌的例子。相比完全信息博弈的围棋和不完全信息但只需要一对一的德州扑克,桥牌是一种不完全信息博弈,而且需要选手两两组队,相互合作与竞争。这个游戏更贴近于现实世界发生的情况。

研究结果表明,AI在打桥牌时,能够学会相互隐秘地沟通,最终取胜。也是这一点,让汪军教授想到机器意识兴起与实现的可能。

“很多原理实际上并没有那么复杂,”汪军教授说:“只要你去研究并做出来的话。”当然,现在还都是非常初步的探索,因为首先,目前学界对“意识”还没有统一的定义。

以下是汪军教授在新智元AI WORLD 2018世界人工智能峰会上发表的演讲实录。

机器意识的兴起和实现不是没有可能 

汪军:我给大家放个好玩的视频。

我想通过这个视频引出我今天要讲的话题:我们自己到底是谁?我们从哪里来?到哪里去?这个话题非常非常大。让我们先看看哲学家的理解。 

有一点是很有意思的:我们作为个体,我们自己会有感情,我们会有爱,有恨。当我们听到王菲的歌,会觉得是天籁之音;当我们听到摇滚乐,我们会非常兴奋;当我们阅读一本书的时候,我们会隔空和作者进行心灵上的沟通。

这一切就定义了我们人类,它其实跟人的意识有关。关于意识,17世纪的时候哲学家笛卡尔已经做过一些系统的研究和学说。比如他提出“二元论”的理论,认为人作为个体存在两个世界,一个是灵魂世界,一个是肉体世界,通过大脑里一个叫松果体的部位进行交互。通过这种交互,产生了人的各种各样的行为。这个理论非常有局限性,无法解释很多比较高级的认知智能,所以最后也就流于唯心主义的理论了。

人的意识到底是什么?现在学术圈普遍认同的一个定义是“主观的经验”,就是说意识和现实可能不一样,是你自己主观的感受。有一个好的评判方法是可以用某种方式去表达,告诉别人。

例如,请看上面这张图。如果大家聚焦视线,把注意力放在中间的+上,会发现边上的圆圈会逐渐消失,当把眼睛挪到别的地方,边上的圆圈又出现了。说明你看到的东西并不代表就是真实的,它们之间有差别。通过大脑能给出一定的解释。

意识作为科学的一个学科或作为科学的一个研究课题,其实也只是在上世纪90年代大家才开始非常严肃去研究。有两位比较主要的贡献者,一位是Francis Crick,他是英国的生物学家、物理学家和神经科学家。他最大的成就是和他的同事James Watson发现了DNA的分子结构,并因此共同获得了诺贝尔生理及医学奖。他们两个一起提出了一系列实验方法去测量当有意识时,大脑里面的神经活动是怎样形成关联。这从某种意义上证明了意识是有一种机制存在于大脑中的。

之后其他研究人员继续在这个范围研究。法国有一位科学家研究发现在控制人的身体时,其实有两种不同的机制。做相同的动作,可以是潜意识的,也可以是有意识的。他设计了一个比较巧妙的实验方法,可以把潜意识和有意识的动作分开,然后用脑电波或大脑造影做测试,看大脑神经元的激活状态。他发现在有意识和无意识情况下,神经元的激活是不一样的。有意识时候,神经元激活的位置是在大脑比较高级的部位,而且比较全面、多方面;潜意识的时候,神经元激活的位置是在比较低级的地方。

另外一个很有意思的研究,科学家发现了条件反射的机制,提出其实这个机制跟计算机里的强化学习方法其实是一样的,即通过一个多巴胺神经元,预测到有一个错误,对这个错误不断进行更正。  

人和机器其实都是信息处理系统。既然是信息处理系统,可以从三个不同的层次去理解:

1. 计算理论是什么,到底需要计算什么。

2. 表征和具体算法。

3. 具体硬件实现。

我个人认为前面两点,人和机器是非常相似的,甚至会问同样的问题。只有到第三个层次,硬件的状态,人和机器是不太一样的。 

计算理论。意识到底是什么?目前还不是那么明晰,但是有一些不同的理论提出来,这里我讲两个可以接受的理论:

1.Global Neuronal Workspace,就是认为意识是在大脑里进行的全局的互相的信息共享,比如在工作台上你可以拿出以前的记录,比如内存,可以去看一些低层次的视觉上的结果,有一些奖励机制。通过这些信息共享把大脑各个部门及时调动起来,这时候就有意识了。

2.从信息集成度来解释意识。集成信息理论是解释大脑内部信息之间交换的一个理论,也就是说如果这个系统在全局里的信息量大于任何内部小子集的信息量,就可以认为信息集成度高的有可能产生意识。

如果它们之间能够交换,有空间跟时间上的关系,比如有内存的话,比较简单的模型有意识的可能是比较高的。

元世界模型:对世界建模 

有了这个理论,看看现在机器学习,特别是强化学习方面到底做了什么,我们有什么缺陷,再去提高理论和实际算法。

比如说,这是微信的跳一跳小游戏,我们将图像作为输入,用算法做判断,机械臂点按屏幕来玩这个游戏。我买了这个机器臂,没玩两个星期就折了,我在微信里发了一下,一个深圳厂家说,汪老师你这个太烂了,我送你一个。然后就送我一个,我玩了大概一个月左右又坏了。 

这个小东西很有意思,可以理解神经网络从一个图像进去,最后一个决策出来,是怎么回事。图上亮点的地方指示系统的注意力在哪里,左边两个图是做正确的决策,取决于知道自己位置在哪里,知道前方目标在哪里。而右边两个都是错误决策,我们会看到方向判断错了。比如第二幅图目标放到了相反的方向,所以最后按键计算就是错误的,目标也是错误的。

当计算出两个目标以后,神经元激活了,激活以后,每个神经元控制一个目标,这个目标就是在它的范围内激活的,到最后一层时,把信息结合起来,就能算出到底应该按多长时间。

这跟我们做分类其实是一样的,就是从输入一直到输出。用集成信息理论来讲,它是不可能产生跟人一样的智慧的,就算能够做成ALphaGo,能够超过人类,也是没有人的意识的。 

那么强化学习的弱点如何解决?我们的思路是Agent内部算法有不同的层次,我们要潜意识拿一些统计数据过来,然后通过所谓的Global Neuronal Workspace把各个信息集成起来,再去决策。主要两个部分,一是对周围环境的建模,一是对敌人(对手)的建模。

人每天都经历不同的环境,环境世界是有个性的,我们就给单个Agent做了一个Meta-World Model,就是多个世界集合在一起,发现它的共性。当我们学到Meta-World Model以后,Agent就可以想像了,可以做梦了,可以在它的脑子里面去运转了。这个不是从外面采集的,是Agent在它的算法里面不断玩这个游戏的状态,通过它,我们可以去做决策。

我们有一个很有意思的发现,当建立一个世界模型时,特别是Meta-World Model,Agent就知道它在这个图像里面处于哪个位置了。如果看以前任何玩游戏的模型,其实Agent不知道它是在图像里哪个部位的,但我们用这个Meta-World Model就可以知道。

多智能体如何合作

我们知道BP算法是主流的深度学习算法,但用在多智能体时,却失败了。例如,这是一个非常简单的matrix game,左图是用BP去计算的,认为Agent之间是独立的,是不可以收敛的。当对其他对手建模时,发现非常快就可以收敛到中间。我们建了对敌方建模的方法来玩多Agent的游戏。

我们让Agent去打桥牌,这个任务很有意思,跟AlphaGo相比有两个大的技术难点:

1. Agent之间是合作关系,而围棋只是一个Agent。

2. 不完全信息。在打牌时,对方手上的牌你是不知道的,所以在建模时,要不断预测。

在这个环境下,如何去理解两个Agent之间如何合作?

我们聚焦在叫牌这个阶段,目前为止还没有人可以解决。上图左边是专业选手在玩桥牌时,两个人会坐下来定一个规矩,比如出2红心时,告诉你我的牌是什么,出3黑桃时,告诉我你的牌是什么,他们俩约定好,打牌时把信息就传给对方。

我们让Agent去学习时,开始不知道,通过我们这个模型就学出来了它们自己不明晰的通讯方式,通过互相叫牌,把信息传给对方,这是他们之间约定的一个Code,它是一个最优的解。

例如,刚开始,北家的Agent是红桃,当两者不停叫牌时,最后通过通讯方式知道其实两个加在一起时,黑桃会更好,就改变了叫的花色。如果玩的是两个Agent,Agent多的情况下怎么办?我们把一个多Agent到上百万转换成两个Agent,相当于一个Agent和周围其他人的平均值做一个交互。

最后讲一下应用。对其他Agent做一个模型,包括对世界建一个模型,从意识里更进一步,并不代表它就有意识了。但是我们只往前走了一小步,实际应用里有更多以前无法解决的场景可以解决,比如互联网广告里,广告主去排名竞价时会考虑到其他广告主的行为。

我们现在正在探讨多智能体在无人车领域的应用。在某些特定场景,比如说过匝道时,怎样在拥挤的情况下对其他车辆进行模拟,以及对匝道环境模拟,怎样有效地在堵车情况下通过。另外一个应用场景是在交通路口红绿灯的时候,怎样通过跟别人的交互,高效地通过交通路口。

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分