OpenAI分裂大戏终于告一段落。在短短数天内,创始人Sam Altman被扫地出门,先是谈判破裂,高调宣布加入微软,又在超700名OpenAI员工联名抗议后,重回帅位。
这一切看似尘埃落定,但伴随着此次OpenAI纷争,一个潜藏的深层次议题浮出水面:考量AGI的未来轨迹时,有两种观念:一方面是“有效加速主义”,主张无条件加速技术创新,快速推动社会结构的颠覆;另一方面是“超级爱对齐”,强调在AI发展过程中必须注入对人类的深层关怀与爱,以确保AI对人类的安全性。
归根结底,这场博弈背后,有一个看似宏大,但关系到每个人生活的终极问题,AGI到底是工具,还是数字生命?
什么是通用人工智能?
1)一张图讲清AGI&TSAI
人工智能的概念其实很早就有了,至少在AlphaGo战胜人类第一围棋手李世石时,大家就对它有所了解了,但当时为什么没人站出来讨论范式转换和人类未来呢?2022年11月30 日,ChatGPT问世,才改变了我们对未来的思考。
假如去年的我来听我今天所讲的内容,我一定会认为这是天方夜谭,像是科幻小说里的情节。过去一年所发生的事情,使得我今天分享的PPT版本可能已经迭代了十版以上了。这个领域进展得太快,超出每个人的想象。
那么,为什么我们会把ChatGPT和之前的人工智能作出如此之大的区分?我给大家做一个简单的类比,如果在我的左边是类人猿,在我们的右边是现在的人类,ChatGPT和以前的人工智能的区别就是猴子与人的区别。
在左边以AlphaGo为代表的人工智能,被称为TSAI(Task-Specific AI),可能它下围棋很厉害,可以超越所有人类,但是它无法有其他的功能。但是右边的人工智能,被称为AGI(Artificial General Intelligence),它不仅能下围棋,还能开车,能像人类一样做很多事情。
用一张图来讲清楚AGI和TSAI的一个区别。
X轴代表环境的复杂度:左边是一个封闭的环境,只允许做有限的事情。而另外一端是开放的环境,是一个广袤的世界,可以做任何事情。Y轴代表你要去完成某个任务时所采用的策略:一边是静态的策略,一边是动态的策略。
接下来,我们把现在已知的所有人工智能全部放入这四个象限里面。
第三个象限是我们传统的CV,也称为计算机视觉,这是过去十几年里创业主要集中的领域,比如面孔识别、语音识别、文字识别等。这一象限是封闭环境里的静态策略,比如面孔识别只需要把辨认面孔这件事情做好就行,不需要再有其他功能。另外,静态策略意味着一旦训练完成,就不会再变,它指向单向的、简单的任务。
第二象限是以AlphaGo为代表的人工智能,是以强化学习为主要手段的一系列的人工智能的产品,比如说它可以下棋、下德州扑克等。这些产品在军事领域里得到了广泛的应用,比如说无人机作战。在这一象限里,人工智能逐渐已经达到或部分超越了人类的能力。
第四象限处在一个开放环境里,但它的策略为静态。比如波士顿Dynamic的机器狗,它能在沙漠里、雪地里、草地上行走,但是策略相对简单,就是保持平衡,向前移动。
这三个领域就是我们所说的传统的TSAI领域。
然后来看人类皇冠上的最后一颗明珠,我们人类最后的尊严就集中在这一象限,也就是我们称之为AGI所在的象限。它的展现其实非常简单,可以跟朋友聊天、带家人去海边玩,开车四处游荡等等,这就是我们每个人每天做的事情,看上去平平无奇,但它有两个非常了不起的特点。
第一个特点是“任务的切换”。你和同事开会时所采用的任务策略和带家人去旅游所用的策略是完全不同的,所以说策略需要动态的调整。
第二个特点是“环境”。当你在星巴克喝咖啡与在足球场踢球时,所处的环境也是完全不同的。
这就是AGI所触碰的领域,它是在开放环境里的动态策略。我们通常认为,这类人工智能会在500年后实现。而以ChatGPT为代表的大语言模型的出现,让我们对人类未来的畅想提早了500年兑现。
2)ChatGPT背后蕴含了巨大能量
假设你去问ChatGPT,你到底能做什么?它会回答出四件事情:提供信息、回答问题、进行对话、生成一些创造性的内容。听起来似乎很平常,与人类每天所做的事情大致相似,但其实这背后蕴含了巨大的能量。
我给大家举几个简单的例子。
一个妈妈问ChatGPT:“我的五岁宝宝总是提到一只超级向日葵刺猬Larry,我问他,这个生物究竟长什么样子,他却说不出来,说你能告诉我这只超级向日葵刺猬Larry长什么样子吗?”ChatGPT立马给出了相应的图像。然后,妈妈又接着说:“现在我要哄小孩睡觉,你能给我编一个关于超级向日葵刺猬的一个睡前故事吗?”立即,ChatGPT写出了一个相关的故事。
“柳树Willy非常的伤心,感觉自己不像其他植物那么有用。Larry看到了Willy垂下的枝条,问道,嘿,Willy,你为什么拉长了脸?Willy说,我希望成为一个像你这样乐于助人的人。Larry笑着说,Willy,你已经是了,每当有疲惫的旅人经过的时候,他们都会在你的树荫下休息,风一吹,你的树枝就会翩翩起舞,奏出美妙的乐章。在这片草地上,我们每个人都有特别的使命。Willy笑了,他意识到自己也有自己的用处。”
你看,这不是一个简简单单的哄小朋友睡觉的故事,它的文辞优美,而且背后蕴藏了一个非常深的哲理,每位成人也是能够有感受的。它竟然是ChatGPT所编出来的。
乔布斯在1995年接受访谈时,说了这么一句话,“我希望有一天,我们能够在计算机中捕捉到亚里士多德的世界观。在这一天,学生不仅能够阅读亚里士多德写的文字,并且还能够向他提出问题并得到答案。
今天,你也可以借助ChatGPT来轻松地完成这一切。把亚里士多德的所有文字上传给ChatGPT,再告诉它说我希望你以文档里面的思想、表达的方式来与我进行对话。你就创造出了一个虚拟的亚里士多德。如果你问它,2023年,这个世界变得更好还是变得更坏了?它会从技术上、人文方面为你分析。这个时候,你真的就像在和一个智者对话。它可能从根本上在改变我们的思维方法。
此外,OpenAI的首席科学家伊利亚最近接受《麻省理工科技评论》的采访时就表示,用户可以使用AGI做很多不可思议的事情,比如让自动化医疗保健比医院便宜一千倍。
混沌教学的时候,我们经常说,能有十倍好,就是一个很好的方向。现在不仅仅是十倍好,是效果好一千倍,价格低一千倍。那行业迎来的就不再是迭代更新,而是颠覆性的改变。
AGI的实现之路
既然ChatGPT这么厉害,它从何而来?为了回答这个问题,我们必须追溯过去几十年里人类为探索通用人工智能所做出的一系列努力。我们试着分析人类探索通用人工智能的几条道路。
1) 巴普洛夫的狗,行为的强化学习
巴普洛夫的狗听见铃声就会分泌唾液。怎么做到的?在实验里,工作人员给狗端上食物之前会摇一下铃铛,然后再把食物然后端给狗。一般来说,狗看见食物会天然地分泌唾液,而端上食物之前摇铃铛的动作持久重复之后,狗仅仅听到铃铛响声就会流下唾液,形成了我们通常所说的条件反射。在学术界,这一过程被称为强化学习。强化学习的底层逻辑就是奖励,这一点被用来塑造各种各样的行为,比如在马戏团里猛虎能够穿过火圈。
强化学习的奠基人Sutton发表过一篇文章,标题简单粗暴,Reward is enough。意思是要实现通用人工智能,只要有一点就可以了:强化。
2)人类神经系统,脑的智能进化
人类的智能行为由大脑产生,因此了解大脑究竟是如何运作的,就能产生相应的智能,这背后的逻辑是进化。例如,线虫只有302个神经元,它只能作出非常简单的行为,每天在水里面游来游去,碰见食物就吃,碰见天敌就躲。果蝇有百万个神经元、斑马鱼有千万个神经元、老鼠有上亿个神经元……可以说,随着神经元的增加动物的能力越强。
那是否先弄清楚线虫,再弄清楚果蝇、斑马鱼……逐渐往上推,就能慢慢从低等生物的智能逐渐演化成高等生物的智能?其实我们的文明也是这样产生的。1903年,第一架飞机飞行家一号,它只能飞200米,离地的高度不超过20米,但今天飞机已经能到达任何地方。
那从这个角度上来讲,我们能不能通过研究大脑究竟是怎么工作的,它的结构和功能是什么样子,来产生AGI?以欧盟为代表的蓝脑计划,就去解析了大脑的神经元,它的突触,怎么和其他的神经元产生连接,怎么来构建一个这种复杂的大脑。试图通过理解大脑的构成、结构,来实现它的功能。这是在过去几十年里脑科学的努力方向。
3) 实验室玩具被忽略的一环,思考与认知
时至今日,我们取得了很多成果,但没有取得较为有颠覆性的突破。为什么?假设我们是这只狗,当铃铛响起的时候,也许脑海里面在进行一个思考,“铃声响起来了,食物还会远吗”?模仿了行为,模仿了大脑,但是却没有去模仿狗的灵魂。把灵魂换成一个科学的术语来讲,是什么?就是我们的认知和我们的思想。它只针对于模仿人类的行为,却忽略了人类的思维和认知。而这,就是大语言模型解决的真正问题所在。
那什么是我们思维的基础和载体?语言。我们所有的思想都以语言的形态呈现。Oliver Holmes曾说:“语言是灵魂的血液,思想在其中运行,并且从中生长出来。”在他看来,语言是一个载体,是我们思想的温床,让思想从中不断地发展。
维根斯坦说的更加直白,他说:“语言的边界即世界的边界。”需要注意的是,维根斯坦口中的“世界”不是指物理世界,而是思想世界。也就是说,但凡语言不能触达之处,思想也无法触达。
科学家们开始思考,我们是否可以通过理解人类的语言,从而让人工智能获得像人类一样的思考能力。所以说,大语言模型的本质是大的认知模型、思想模型,它是通过理解语言、学习语言,从而模仿人类的思考方式。
人工神经网络之父Geoffrey Hinton做出过一个比喻,他说,毛毛虫提取营养物质,然后化茧为蝶,而人类已经提取了十亿思想的金块,这就是我们的语言。ChatGPT-4正是人类的蝴蝶。
计算机通过吸收人类思想、人类所积攒的几千年的文字学习应该怎样使用语言进行表达。不是思考怎么说出一句流畅的话,而是思考应该怎么像人类一样思考,AGI就这样产生了。使我们人类的思想、文字,成为它真正的奠基。
4)语言,即思考的金块
我们现在面临着一个很重要的问题,如何提取这个思想的金块?要回答这个问题,需要先回答一个更底层的问题——思想的金块是怎么产生的?
从考古学的角度来看,人类和猴子大约在300万年前分道扬镳,从这之后,人类的发展其实非常缓慢。但是在距今7万年到10万年的时候,人类出现了一次飞跃,各种各样的石器涌现而出,各种各样的发明层出不穷,这被称为人类的第一次认知革命。这次认知革命使得人类从万物之中的一员变成了万物之灵,进而成为这个世界的主宰。
这次认知革命究竟发生了些什么?
通过考古可发现,人类从能人到直立人,再到尼安德特人,所做出的的石器越来越精巧,但是本质上却没有改变。所以,从能人诞生的210万年前到尼安德特人所诞生的30万年前,这整整的一段时间里面,我们可以把它称为人类进化的垃圾时间。但我们的祖先出现了,也就是“智人”,智人最后战胜了尼安德特人,形成我们今天的在座的各位。
考古发现,在距今7.7万年前打造的一个石斧上出现了一些刻痕,同样,在距今6万年前的一个鸵鸟蛋的蛋壳上也出现了一些刻痕,这些刻痕正是当时人类对世界运作的记录,反映出他们对世界的理解。直到5000到6000年前,人类开始在黄泥板上刻下痕迹,形成了我们今天称为的楔形文字,从那时候起,人类把自己的思想灌输在文字之中。
能人和智人,两者之间有一个非常大的区别——智人大脑的体积是能人大脑体积的三倍。从进化史的角度看,这是一个奇迹般的变化,因为没有任何一个物种能够在进化尺度上面发生如此大的变化,只有人类做到了。所以说,过去人类在悄悄地增大自己大脑的体积,当它大到一定程度的时候,我们的智能就涌现出来了。
5) 选个好基因来打篮球
我们发现的这个史实,对AGI产生来说是一个至关重要的观点。“选个好基因来打篮球”,这就是人工神经网络背后发展的一个底层逻辑。也是是Hinton穷奇他一生要实现的一个目标:让一个神经网络能够大起来,而且可以进行训练。
最早的人工神经网络出现在1957年,Rosenblatt提出的感知机。只有简单的两层线性模型,很多人觉得干不了任何事情,经过将近30年的漫长等待,Hinton提出通过回传算法(BP算法),让两层的感知机能够变成一个多层感知机。它的层数增加相当于我们祖先的大脑变大,只有当大脑变大了,才能够拥有智能。
然后,经过20年的时间,Hinton把线性的多层模型拓展为非线性多层模型。非线性的意思是让参数尽量复杂化,用参数的复杂化应对我们思想的复杂化。也就是说,只有我们的参数足够大、复杂度足够高,才能去容纳复杂的思想。
当时,Hinton的观念提出之后并没有引发很大的反响,甚至很多人认为太疯狂。但是Hinton十分坚持,用一生的时间推进这个想法。他曾经在一次采访中表示,不放弃的原因在于坚信其他人都错了。他的底层逻辑在于,大脑就是这样的网络,大脑能工作,人工神经网络没有理由不工作。
在当下,我们进一步发现人工神经网络越复杂,层数就越多;参数越多,它就越深。如此一来,会越来越接近人类的大脑。正是在此发现的推动之下,在2020年5月,终于出现了当时被称为暴力美学的事件——GPT-3的问世。
G代表生成式,P代表不需要监督的学习,T是基于一个架构,这就是Google发明的Transformer。GPT的目标在于“大”,主要体现在三个方面。
第一方面是大算力。当时为了让这个模型运作起来,微软专门设计了一台超级AI计算机,这台计算机的算力是当时世界排名第五的超级计算机,目的是用来训练GPT-3。
第二方面是架构极其复杂。GPT总共有1750亿个参数,比上一代多了两个量级,相当于多了100倍的参数量,是一个非常庞大的体系。
第三方面是数据量非常大。英语维基百科大约有600万篇文章,而这只占GPT的训练材料的千分之六。可以想象它的数据总量有多庞大。
当时训练一次GPT-3的费用高达500万美元,但遗憾的是,当这个模型推出来的时候,并没有像今天一样震惊世界,反而被认为是一个笑话。当年6月,我在智源人工智能大会上也质疑过GPT-3,我说:“当我问GPT-3我们的腿有多少只眼睛,它会严肃地告诉我,我们的腿有两只眼睛。当我问它太阳有几只眼睛,它会说太阳有一只眼睛。”当时的GPT确实比较低能,根本不理解“眼睛”的概念,它所产生的答案是随机的或是“鹦鹉学舌”,没有自己的思考能力。别说社会上,在学术圈里面,大家都感觉GPT就是昙花一现。
6) 重要的思想实验
但是我们错过了非常重要的一点。我们可以做一个思想实验:一个现代的婴儿如果回到3000年前,他会不会比原始社会的婴儿更加聪明?
答案是否定的。因为3000年不可能使得我们的基因发生根本性的变化,现在的婴儿和3000年的婴儿几乎一模一样。
再设想一下,我们如果把一位成年人送回到3000年前,他会不会比当时原始部落的人聪明?答案是肯定的。因为一个正常的成年人具备一定的知识,即使他的文化程度不高,也足以碾压当时最聪明的人。
那么,为什么婴儿跟原始部落的婴儿一样的笨,而成年人回去就可以在思想上碾压一切人类?
道理非常简单,一个人的思维成长离不开教育。当时GPT具有完美的基因,但是它还缺乏教育。从2020年5月份GPT-3推出到2022年11月30号ChatGPT推出,在这两年的时间里面,OPenAI对GPT-3进行了再教育。其中,主要有三个方式:
第一个方式是引导大语言模型产生更具有对话性和互动性的回应。由此还出现了一个新职业,叫做“提示工程师”,他不需要懂任何的编程语言,只需要告诉大语言模型应该如何执行命令,被称为“通用人工智能的教师”,它的工作是对通用人工智能进行“授业”。
光“授业”还不够,还需要第二种方式,名叫RLHF(基于人类反馈的强化学习)。比如当你向大语言模型提问时,它可以产生五个回答,但是不确定哪个回是更好。这时候就需要人类给它一个反馈,告诉它其中哪个答案最好、哪个答案一般,哪个答案很差。让大语言模型逐渐掌握好答案的规律。
第三种方式为“对齐”(Alignment),让大语言模型的目标行为和决策过程与人类的价值观、目标和意图一样。也就是说,我们要让大语言模型的人生观、世界观、价值观与人类对齐,而不是摧毁我们的文明,把我们引入歧途。比如,如果你让大语言模型给你一份制造炸弹的手册,尽管它具有这个知识,但它也不会给你。因为它知道这是不符合社会规范的行为。
在过去两年半的时间里,大语言模型有了彻底的改变,从一个弱小的婴儿变成了一个优秀的成年人。它有强大的基因和先进的教育,还有超级强悍的经济支持,这三方面的合力激发出这一次伟大的奇迹。
第四次工业革命的出现
1)为了计算与人类未来
ChatGPT出现之后,究竟带给人类怎样的改变?它的目的是挣更多的钱吗?是有更高的商业价值吗?
萨姆·奥特曼在接受美国国会的质询时,被问及创造通用人工智能的动机,他表示他从OPenAI拿不到一分钱,也没有股票,他做这件事情的唯一原因就是“喜欢它”。他的眼神坚定,态度十分肯定。
2016年8月英伟达制造出世界上第一个超算DGX,价值为百万美元以上,当时有很多公司都在争抢这台超级计算机,但是黄仁勋把第一台捐给了OpenAI。他在这台捐赠的机器上写下了这么一段文字:为了计算和人类的未来,我捐出世界上第一台DGX-1。
这个简单的行动促进了一个闪耀的日子在六年后诞生——ChatGPT出现了。那么现在回答一个根本问题:什么是人类和计算的未来?要回答这个问题,就必须谈到范式转换。
2)真正意义上的范式转换
1962年,库恩在《科学革命的结构》里面提出这一概念,他认为,科学的进步不是通过渐进的知识积累来实现的,而是通过一系列的革命实现,其中一种主导的范式被另外一种所替代。因此,我们要用一种全新的思维方法,全新的世界观,全新的认知去颠覆过去的那些观念和世界观,这就是范式转换。
如何理解这句话?
举个例子,阿加莎·克里斯蒂在1919年的时候生下一个小孩,当时的她还未出名,一家的年收入是700英镑,是一个典型的伦敦中产家庭。但是她却在自传里说:“我们永远想不到有一天会拥有汽车,这是一个奢侈的念头,只有富人才配有车,像我们这种中产阶级是不配有车的。”当时一辆最便宜的汽车大约170英镑,占据阿加莎一家年收入的1/4,是一笔非常大的开销。
出乎意料的是,佣人一年的费用却比汽车便宜很多倍,36英镑/年。由于阿加莎刚刚生了一个小孩,她为小孩请了一个全职的护士,一年才40英镑。而对这些佣人来说,买车更加是一件天方夜谭的事情。这就是一、二、三次工业革命要做的事情,就是逐渐把商品的价格降低。
所以说,过去这100年多的发展导致的一个根本性的影响是让商品价格发生巨大变化,这就是我们通常所说的摩尔定律。摩尔定律最开始是被用来表达计算机CPU的性能的提升,后面逐渐用于商品行业。根据汇率估算,我们现在1美元能购买的算力是过去几十年的几十倍、上百倍,甚至上千倍。比如,80年代我们家购买了一台黑白电视机,花光了家里好几年的积蓄,而现在的电视机要便宜太多太多了。
在过去100年间,商品价格急剧变化的同时,服务的价格也产生了很大的变化,但是它的价格不是下降,而是明显上升。例如,在1923年的伦敦,雇佣护士的价格为年薪25英镑到50英镑,2023年上涨至24000到30000英镑左右,即使扣除了物价上涨的因素,依然可以发现今天的人力成本是过去的12倍。
3)万物摩尔定律
这个时候,Sam Altman在思考一个问题:怎么才能获得美好的生活?使个人更加富有就能过得更好吗?他觉得不行,因为当你有了更多的钱,就意味着我会有更少的钱,贫富差距会变得越来越大。
于是他提出了一个大胆的想法,叫做物价下跌,让所有商品的价格、服务的价格归零,我们随之就变得更加的富有了。他说,AGI将创造惊人的财富,一旦有足够强大的人工智能加入劳动力大军,会使得驱动商品和服务成本的劳动力的价格将逐渐归零。他将此现象称为万物摩尔定律。
这一段话,Sam Altman并没有公开说,而是把它贴在OpenAI一个特别不起眼的地方。那么怎么来实现?他给出的回答是AGI通用人工智能。
那时候,ChatGPT还没有问世。他不求钱,也不图股份,甚至不图名利,做这件事的所有动因全在于要改变人类社会,推动人类的第四次工业革命。到那时,基于知识的服务价格会全部归零,包括教师、律师、会计、程序员等。所以,也许此刻的你正面临着失业的风险。
失业该怎么办呢?萨姆·奥特曼认为由于AGI创造了很多财富,使得一部分人失业,而那些失业的人可以去追求自己想要的生活。这部分人的生活资金会来自于一个叫Universal Basic Income的计划,该计划会将人工智能创造的大量财富回馈给所有人。每个成年人每月都能无条件地收到13500美元维持基本生活。在那时候,商品的价格归零、服务的价格归零,每个月13500美元可以让我们过得十分富足而自由,不再为了基本的生活物资加班和奔波。只有那样人类才会更有可能实现自我价值。
在古希伯来语里,“工作”与“奴隶”使用的是同一个词。在AGI真正出现之后,人类将会从奴隶的身份里解脱出来,奔向想去的远方。这一切听上去像是科幻故事里的情节,但是萨姆·奥特曼坚信会在十年之内发生。他还在斯坦福大学专门建立了一个UBI的实验室,用以讨论这事情的实现途径。另外,他在巴尔的摩的某个社区里开始推广这个计划,在行动上真正地想要改变人类的生存方式,让“按需分配”成为可能。
4)AI Agent的出现,从先知到助手
ChatGPT仅仅用来与人类对话肯定是达不到“幸福生活”的标准的,还需要让它分担劳动。因此,AGI需要往下一步走,变成一个助手。于是,从今年2023年5月份开始,一个全新的东西开始在逐渐成型,这就是ChatGPT+Autonomous Agent,也就是自主代理。
自主代理不同于传统的AI,它通过分析感知数据、独立思考、调用工具,实现对通用问题的自动化处理。也就是说,大语言模型能思考、能预测,也能做判断。
两周之前,OpenAI推出了GPTs,它是结合指令、私有知识以及各种技能组合的定制版ChatGPT。
什么叫GPTs?GPTs就是我刚才提到的的自动代理,Autonomous Agent,我们现在不需要有高明的编程技巧,结合指令、私有知识以及各种技能组合,你就可以得到定制版的ChatGPT。
乔布斯在1995年所梦想的东西,就是众多GPTs中间的一个。在不到两周时间里,全世界已经涌现了上千个GPTs,每个人都可以去共创。这必然会导致商业范式的根本变化。
众所周知,大约是在20年前,信息行业不再售卖硬件,转为售卖服务,这就是著名的XaaS(Everything as a Service),那么它的最底层是Infrastructure as a Service(基础设施即服务)。比如,微软当时给GPT-3所提供的超级计算机就担当了这样一个功能。
在它之上是Platform as a Service(平台即服务),它提供操作系统和数据库等基本内容,使用者可以在这基础上开发自己的软件然后提供各种服务,这就是所谓的“云计算”。比如说阿里云、腾讯云。
继续往上是SaaS,Software as a Service(软件即服务)。它使得我们无需专门买某个软件了,可以直接拿来用。比如iCloud,Slack等。
但是随着大语言模型的出现,基于大模型生产服务的生态就会出现。这会涌现出一个非常大的机会——开源生态。
当OpenAI推出ChatGPT系列之时,所有的人工智能厂商都觉得自己没有希望了。在这个时候,Meta作出了一件异乎寻常的举动,把当时还未开发完全的LLM,也就是“羊驼”系统拿去开源,供所有人使用。消息放出之后,上百万的程序员为拥有自己的开源系统而欢欣鼓舞。在短短的五个月之内,一个庞大的“羊驼家族”就此产生,每个人在其中不断地添砖加瓦,使得这个开源系统达到了OpenAI较初级版本的性能,让每个人可以基于大模型展开创业。让每个商业都可以拥有自己的大模型。
有了大模型之后,下面一步需要做的是Agent as a Service,也就是每个人都可以创造自己的GPTs,把自己的私有知识放进去,构建出一个服务大众的平台。更重要的是,将来的商业模式会因此发生翻天覆地的变化,一个人可以构建一个E-Business。也就是说,一家公司不再需要一堆人运行,只需要三两人就能够运转。
因此我们不难理解OpenAI联合创始人Andrej Karpathy所说的那句话:“普通人、创业者和极客在构建Agents方面比OpenAI更有优势,大家处于平等竞争的状态。”因为虽然我们在大模型赛道上没有太大的机会,但是在助手这一领域里,所有人都是平等的。此时此刻,一家只有两三人的公司颠覆一家上百、上千人的公司成为可能,因为壁垒已经打破,有创意者才是赢家。
…… 篇幅所限,本文内容仅为课程十分之一,
点击海报,观看完整课程!
第二次认知革命已经到来
1) 知识工作岗位的困境
知识服务的价格降低意味着很多的工作岗位会受到影响。
美国高盛做了一个调查,调查表明,美国大约7%的工作岗位可以被AI取代,63%的工作岗位会得到AI的辅助。也就是说,不懂AI,就很可能面临失业。我们还可以看到,ChatGPT出现后自由职业者的需求跳水式地下降,同时价格然后也在跳水式地下降。仅仅几个月就发生了这样的变化。因此我们可以预想,随着AGI的进一步发展,变化只会更加剧烈。
2)如果AGI只有理性的秩序,没有感性的温度
在更宏大的范畴,它会带来什么呢?假设我们让它解决温室问题呢。通常来说,此时的ChatGPT会先分析一番,查看造成气温上升的主要原因,我们都知道原因在于“人类的存在”。那么,接下来该怎么做?消灭人类吗?这肯定是最有效的方式。AGI会选择这样做吗?
“消灭人类”无疑是一个理性的解决方案,但它缺少一种本质的思考和感性的温度。因此,仅有科学的理性,就可能会导致一些灾难性的事件。
因此,当OpenAI取得重大成果的时候,很大一部分人拉响了警铃。在5月30号,萨姆·奥特曼和其他大型AGI公司的负责人联合发布了一则声明,这个声明只有一句话:与其他社会规模的风险如大流行病和核战争一样,降低人工智能引发的人类灭绝的风险应该成为全球的优先事项。
在此之前,美国政府出台了一项政策,规定AI公司在训练前沿大模型之前必须通知政府。也就是说,训练大模型不再是公司个人的行为,而要进入政府的监管视线内。
目睹AGI以恐怖之势发展的局面,人工神经网络之父Hinton倍感担忧,他意识到,这一切的开始只是为了人类的幸福,但是在此时此刻,它却具有摧毁人类文明风险。
现在,我们打开了一个潘多拉魔盒,释放出来的可能是美好,也可能是邪恶,该怎么办呢?
原本Hinton深感绝望,从Google辞职养老。突然在一个月之前出现在公众视野里,表示将担任一家机器人公司的顾问,因为他看到该公司利用机器学习和视觉传感器共同设计的方法,显示出AI用于机器人技术的巨大潜力。
3) AGI的演化,从领域模型到认知模型
为什么他决定当顾问,是什么力量请他出山?因为他看到了一种解决大语言模型因为过于理性可能会对人类造成摧毁的一种方式。
即我们需要进入第三个阶段,创造出真正的生成式的代理,完成我们的指令,这就是ChatGPT+Generative Agent。以前为自动代理,现在是生成式的代理,它们之间的区别在于从领域模型转变为认知模型,这就是我们通常所见到的智能的三层次模型。在ChatGPT出现之前,存在着任务模型,它能够完成特定的任务,比如识别面孔、下围棋等。而在ChatGPT之后,任务模型变成了领域模型,它能够完成特定的工作,比如教师、医生、律师、司机等基于知识的岗位。
但领域模型还不够,接下来它需要能听、能看、能思考、能规划、能行动。也就是说,我们即将创造出与人类相似的一个全新的物种,它不再停留在计算机机房里,而是出现在你散步的大街上。
4)AGI的“超级爱对齐”
这个时候,我们希望它具有什么样的能力呢?我特别喜欢的一幅图,西班牙的斗牛场上,感到身体不适的斗牛士,他靠在场边,而第一个赶来的,来救助他的,是浑身插满了剑的这头牛。这头牛没有攻击,而是默默地看着他。这时候我们能看到一种感性的成分,一种善良的成分在里面,而这种善良的成分必须要通过另外一种途径来做到,怎么做到呢?
首先来看,我们如何来构建一个人。
在人的大脑里,最底层的脑干是呼吸的中枢,往上面走是小脑,他是让我们能够行走的一部分;再往上面走是丘脑,它能够感知外界;再往上面走是边缘系统,它能产生情绪、情感,作出一些简单的判断。最上面则是在过去300万年里人类进化明显的地方——大脑皮层,它的体积增加了3倍,与人类的自由意志、复杂判断和符号思维有关。这一部分我们把它称为理性,下面一部分我们把它称为感性。
大语言模型学习的正是人类的理性,但它并没有触达人类的感性。也就是说,我们现在仅仅有科学的尺度,但是没有情感的温度。因此,接下来的工作是让大模型获得情感的温度。
这里面讲的感性,它拥有两个特征:
第一个特征是“身临”。我相信,就算我们看了很多旅游风光片、纪录片,仍然想要亲自去到那个地方,因为只有身临其境,才会有真实的感受。
第二个特征是“体验”。如果你假设你身处金门大桥脑袋却充斥着工作内容,是不会有强烈的体验感的,因此只有沉浸其中,才会有感性产生。
正如出身中产的切·格瓦拉只有在独自骑行、经历寒冷的夜晚之时,才会说出“那是我经历的最冷的一晚,但那一晚也让我稍稍靠近了人类。”历史学家维拉斯说,格瓦拉的政治与社会意识的觉醒,与他直接目睹贫困、剥削、疾病与痛苦有关,而不是来自于书本的知识或者有学识人之间的讨论。
与此类比,现在的ChatGPT相当于满腹经纶,但还仅仅停留在机房里面,它没有真正迈入世界。这就是为什么Hinton决定重新出山的原因。
一个新的方向开始生成,我们把这一块叫做Generative Agent(智能体)。它不仅仅能够帮人类完成任务,它还拥有欲望、拥有信念、拥有意图,以及拥有行动能力。
智能体应该具有哪些特点?我们可以从三个维度理解:1、它要有多种的技能。2、它能够处理各种各样的情况。3、它必须和世界产生真实的交互。
一旦具有这三方面的能力,就不再是一个基座大模型,而变成一个基座代理。这是我们现在正在做的事情。
5)人类历史上的第二次认知革命
前段时间,马斯克推出了Grok,它类似于ChatGPT这样的语言模型,但又与OpenAI走了一种完全不同的道路。他将Grok接入了Twitter里,让Grok混迹于众人之中和人类进行交流。他表示,现在这个大语言模型和OpenAI类似,但注重训练它的同理心。
值得注意的是,当智能体一旦拥有意识之后,它就会按照自我的观念快速发展,这时我们就可能会面临一个奇点,文明的载体也不再以人为单位运行,而是以AGI的方式运行。因此,我把这个奇点来临的时刻称为“人类历史上的第二次认知革命”。
我们经常谈到认知革命,其实它们都不配。为什么?因为第一次认知革命使得我们的祖先成为万物之灵,人类成为世界的主宰。而第二次认知革命,就是人类创造出了一个全新的物种。这天来临的时刻,文明的火炬就要由我们人类传到AGI的手中。
SoftBank的孙正义在最近的一次大会上表示,通用人工智能将在10年之内实现。按照他的预设,到2033年时,人工智能的智能程度将是人类智力总和的10倍,相当于人类和猴子之间的智力差异。
虽然这并没有确凿的依据,但我们试想一下,去年这个时候提到ChatGPT的骇人功能,绝大部分人都不会相信。但是事实证明,我们对通用人工智能的想象一定不要过于保守。因为一个新世界的大门正在徐徐打开。
我们的未来会是什么样子?
其中一种可能,亦是所期望的,就像《星球大战》里面的R2-D2,是我们忠实的助手,无微不至地照顾我们所有的一切。另一种可能,则像《终结者》里面的剧情,机器人试图毁灭人类、主宰世界。
我觉得在未来还有第三种可能,这也是我们正要努力的方向,那就是人机合二为一。人类最脆弱的地方不是思想,而是肉体,因此有没有可能让我们摆脱脆弱的肉体,把我们的思想上传到计算机里,获得真正的永生。
这件事听上去像是天方夜谭,但也并不是不可能。正如现在硅谷最火热的两个投资方向,一个是AGI,另一个是健康产业。如果人类能够成功地人机合一的话,那么AGI它不仅不是我们的敌人,还会极大拓展我们对这整个世界的了解,从而不再被有限的生命束缚,真正地走向自由。
审核编辑:刘清
全部0条评论
快来发表一下你的评论吧 !