电子发烧友网报道(文/莫婷婷)AI大模型应用在2024年进入新的阶段。Transformer等技术正在推动着行业从单一模态的大语言模型,向多模态大模型进化。
业内普遍认为,未来3到5年我们会快速迈入AI3.0时代,届时进入以机器人为代表的具身智能时代,当人形机器人搭载了多模态大模型,和物理世界进行交互后,就会发展成行为大模型,成为自进化智能体,进一步实现AGI通用人工智能,由此打开第四次工业革命的大门。
云天励飞董事长兼CEO陈宁认为,未来3年全球80%的企业将使用大模型,未来5年机器人和数字人的数量将超越人类的数量,未来7年,也就是到2030年行业将实现通用人工智能,AI的智慧程度超越全人类大脑的组合。
他进一步提到,我们还有3年的时间可以转型到大模型时代,借助大模型生产力的变革去赋能企业。那么,企业如何拥有属于自己的大模型,训推一体机成为焦点之一。
千元级AI模盒,大模型进入平民化阶段
目前,行业内已经有多家企业推出训推一体机,但是在训练专属大模型过程中,训推一体机的痛点也随之暴露出来。成本是其中一个关键问题,主流的训推一体机价格普遍在百万级。另外还有大参数、大算力、大数据、专业人才等,要知道GPT-4模型训练数据ToKen量已经达到130000亿。为了加速AI普惠化,训推一体机亟需迭代。
就在今年3月,云天励飞推出“深目”AI模盒,面向边缘训推场景。官方介绍,“深目”AI模盒搭载了自研的14nm Chiplet大模型边缘训推芯片DeepEdge10 Max、自研多模态大模型“云天天书”,基于云天励飞的核心能力算法芯片化,实现了算法场景覆盖超过90%、算法精度超过90%,使用成本降低90%。其中,DeepEdge10 Max适配并可承载10亿级SAM、百亿级Llama2等大模型运算。
值得一提的是,“深目”AI模盒售价在千元级。可以说,在一定程度上,云天励飞将训推一体机“打下”千元级,促进了大模型平民化,解决大模型在场景落地最后一公里的问题,帮助更多中小企业客户轻松使用大模型。
智慧城市场景里还存在非常多的问题没有完全解决,例如长尾场景,只有一个模型能够解决跨场景的问题,才有可能低成本解决智慧城市的碎片化问题。
在现实问题中,天灾人祸等极端场景识别训练的数据几乎空白,云天励飞副总裁罗忆以加油站场景的吸烟识别为例进行介绍,平台能够利用大模型能力,以加油站为背景,生成在该环境抽烟行为的人物,并将数据用于算法训练中,填补训练数据的空白。
“我们通过可控的生成,对于指定的场景、部位可以做到细节可控、真实合理、高保真,而且可以批量生成数据。”目前,云天励飞已经生成了千万级的数据用于各类算法的训练,而且生成的数据不仅能够用于算法的训练,还能用于算法能力的测试。
“从生成训练到检测,这个闭环打通,也为将来它的自学习奠定基础。”罗忆再次表示。使用AI合成数据来训练算法,逐渐成为大模型时代下训练新算法和提升算法精度的方式之一。
推理芯片将是AI大模型的发展关键之一
未来,AI大模型的发展一定是降低推理成本,陈宁在接受电子发烧友网等媒体采访时表示,关于大模型的训练,业内的重视度已经比较高了,GPU一卡难求,中国也掀起了智算,上下游的企业都参与到智能算力的建设过程中,云天励飞也抓住了机遇。“我们认为2024年如果是大模型落地应用之年,推理就会越来越重要。”
云天励飞自成立之初就将AI芯片定位在推理的应用,此次将其在推理领域的深厚技术积累赋能给了“深目”。
“深目”内置了自研的SPACE训练推理引擎,罗忆表示,“我们要让大模型在边缘侧跑起来,不仅要推理,还要具备一定的训练能力,要提高它的精度,首先要解决速度的问题,确保训练有效的前提下,只要进行少样本的训练,即可进行场景自适应。”
根据介绍,基于SPACE训练推理引擎的高效训练架构,对比全量训练,“深目”AI模盒训练速度提升100倍,内存消耗降低20倍。通过混合精度训练,模型99%的计算采用int8+fP16精度训练,只有不到1%的计算才用得fp32精度训练。而且做到了存储及功耗均大幅下降,推理速度同比提升50%,推理成本更是降低10倍。
通过SPACE训练推理引擎和神经网络处理器芯片架构的深度耦合,“深目”在边缘端48T至64T的有限算力情况下,一样可以实现高精度的推理大模型,并且可以微调和训练。陈宁表示,面向边缘场景,云天励飞强化了多模态大模型场景泛化和在线学习、训练的能力,通过一系列的性能提升,解决场景价值闭环的问题。
一般来说,AI芯片可以分为两种:推理芯片、训练芯片。“但是算法的训练不是目的,千行百业的推理应用才是最终目的,人形机器人、无人机、无人车、可穿戴设备、AIPC、AI手机等,万物智联的智能硬件都需要一颗或者几颗神经网络处理器的推理芯片”,陈宁表示。
2024年,AI行业在推理芯片领域迎来了新的进展。例如,AI芯片创企Groq自研的新型AI芯片——LPU(Language Processing Units)在AI行业内“出圈”,该芯片专为AI推理而生。公开资料显示,由Groq LPU驱动Meta Llama 2模型,推理性能可以做到顶级云计算供应商的18倍。英伟达在GTC 2024上也发布了全新的 GPU——Blackwell芯片,推理能力是Hopper的30倍。
如今,推理芯片领域还没有垄断性的巨头,推理芯片是一个万亿颗芯片的大蓝海市场,而中国市场拥有丰富的场景,未来推理芯片会应用到各个行业中,解决各个场景的问题,国内的AI芯片企业也会在推理芯片领域迎来新的进展。