AI终端时代：端侧算力快速提升，AI芯片竞争进入新的阶段

Monika观察 2024-04-22 3802

描述

电子发烧友网报道（文/莫婷婷）全球终端市场在经历了高峰之后，在2022年、2023年出现明显的终端市场下滑。进入2024年，全球终端市场又迎来了小幅反弹，AI技术的加持是市场反弹的动力之一。毫不夸张地说，是AI重新点燃了终端市场。

2023年被认为是AI终端的元年，那么进入2024年，AI终端市场会迎来哪些发展机会，上游的芯片环节，AI芯片有哪些最新解决方案。

AI终端成为交互入口，首款AI PC个人智能体已经面世

为什么AI算力会转移到终端侧？IDC中国及全球副总裁王吉平提到了四大方面的原因。

一是芯片厂商技术革命，未来是在混合算力的基础上，端侧算力未来会快速提升。二是模型正在不断演变，例如混合专家模型（MoE）正受到业内人士的关注。三是人们越来越关注安全性，端侧模型对于个人安全隐私，以及端之间互联互通的安全性有很好地保护。四是大模型开始垂直化整合，垂直领域端+小模型的需求也在提升，王吉平认为小模型和小终端之间也可以非常完美地匹配。

目前，在终端产品中，PC、智能家居、车载设备、智能手机、智能手表、耳机，甚至是AR/VR等设备都能得到AI技术的加持。

可以预测到，随着场景化发展，不同场景下的终端分工更加细致和专业，AI技术将加速终端未来十年新一轮的融合。

目前，手机厂商已经打造了各自的AI大模型，将其赋能至智能手机中，例如华为小艺语音助手用到了盘古大模型，小米小爱同学用的是小米AI大模型MiLM-6B等等。

在AI PC方面，已经从普通的AI PC走向了AI PC智能体，例如联想于4月18日发布的业内首款AI PC个人智能体——联想小天，具备文生图的功能，还能实现图像训练和深度编辑。

图源：联想

在AI机器人方面，传音旗下创新科技品牌TECNO在MWC24上，展示了公司首款AI增强型仿生四足机器人Dynamic 1，能够用于智能助手、教育培训等场景。

AI终端在发展过程中，大模型（LLM）向智能体（Agent）转变，最终形成一个完整的闭环。那么，未来AI终端会朝着哪些方向发展呢？业内人士普遍认为，未来AI终端将成为个人AI助理，IDC认为将具备以下五大特征：

一是成为第一交互入口。此外，当国内的推理芯片搭载在各个终端后，会形成国内生态的智能体应用于各个行业中。二是终端将标配本地混合AI算力，例如CPU/NPU/GPU等；随之，形成个人终端和个人边缘协同计算结构。三是终端内嵌个人大模型，形成个性化本地知识库。四是必须会有个人数据和隐私安全保护。五是有一个连接开放的AI应用生态，同时它要开发API接口。

AI芯片进入新的竞争阶段，英伟达、英特尔、高通攻克推理性能
在技术底层，AI终端的发展离不开AI芯片。随着AI大模型在终端进行规模化扩张，部署端侧算力显得尤为重要。英特尔CEO帕特·基辛格曾表示在人工智能领域，推理技术变得越来越重要，甚至比训练还更加重要。

IDC中国及全球副总裁王吉平也预测了大语言模型端侧芯片的发展趋势，他认为XPU模式会推动端侧模型推理能力明显提升。

图源：电子发烧友网摄

目前，在AI芯片领域，英伟达、英特尔、AMD等是国际主流玩家。在近两年，国内的推理芯片厂商也逐渐进入业内视野中，例如阿里平头哥、寒武纪、燧原科技、云天励飞等，随着技术的迭代，上述国产芯片厂商的AI芯片性能也在不断提升。

AI芯片领域的竞争进入了新的阶段。目前，英特尔、英伟达、高通都推出了各自面向AI推理的芯片。

就在美国时间4月9日，英特尔发布了新一代AI芯片Gaudi 3，可对标英伟达H100。Gaudi 3采用5nm工艺制造，具有64个第五代张量处理核心、8个矩阵计算引擎，24个200 Gbps以太网 RDMA NIC，以太网的通用标准能连接数万个加速器，最高 16 条 PCIe 5.0 总线。与Gaudi 2相比，Gaudi 3的FP8吞吐量达到1835 TFLOPS，BF16性能提升四倍，网络带宽提升两倍，内存带宽提升1.5倍。

英伟达H100芯片是在2023年发布的产品，采用4nm工艺，搭载了最新Hopper架构，集成Transformer引擎、第四代TensorCore、第四代张量内核等技术。支持PCle Gen5和利用HBM3，忆体频宽达到3TB/s，FP8 算力与A100相比提升了3倍，达4000TFLOPS。

在今年3月的英伟达GTC人工智能大会，英伟达还发布了Blackwell B200 GPU，有着2080亿个晶体管，H100的FP4性能为4 petaflops，而B200 能提供高达20 petaflops FP4的算力。两个B200与单个英伟达Grace CPU相连，打造出GB200 Grace Blackwell超级芯片。

在AI芯片新的竞争阶段，厂商都更加重视芯片的推理能力，从英特尔和英伟达的新品正好说明了这一点。英特尔Gaudi系列面向AI应用场景，其推理能力也在不断提升，Gaudi 3的模型训练速度提升40%，推理速度则提升50%。

英伟达介绍，H100采用了新的 Transformer Engine专门用于加速 Transformer 模型的训练和推理，在进行语言模型的训练和推理时，训练速度是A100的9倍，推理速度是 A100的30倍。Blackwell GPU更是能提供30倍的推理性能，AI训练和大模型实时推理的规模扩展到10万亿参数。

高通也在2023年10月发布骁龙 X Elite，这是一款面向 Windows 11 PC 的旗舰 PC 芯片，集成了Oryon CPU、Adreno GPU、Hexagon NPU，支持在端侧运行超过 130 亿参数的生成式 AI 模型。

在当时的发布会上，高通透露搭载骁龙 X Elite 芯片的笔记本电脑在今年中期面世。近期已有消息显示，联想 YOGA Slim 7 14 2024 骁龙版，以及一款命名为ThinkPad T14s Gen 6 骁龙版的笔记本或将搭载高通骁龙X Elite 芯片。高通骁龙X Elite 芯片会给联想AI PC带来哪些AI性能，值得期待。

而英伟达的H100已经应用在其超级计算机Eos中，总共搭载了4608个H100 GPU，还有1,152个英特尔至强Platinum 8480C处理器。Eos被认为是英伟达速度最快的人工智能超级计算机，可用于人工智能和高性能计算工作负载。

每一代AI芯片的推出，都有它各自的应用定位。从终端市场来看，AI技术已经从手机、PC渗透进更多终端产品，未来会走向高性能PC、工作站等，不管是面向TO C，还是TO B的行业场景（服务业、制造业等），所需要的算力将随着应用需求逐步提升，也会提高推理芯片的要求。未来推理芯片在AI终端会迎来怎么样的发展，又会提升哪些应用体验，值得期待。

打开APP阅读更多精彩内容