是德科技如何评估AI推理基础设施的性能

描述

本文作者 王朝晖

是德科技网络与解决方案部门资深 AI 网络架构师

不管你是不是技术相关从业者,都已经被AI热潮席卷。你的手机app一定会被推送各种AI文章和相关热词,“大语言模型”,“ChatGPT/DeepSeek/千问/豆包…”,“推理模型”,“token”,“AI agent”,“Openclaw(小龙虾)”…

如今AI已经开始大规模落地,正在改变各行各业,甚至将重塑整个世界。它并非只是一款巧妙的应用程序,也不是某个单一的模型,而是如同电力和互联网一样,成为必不可少的基础设施。AI 依托真实的能源、硬件和基础架构,正在大规模地生产智能,给各行各业赋予AI能力。毫不夸张地说,每家公司都正在应用 AI, 每个国家或地区都正在发展 AI。

人工智能的3个发展阶段

在英伟达GTC 2026上,黄仁勋对当前AI的发展做了3个阶段的精辟总结:

第一阶段(2023年)

ChatGPT,开启生成式AI大模型时代。

大量生成式大语言模型涌现,ChatGPT,Grok,Gemini,Claud,以及国内的DeepSeek,Kimi,千问…它虽然是基本的“对话机器人”形态,但可以理解人类自然语言,甚至语音,视频等非结构化数据,给出真人对话般的合理答案。AI科学家们相信scaling law,给与大模型更多的数据以及算力,让它使用更多的参数,就能训练出更大更好的模型版本。

第二阶段(2024年)

ChatGPT o1以及DeepSeek R1模型,开启了AI推理时代。

当“训练”大模型的scaling law开始遇到瓶颈,AI科学家们看到大模型“推理”能力的潜力。推理能力使AI能够自我反思、规划、分解问题。将AI无法直接理解的问题拆解为可处理的步骤。为此,输入上下文的token量和用于思考的输出token量大幅增加,计算量也随之显著提升。

第三阶段(2025年)

Claud Code以及OpenClaw,开启AI Agent时代。

AI agent 不再是一个问答机器人,它已经可以替人类完成各种任务。用户不再只能询问AI“是什么、在哪里、怎么做”,而是可以让它“创建、执行、构建”,让它主动使用工具、读取文件、分解问题、付诸行动。AI Agent为了给用户提供周到、主动的服务,它记录了大量用户历史信息并放入上下文,再提交给大语言模型进行处理,这会消耗大量token。

据估算,AI从感知,到生成,到推理,再到如今真正能够完成工作,推理所需的计算量增长了约10,000倍,token使用量增长了约100倍。

传统的数据中心,它存储了大量文件和数据,并利用CPU算力对数据进行处理,然后提供各种客户应用服务。而目前各国大力发展的“智算中心”或者“AI工厂”,则是主要使用GPU算力,使用各种结构化和非结构化数据,对大模型进行训练和推理,最终生产token,来支持各类AI应用和智能体。

关键问题:如何评估 AI推理基础设施的性能?

根据规模最大的AII模型聚合网管平台OpenRouter统计报告,当前2026年,相对与2023年,单次LLM请求的token长度变长3-4倍,而调用次数则增长为10倍。(来源:https://openrouter.ai/state-of-ai)。预计未来智能算力(通常用token来衡量),将会成为像水电煤气一样不可缺少的基础设施。

同时,即使是最智能的AI应用和Agent,如果它响应缓慢,或者不能在高访问压力下稳定提供服务,也将无法被作为基础设施来使用。所以下一个关键问题是,如何评估这些AI工厂,准确说是AI推理引擎的性能、效率以及可靠性?

它能否在不断增长的各种数据类型输入,大量用户并发,长时间、多轮次任务中,依然保证性能不下降?这里有一些指标需要关注:

针对用户侧的使用体验:

•提示词的处理速率(prompt rate)

•首token时间、尾token时间(time to firstlast token)

•Token的产生速率(token rate)

•用户并发数量

针对推理引擎本身的统计指标:

•GPU使用率

•高速内存使用率

•KV-cache的使用情况

•Prefill和decode的时间

Keysight推出Keysight AI Inference Builder (KAI 推理构建器) 来解决以上问题,并把这些重要的指标实时统计并采集,最终展示在同一个统计面板中,为AI云服务提供商、硬件供应商和应用开发人员提供了一个可扩展的测试解决方案,用于测量、验证和优化实际环境中的推理性能。

AI推理的软件栈和技术难点

人工智能推理的硬件和软件技术栈,包括加速计算层(例如,GPU、TPU、ASIC)、高速内存和存储、网络连接以及与之配套的整个软件栈 从LLM、推理引擎、服务和编排层等等。

ChatGPT

从宏观角度来看,人工智能在生成回答之前,会经历以下主要的推理阶段:

•分词(tokenization):将人类语言用户提示分解成离散的词汇索引,并将其转换为 LLM 可以进一步处理的固定宽度整数张量(tensor)。此步骤由分词器(例如 BPE 或 WordPiece)执行。

•预填充(prefill):模型通过一次大规模的架构迭代来处理整个上下文,计算初始键值缓存,并以此为基础理解用户的请求意图。由于并行处理,此阶段表现为计算密集行为。

•解码(decode):每个输出token标记以自回归的方式逐个生成,模型会反复从内存中获取并更新键值缓存,以保持上下文。由于GPU和内存之间需要传输大量数据,因此该阶段主要表现为内存密集行为。

•逆分词(Detokenization):将输出token标记转换回字符序列,使用相同的标记器,词汇表将最高概率的输出索引翻译成人类语言。

•最终输出:后处理过滤器或安全防护措施处理生成的字符串,比如禁止内容(PII、毒性或幻觉触发因素),并将响应流式传输给客户端。

正因为人工智能推理流程的复杂性,而且涉及的环节众多,下面举例一些典型的性能瓶颈:

GPU计算瓶颈

虽然GPU计算瓶颈在AI训练中非常常见,但在推理过程中也存在,因此业界针对推理阶段,甚至定制开发了的TPU,LPU。特别是预填充阶段,需要针对提示信息词的并行处理,因此计算量巨大。特别是长上下文提示词、长文件导入以及RAG的场景,都会导致GPU高负载运行。

在这种情况下,从客户端角度来看,最明显的影响是首token响应时间(Time to First Token,简称TTFT)显著延长。而在推理服务器端统计数据,例如tensor core张量核心和流式多处理器(SM)核心的利用率偏高,则是此类瓶颈的主要指标。

内存带宽限制

AI推理面临的最突出挑战之一就是内存带宽,也称为内存墙。这一限制在解码阶段(decode)尤为突出,因为在解码阶段,token词元以自回归的方式顺序生成,这涉及到内存和GPU之间的大量数据传输,例如模型权重和提示词上下文。高带宽内存(HBM)的瓶颈在长时间或复杂的应答生成任务,以及高并发期间尤为突出。

用户体验到的结果是整体响应速度缓慢,因为token的生成速度变慢。在服务器端,会注意到每个输出词元的生成时间(TPOT)较高,同时GPU利用率不足,从而导致资源利用率低下。

内存容量

在高并发、长时间长上下文会话或多轮对话期间,内存使用会不断增加,以致成为瓶颈。AI客户端会注意到响应时间过长、请求失败,甚至由于内存泄漏或崩溃导致系统无响应。在AI服务器端,缓存利用率将接近100%,队列长度将显著增加,而GPU则再次处于低使用率状态。

Keysight AI Inference Builder (KAI 推理构建器)如何解决问题?

ChatGPT

首先,Keysight AI Inference Builder (KAI 推理构建器)会部署 test agent来模拟大量用户,他们将按照用户配置,发送特定种类的提示词进行问题输入,并等待AI推理引擎进行回复,从而来统计用户侧的体验类指标。

同时,Keysight AI Inference Builder (KAI 推理构建器)可以集成AI推理引擎本身的遥测统计数据,接入这些统计数据并实时放入同的统计面板,进行展示。用户可以从中分析得出性能瓶颈的原因。

Keysight AI Inference Builder (KAI 推理构建器) 通过将提示词进行如下预分类以及子分类,并可以配置分类提示词的比重,来模拟各种真实使用场景:

Law Firms 律师事务所

•Contract review (long-context, high prefill, memory growth)

合同审查(长上下文,高预填充,内存增长)

•Historical case research (retrieval latency + decode)

历史案例研究(检索延迟+解码)

Quantitative Finance 量化金融

•Multi-document financial modeling (High prefill+High decode)

多文档金融建模(高预填充+高解码)

•Real-time strategy simulation (latency-sensitive, concurrency-heavy)

实时策略模拟(对延迟敏感,高度并发)

Healthcare 医疗保健

•Patient record summarization (context-heavy)

患者记录摘要(上下文密集型)

•Clinical reasoning chains (multi-hop, memory-persistent)

临床推理链(多跳,记忆持久)

Academia 学术界

•Literature synthesis (High decode)

文献综述(高解码)

•Iterative reasoning and citation expansion (Multi-hop, KV-Cache heavy)

迭代推理和引用扩展(多跳,KV 缓存密集型)

KAI IB的研究不仅限于行业垂直建模,它还构建了针对特定功能的提示词组合,旨在探测推理引擎的特定组件。这些包括:

•GPU + HBM stress profiles

GPU + HBM 压力配置文件

•Model architecture sensitivity profiles

模型架构敏感性配置文件

•Memory and KV-cache targeted prompts

针对内存和 KV 缓存的提示词

•Networking and fabric stress prompts

针对网络压力的提示词

Keysight AI Inference Builder (KAI 推理构建器) 提供了一个统一的统计界面,将提示词回复生成的指标与实时AI推理引擎的遥测数据关联起来。一方面,它跟踪工作负载特性、提示类型、并发性、突发模式、TTFT、TPOT 和令牌生成速率。另一方面,它接入AI推理引擎自身的统计数据,例如 GPU 利用率、内存消耗、缓存增长、队列延迟、网络压力和token速率。

ChatGPT

因为这些数据集是时间对齐的,团队可以直接将特定的提示类型映射到其精确的基础设施影响上。Prefill峰值可以与 GPU 使用率相关联;Decode可变性可以追溯到内存带宽;尾部延迟可以与队列深度或并发量相关联。

Keysight AI Inference Builder(KAI 推理构建器)打破了传统的基准测试模式,通过贴近真实的性能测试,成为基础设施顾问。NVIDIA DSX AIR的AI仿真工厂方案,也推荐使用Keysight AI Inference Builder(KAI 推理构建器)进行建模和测试。

NVIDIA DSX AIR提供了一个AI工厂的数字孪生,团队可以在物理部署之前设计、建模和验证其 AI 基础设施。Keysight AI Inference Builder (KAI 推理构建器) 则通过引入逼真的工作负载模拟和分析功能来完善这一环境,使模拟的基础设施能够在类似生产的流量条件下得到验证。

AI已经进入“推理性能”时代

AI 已经从简单的生成阶段,进化到了深度思考与执行任务的“推理性能”时代。通过 Keysight AI Inference Builder (KAI 推理构建器),企业不仅能够看清复杂的软硬件堆栈瓶颈,更能在数字孪生世界中提前验证真实业务负载。当智算中心成为新时代的基础设施,精准的性能评估便是通往高效智能的加速器!

关于是德科技

是德科技(NYSE:KEYS)启迪并赋能创新者,助力他们将改变世界的技术带入生活。作为一家标准普尔 500 指数公司,我们提供先进的设计、仿真和测试解决方案,旨在帮助工程师在整个产品生命周期中更快地完成开发和部署,同时控制好风险。我们的客户遍及全球通信、工业自动化、航空航天与国防、汽车、半导体和通用电子等市场。我们与客户携手,加速创新,创造一个安全互联的世界。

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分