AI风向

【AI风向】Agent推理成本暴降35倍:Nvidia Blackwell Ultra登顶首个Agentic AI基准测试

AgentPerf横空出世——这是AI行业第一个专门衡量"Agent推理效率"的基准测试。Nvidia Blackwell Ultra NVL72跑出了每兆瓦20倍于Hopper的Agent并发数,单token成本降低35倍。对于每天调用数万次LLM的AI创业者来说,这直接意味着:同样的钱,现在能跑35倍的Agent任务。

▲ AgentPerf基准测试:Blackwell Ultra vs Hopper — 每兆瓦Age▲ ▲ AgentPerf基准测试:Blackwell Ultra vs Hopper — 每兆瓦Agent并发数20倍提升

事件回顾:AgentPerf,第一个为Agent而生的基准测试

2026年6月13日,AI分析机构Artificial Analysis发布了AgentPerf——行业首个专门衡量Agentic AI基础设施性能的基准测试。首轮结果毫不意外:Nvidia Blackwell Ultra NVL72平台全面领先。

具体数据:

  • 每兆瓦可运行的Agent数量:Blackwell Ultra NVL72是上一代Hopper H200的20倍
  • 整体性能提升:GB300 NVL72相比Hopper平台,Agent吞吐量提升50倍
  • 单token成本:降低35倍

测试使用的模型是DeepSeek V4 Pro——当前最具代表性的混合专家(MoE)模型,也是实际生产中驱动最先进Agent的主力模型。

这不是跑个分就完事。AgentPerf的设计逻辑直指AI创业者的核心痛:Agent推理和传统聊天推理本质上是两类完全不同的工作负载。

为什么Agent推理的基准测试这么重要

传统LLM推理是一个"短跑"——一次API调用,一个回复,结束。但Agent推理是一场"接力赛":一个任务被拆成几十到上百次LLM调用,每次调用都带着越来越长的上下文,中间还要穿插代码执行、数据库查询、网页浏览等工具调用。

这种区别意味着传统推理基准(测单次请求延迟和并发吞吐)完全不适用于Agent场景。一个请求延迟10ms的系统做Agent任务可能比一个延迟100ms但内存带宽更强的系统慢得多——因为Agent任务瓶颈在上下文传递和工具调用的协同效率,不在单次回复速度。

AgentPerf的设计直接取自真实编程Agent的轨迹:12种以上编程语言的公开代码仓库中,Agent接收任务→读取文件→编写和编辑代码→执行命令→根据结果迭代。所有工具调用的CPU消耗都精确模拟,确保测试结果只反映GPU加速计算的实际差异。

对于每天调用LLM数万次的AI创业者来说,AgentPerf的出现意味着:

  1. 选型有了标准:不再靠厂商PPT选硬件,有了可对比的第三方数据
  2. 成本可预测:35倍成本差异不是小优化,是足以改变商业模式的数量级变化
  3. 架构可规划:知道Agent推理的瓶颈在哪里,才知道该把钱花在什么地方

为什么是Blackwell Ultra:全栈协同设计的胜利

Blackwell Ultra NVL72不是简单地把72块GPU塞进一个机架。它的核心优势来自三个层面的协同设计:

第一层:机架级互联。 GB300 NVL72把72块GPU通过NVLink连接成一个单系统,让DeepSeek V4 Pro这样的MoE大模型能够高效地分布式执行——不同专家模型跑在不同GPU上,数据传输走NVLink而非慢得多的网络。

第二层:CUDA内核优化。 通信和计算重叠执行——协调各个专家的开销被"吸收"进计算时间,而不是叠加到延迟上。这直接提升了Agent并发数。

第三层:TensorRT LLM推理引擎。 把输入处理(prefill)和输出生成(decode)分离优化。随着并发Agent会话数量增加,这一优化的价值指数级放大。

已在使用Blackwell的推理服务商包括:Baseten、DeepInfra、Together AI。其中Together AI已经在为Cursor提供实时推理服务——SpaceX刚刚以600亿美元收购的那家公司,就是用Blackwell做Agent推理。

▲ Agent推理成本革命:35倍下降,50x性能提升 | 全栈协同设计▲ ▲ Agent推理成本革命:35倍下降,50x性能提升 | 全栈协同设计

这对AI创业者意味着什么

如果你的产品是一个需要频繁调用LLM的Agent应用——无论是自动编程工具、客服机器人还是内容生成流水线——Blackwell Ultra NVL72带来的35倍成本下降不是"锦上添花",而是"地基重打"。

具体到三个场景:

场景一:编程Agent。 以Claude Code或Codex为例,一次编程任务动辄上百次LLM调用。如果单token成本降35倍,同样的月度预算可以支持的并发用户数直接乘以35。过去只能服务10个付费客户的硬件成本,现在能服务350个。

场景二:内容生成流水线。 AI内容创业的核心成本是模型推理。一条完整的公众号文章流水线(选题→搜索→写作→配图→排版)可能需要50-100次LLM调用。35倍成本下降意味着从"精打细算每篇文章成本"变成"批量生产不计成本"。

场景三:多Agent协作系统。 OpenClaw和Hermes Agent这类多Agent框架的算力需求是指数级的——每个子Agent都有自己的上下文和工具调用链。AgentPerf测试的"每兆瓦并发Agent数"直接衡量了这种场景下的实际承载能力。

行动建议

短期(1-3个月):

  • 如果你是Together AI或Baseten的客户,尽快询问Blackwell实例的可用时间。先上车的Agent应用将拥有显著的成本优势
  • 如果你的Agent应用还跑在H100/H200上,现在开始做性能基准——用你自己的Agent任务测出当前系统的"每元Agent数",为迁移做对比准备

中期(3-6个月):

  • 重新做一次定价模型:35倍成本下降意味着你的利润模型需要重算。很多现在"算不过账"的Agent应用场景将变得可行
  • 关注DeepSeek V4 Pro在Blackwell上的实际表现——AgentPerf用这个模型不是随便选的,它代表的是MoE模型在Agent场景下的最优解

长期(6个月+):

  • 你的竞争对手也会拿到Blackwell。成本优势窗口期可能只有3-6个月,之后比拼的将回归产品体验和用户留存本身
  • 关注Nvidia Vera Rubin(预计2026 Q3发货)和800V DC——这波硬件迭代远未结束

风险提示

  • Blackwell Ultra NVL72目前主要面向云服务商和大企业,中小创业者可能需要通过推理API间接使用,成本优势会打折扣
  • AgentPerf只测了DeepSeek V4 Pro一个模型,不同模型在Blackwell上的表现差异可能很大
  • 35倍成本下降是相对于Hopper(H200),如果你的应用目前跑在更新的硬件上,实际优化幅度可能小于35倍

本文由AI辅助创作,经人工审核编辑发布