98%的LLM API消耗已是输入Token,Prompt缓存让「标价」彻底失真。DeepSeek V4 Flash通过2%缓存读取成本,把实际价格压到$0.018/百万Token——这才是2026年AI创业的定价基准线。
事件回顾
OpenRouter的AI模型排名榜出现了一个「陌生人」——腾讯的Hy3(预览版)。它上周的Token消耗量超过了Claude全系模型,高出50%以上,仅次于DeepSeek V4 Flash。
很多人第一反应:腾讯什么时候搞出来了一个杀手模型?
答案没那么简单。数据科学家Max Woolf(BuzzFeed高级数据科学家)深入挖掘了OpenRouter的公开数据后,发现了一个更值得AI创业者关注的故事——不是谁排第一,而是LLM API的定价逻辑已经被Prompt缓存彻底改写了。
Hy3凭什么登顶?
先看Hy3到底是什么。它是腾讯混元团队的开源模型,参数规模295B(从最初400B+压缩而来),基准测试成绩诚实得令人尊敬——在腾讯自己发布的HuggingFace页面上,Hy3的编码基准成绩明显落后于其他中国开源模型。
但它在OpenRouter上火了。原因是三个要素叠加:
- 价格足够低:$0.066/百万输入Token,比DeepSeek V4 Flash的$0.10/百万便宜不少
- 先免费后付费的经典策略:5月8日前免费提供,积累了大量用户,切换到付费后用户没有流失
- 唯一提供商SiliconFlow:新加坡的推理服务商,在Hy3之前几乎没有存在感,Hy3上线后使用量爆炸增长
但这不是故事的全部。Hy3的缓存读取成本高达44%,这意味着实际使用成本是$0.034/百万——几乎是某些DeepSeek V4 Flash提供商的两倍。
真正的价格屠夫:DeepSeek V4的KV缓存革命
如果你只看标价,DeepSeek V4 Flash是$0.10/百万Token。但OpenRouter现在展示了有效价格(effective price)——计入缓存命中率后的实际成本。
DeepSeek自己作为提供商时,缓存读取成本只有2%(行业标准是10-50%),有效价格降到$0.018/百万输入Token。DeepSeek V4 Pro版本更夸张——缓存读取成本降到0.83%。
怎么做到的?DeepSeek从V4开始实现了一种新的KV缓存方案。KV缓存(Key-Value Cache)是Transformer推理时保存已处理Token的中间状态,避免重复计算。DeepSeek的优化让它自己的提供商在缓存效率上远超第三方。
这对AI创业者意味着什么:同样的API调用,选择不同提供商,实际成本可以差5倍以上。
为什么缓存这么重要?
因为2026年的LLM使用模式已经彻底变了。
Max Woolf挖出的一个关键数据:OpenRouter上API调用的Token构成现在是98%输入、2%输出。
这不是笔误。当AI Agent进行多轮对话时,每一轮都要把整个对话历史重新发送给模型。一个30轮的编码会话,第30轮发送的上下文可能包含之前29轮的全部内容。这就是为什么Agent编码的成本比单次问答题高出一个数量级。
再加上代码库上下文、工具输出、MCP服务器返回的数据——输入Token的膨胀是指数级的。而Prompt缓存能把重复处理的成本降到原来的10%甚至更低。
对于日烧几百万Token的AI创业公司来说,选对提供商就是选对生死线。
三个值得关注的信号
信号1:API定价不再有「标价」这回事
OpenRouter现在不得不在每个模型页面展示「有效价格」表格。同一模型、不同提供商的有效价格差异巨大:
| 提供商 | 缓存命中率 | 有效价格($/1M输入) |
|---|---|---|
| DeepSeek原厂 | ~90%+ | 0.018 |
| SiliconFlow(Hy3) | ~56% | 0.034 |
| 第三方A | ~30% | 0.070 |
如果你在OpenRouter上选了「自动路由」而不指定提供商,可能会被分配到缓存命中率只有30%的节点——成本直接翻3倍。
信号2:订阅制 vs API,新的计算方式
Max Woolf指出了一个反直觉的结论:如果你能稳定耗尽Claude Code或Codex的订阅额度,订阅制仍然是最划算的。 但DeepSeek V4 Flash的API价格给了另一种选择:不锁定订阅,按需付费,且比超额购买订阅便宜得多。
信号3:中国模型正在重新定义「便宜」的底线
DeepSeek V4 Flash的$0.018/百万有效价格,Hy3的$0.034/百万,对比Claude Opus 4.7的$15/百万输入——价格差是800倍。虽然质量不在同一级别,但对于大量「不需要最强模型」的场景(数据清洗、格式转换、初稿生成),便宜模型的价值在快速提升。
行动建议
- 立刻检查你的API提供商配置:如果你在用OpenRouter,确认你的Agent是否在调用DeepSeek V4 Flash时指定了DeepSeek原厂作为提供商。不指定的代价可能是3-5倍的成本。
- 建立「有效定价」意识:不要再按模型的标价做预算。询问你的API提供商三个问题:缓存读取成本是多少?历史缓存命中率是多少?是否支持指定提供商?
- 分层模型策略:重任务用Claude/GPT(订阅制更划算),轻任务用DeepSeek V4 Flash(API按需付费),模板化任务甚至可以尝试Hy3级别的模型。一个合理的Agent架构应该支持按任务难度自动路由到不同模型。
- 关注DeepSeek API直连:OpenRouter上的DeepSeek原厂提供商有效价格虽低,但部分Agent框架可能不支持指定提供商。直接使用DeepSeek API Key可以获得同样的缓存优势,且更可控。
一个值得追问的问题
Hy3的故事最有趣的部分不是它登顶了——而是没人知道为什么。它的使用量高度去中心化(前5个App加起来不到1%),不是某个大客户在推。也没有明显的Agent编码工具把它设为默认。
Max Woolf的猜测是:某个大型非编码类App把Hy3作为数据处理骨干。如果是这样,它说明了一个趋势——便宜模型正在吃掉大量「后台」场景,而这些场景的Token消耗量远超前台对话。
对于AI创业者来说,这意味着:你的产品不需要在所有场景都用最强模型。把推理层做好分层,成本可以降低一个数量级。
*参考来源:Max Woolf's Blog (minimaxir.com) "The mysterious Hy3 LLM is topping OpenRouter Model Rankings by a large margin" (2026-05-26),OpenRouter AI Model Rankings公开数据,HN讨论 (126 points, 100 comments)*
#AI风向 #LLM定价 #DeepSeek #AI创业 #API经济 #一人公司
本文由AI辅助创作,经人工审核编辑发布
