【AI风向】OpenRouter排名突变：腾讯Hy3神秘登顶，但AI创业者该关心的不是谁第一

98%的LLM API消耗已是输入Token，Prompt缓存让「标价」彻底失真。DeepSeek V4 Flash通过2%缓存读取成本，把实际价格压到$0.018/百万Token——这才是2026年AI创业的定价基准线。

事件回顾

OpenRouter的AI模型排名榜出现了一个「陌生人」——腾讯的Hy3（预览版）。它上周的Token消耗量超过了Claude全系模型，高出50%以上，仅次于DeepSeek V4 Flash。

很多人第一反应：腾讯什么时候搞出来了一个杀手模型？

答案没那么简单。数据科学家Max Woolf（BuzzFeed高级数据科学家）深入挖掘了OpenRouter的公开数据后，发现了一个更值得AI创业者关注的故事——不是谁排第一，而是LLM API的定价逻辑已经被Prompt缓存彻底改写了。

Hy3凭什么登顶？

先看Hy3到底是什么。它是腾讯混元团队的开源模型，参数规模295B（从最初400B+压缩而来），基准测试成绩诚实得令人尊敬——在腾讯自己发布的HuggingFace页面上，Hy3的编码基准成绩明显落后于其他中国开源模型。

但它在OpenRouter上火了。原因是三个要素叠加：

价格足够低：$0.066/百万输入Token，比DeepSeek V4 Flash的$0.10/百万便宜不少
先免费后付费的经典策略：5月8日前免费提供，积累了大量用户，切换到付费后用户没有流失
唯一提供商SiliconFlow：新加坡的推理服务商，在Hy3之前几乎没有存在感，Hy3上线后使用量爆炸增长

但这不是故事的全部。Hy3的缓存读取成本高达44%，这意味着实际使用成本是$0.034/百万——几乎是某些DeepSeek V4 Flash提供商的两倍。

真正的价格屠夫：DeepSeek V4的KV缓存革命

如果你只看标价，DeepSeek V4 Flash是$0.10/百万Token。但OpenRouter现在展示了有效价格（effective price）——计入缓存命中率后的实际成本。

DeepSeek自己作为提供商时，缓存读取成本只有2%（行业标准是10-50%），有效价格降到$0.018/百万输入Token。DeepSeek V4 Pro版本更夸张——缓存读取成本降到0.83%。

怎么做到的？DeepSeek从V4开始实现了一种新的KV缓存方案。KV缓存（Key-Value Cache）是Transformer推理时保存已处理Token的中间状态，避免重复计算。DeepSeek的优化让它自己的提供商在缓存效率上远超第三方。

这对AI创业者意味着什么：同样的API调用，选择不同提供商，实际成本可以差5倍以上。

为什么缓存这么重要？

因为2026年的LLM使用模式已经彻底变了。

Max Woolf挖出的一个关键数据：OpenRouter上API调用的Token构成现在是98%输入、2%输出。

这不是笔误。当AI Agent进行多轮对话时，每一轮都要把整个对话历史重新发送给模型。一个30轮的编码会话，第30轮发送的上下文可能包含之前29轮的全部内容。这就是为什么Agent编码的成本比单次问答题高出一个数量级。

再加上代码库上下文、工具输出、MCP服务器返回的数据——输入Token的膨胀是指数级的。而Prompt缓存能把重复处理的成本降到原来的10%甚至更低。

对于日烧几百万Token的AI创业公司来说，选对提供商就是选对生死线。

三个值得关注的信号

信号1：API定价不再有「标价」这回事

OpenRouter现在不得不在每个模型页面展示「有效价格」表格。同一模型、不同提供商的有效价格差异巨大：

提供商	缓存命中率	有效价格($/1M输入)
DeepSeek原厂	~90%+	0.018
SiliconFlow(Hy3)	~56%	0.034
第三方A	~30%	0.070

如果你在OpenRouter上选了「自动路由」而不指定提供商，可能会被分配到缓存命中率只有30%的节点——成本直接翻3倍。

信号2：订阅制 vs API，新的计算方式

Max Woolf指出了一个反直觉的结论：如果你能稳定耗尽Claude Code或Codex的订阅额度，订阅制仍然是最划算的。 但DeepSeek V4 Flash的API价格给了另一种选择：不锁定订阅，按需付费，且比超额购买订阅便宜得多。

信号3：中国模型正在重新定义「便宜」的底线

DeepSeek V4 Flash的$0.018/百万有效价格，Hy3的$0.034/百万，对比Claude Opus 4.7的$15/百万输入——价格差是800倍。虽然质量不在同一级别，但对于大量「不需要最强模型」的场景（数据清洗、格式转换、初稿生成），便宜模型的价值在快速提升。

行动建议

立刻检查你的API提供商配置：如果你在用OpenRouter，确认你的Agent是否在调用DeepSeek V4 Flash时指定了DeepSeek原厂作为提供商。不指定的代价可能是3-5倍的成本。
建立「有效定价」意识：不要再按模型的标价做预算。询问你的API提供商三个问题：缓存读取成本是多少？历史缓存命中率是多少？是否支持指定提供商？
分层模型策略：重任务用Claude/GPT（订阅制更划算），轻任务用DeepSeek V4 Flash（API按需付费），模板化任务甚至可以尝试Hy3级别的模型。一个合理的Agent架构应该支持按任务难度自动路由到不同模型。
关注DeepSeek API直连：OpenRouter上的DeepSeek原厂提供商有效价格虽低，但部分Agent框架可能不支持指定提供商。直接使用DeepSeek API Key可以获得同样的缓存优势，且更可控。

一个值得追问的问题

Hy3的故事最有趣的部分不是它登顶了——而是没人知道为什么。它的使用量高度去中心化（前5个App加起来不到1%），不是某个大客户在推。也没有明显的Agent编码工具把它设为默认。

Max Woolf的猜测是：某个大型非编码类App把Hy3作为数据处理骨干。如果是这样，它说明了一个趋势——便宜模型正在吃掉大量「后台」场景，而这些场景的Token消耗量远超前台对话。

对于AI创业者来说，这意味着：你的产品不需要在所有场景都用最强模型。把推理层做好分层，成本可以降低一个数量级。

*参考来源：Max Woolf's Blog (minimaxir.com) "The mysterious Hy3 LLM is topping OpenRouter Model Rankings by a large margin" (2026-05-26)，OpenRouter AI Model Rankings公开数据，HN讨论 (126 points, 100 comments)*

#AI风向 #LLM定价 #DeepSeek #AI创业 #API经济 #一人公司

本文由AI辅助创作，经人工审核编辑发布