2026年5月28日,Liquid AI发布LFM2.5-8B-A1B:8B总参数、仅1B激活、38万亿token训练、128K上下文,在多项基准上碾压7B和17B级竞品。最关键的是——它能在你的笔记本电脑上以每秒18,500个token的速度运行。对于一人公司和AI创业者来说,这意味着"私有AI Agent跑在本地"不再是空话。
事件回顾:一颗投向"小模型"赛道的深水炸弹
5月28日,Liquid AI(MIT孵化、以"液态神经网络"闻名的AI公司)悄然发布了LFM2.5-8B-A1B,一个定位"边缘设备"的MoE(混合专家)模型。
这不是普通的模型迭代。
它的前身LFM2-8B-A1B发布于2025年10月,当时就已经引起关注。而这次8个月后的升级,几个数字的变化堪称"跳级":
- 上下文窗口:32K → 128K(翻了4倍)
- 预训练数据量:12万亿token → 38万亿token(翻了3倍多)
- 词表规模:6.5万 → 12.8万(翻倍,大幅改善非拉丁语言支持)
- 推理速度:18,500 token/秒(M5 Max上测得)
这些数字背后的含义是:一个入门级笔记本就能跑的模型,现在可以处理整本书长度的上下文,理解更多语言,而且快得像打字。
为什么这个模型值得AI创业者关注
1. 本地AI Agent不再是"Next Year"的事
Liquid AI在博客里直接说:"这是一个推理专用模型,专为消费级硬件上的快速、可靠工具调用而打造。"他们还特别强调了一个词——agentic benchmarks(智能体基准测试)。
在Tau² Telecom任务上,LFM2.5-8B-A1B拿到了88.07分,超过了Llama-4-Scout(17B/3.6B,87.40分)和Granite-4.0-H-Tiny(7B/A1B,75.82分)。这意味着:一个总参数只有8B、激活参数仅1B的模型,在客服自动化等实际Agent场景中,已经比某些17B的大模型更强。
对于AI创业者来说,这是什么概念?你可以在自己的MacBook上跑一个本地Agent,让它处理客户咨询、自动回复邮件、整理日程——而且你的数据不会离开你的设备。不需要API Key,不需要按token付费,不需要担心隐私泄露。
2. 自带了Agent演示——LocalCowork
Liquid AI开源了一个桌面Agent demo叫LocalCowork,直接跑在LFM2.5-8B-A1B上。

▲ LFM2.5-8B-A1B核心参数:上下文4倍、训练数据3倍、词表翻倍
这个demo的设计思路和我们一直在关注的Agent工坊高度一致:电脑操作Agent(读取屏幕、点击、输入),完全本地运行,数据不出设备,审计轨迹完整记录。Liquid AI在博客里把它的定位写得很清楚:"朝着为设备端打造完全私有Agent迈出的第一步。"这不是概念演示。这是可运行的代码,开源在GitHub上(github.com/Liquid4All/cookbook)。
3. "端侧AI"正在从营销词变成工程现实
就在Liquid AI发布的前一天(5月27日),MacRumors报道苹果将"端侧AI"列为关键战略方向。HN上有评论直接猜测:"苹果会不会收购Liquid AI?"
如果把这两件事放在一起看:苹果要在设备上跑AI、Liquid AI做出能跑在消费级硬件上的高性能模型——这不是巧合。端侧AI的2026年正在加速到来。
性能横评:小模型打大模型的真实战报
Liquid AI在官方博客中给出了详尽的基准对比。我们挑几个关键维度:
知识准确度(AA-Omniscience Index,越低越好):
- LFM2.5-8B-A1B:-24.70
- 前代LFM2-8B-A1B:-78.42(提升+53.62)
- Granite-4.0-H-Tiny(7B/A1B):-62.53
- Llama-4-Scout(17B/3.6B):-49.17
Liquid的新模型在"不胡说"这件事上,比前代提升了超过50个点,而且全面超越了同级别的Granite和更大的Llama。
指令遵循(IFEval):
- LFM2.5-8B-A1B:63.47
- Llama-4-Scout:24.50
- Granite-4.0-H-Tiny:61.63
指令遵循能力是Agent场景的刚需——模型需要准确理解"打开浏览器、搜索XX、提取前三篇、整理成表格"这样的复合指令。LFM2.5在这里的表现远超17B的Llama-4-Scout。
数学推理(MATH500):
- LFM2.5-8B-A1B:88.76
- Llama-4-Scout:94.60
- Granite-4.0-H-Tiny:80.56
数学上Llama-4-Scout仍然领先,但考虑到激活参数差了3.6倍,Liquid的表现已经很惊人。
竞赛数学(AIME26):
- LFM2.5-8B-A1B:50.00
- Llama-4-Scout:68.67
- Granite-4.0-H-Tiny:39.33
硬核数学仍然是更大模型的优势领域,但Liquid在8B级别已经做到了及格线以上。
HN社区的质疑与清醒评价
HN上对这件事的讨论获得了152分、52条评论,热度很高。但评论区的态度不是一味叫好——有几位开发者的实测反馈值得注意:
一位开发者在bug修复基准上测试后表示:"它的表现不如我预期的好。Qwen2.5-Coder-3B(2年前的模型)修复了约50%的bug,而这个模型只修复了约12%。"
这个反馈揭示了一个关键事实:基准分数不完全等于实际编码能力。虽然LFM2.5在MATH500上拿了88分,但在真实代码修复任务中,专门为代码优化的旧模型可能更实用。
另一位评论者提出了"过度训练"的质疑:"38T token对一个8B模型来说太多了。Chinchilla最优缩放律是20倍活跃参数,Mistral一度做到了2倍Chinchilla,而这个是1800倍。"
翻译一下:按照DeepMind提出的Chinchilla定律,一个1B激活参数的模型"最优"训练量大约是200亿token。Liquid用掉了这个数字的190倍。这意味着它在训练效率上可能存在边际递减,同时也意味着这个模型的训练成本并不低。
还有一位HN用户发现了有趣的身份认知问题:"我问它是谁造的,它说它是Google的。"
训练技术上的几个亮点
抛开争议,LFM2.5-8B-A1B在训练方法上有几个值得了解的技术选择:
- avg@k奖励机制:Liquid在强化学习阶段使用了基于avg@k的奖励建模。这个技术的效果是:模型在维持知识广度的同时,幻觉率显著降低。官方博客表示这是"知识准确度大幅提升的关键"。
- 分阶段上下文扩展:不是一次性从32K跳到128K。Liquid的做法是:先用2T token的中期训练将上下文扩展到32K,然后通过调整RoPE(旋转位置编码)的基础频率θ,再用400B token将上下文扩展到128K。这种渐进式方法避免了直接大幅扩展导致的注意力分散问题。
- 推理专用设计:LFM2.5-8B-A1B是个"推理专用模型"(reasoning-only model),不像前代那样支持视觉输入。Liquid的策略很清晰:在这个尺寸级别,专注做好一件事比什么都做但做不好更有价值。

▲ 一人公司+本地AI Agent:笔记本上跑私有Agent,数据不出设备
一人公司可以怎么用?
最实际的问题:如果你是AI创业者或一人公司经营者,这个模型对你有什么用?
场景一:本地知识库+私有Agent
用LFM2.5-8B-A1B + llama.cpp,你可以在自己的笔记本上搭建一个完全离线的知识库问答系统。128K上下文意味着你可以丢进去整本技术手册、完整的产品文档、甚至几个月的客户邮件历史,然后让模型基于这些内容回答问题。
不需要付费API,数据不会上传到任何服务器。对于处理敏感客户信息的场景(法律咨询、财务分析、医疗记录整理),这是巨大的优势。
场景二:批量内容处理Agent
结合LocalCowork的思路,你可以让这个模型驱动一个桌面Agent:自动浏览网页收集信息、整理成结构化报告、批量处理Excel数据、自动回复格式化邮件。
虽然它在代码生成上不如专用模型,但在"理解指令→调用工具→整理输出"这条Agent链路上,它的遵循指令能力(IFEval 63.47)已经足够做很多实际工作。
场景三:作为多Agent系统的"调度员"
如果你的业务需要多个AI同时工作(一个查资料、一个写文案、一个检查格式),LFM2.5-8B-A1B可以担任"任务分解和调度"的角色。它的1B激活参数意味着调度开销极低,可以把宝贵的API额度留给真正需要强大推理能力的任务。
局限和风险
代码能力不如专用模型:HN用户的实测已经证明,Qwen2.5-Coder-3B在代码修复上明显更强。如果你的核心业务是AI辅助编程,这个模型不是最佳选择。
无视觉能力:这是纯粹的文本推理模型。需要图像理解或生成的场景,需要搭配其他模型。
Ollama支持尚未就绪:虽然llama.cpp、MLX、vLLM都提供day-one支持,但最流行的本地模型运行工具Ollama还没有适配。对于习惯了ollama run一键启动的用户,需要等一等或自己折腾。
事实准确性仍需验证:HN上有人指出模型自称"是Google制造的"。在知识准确度上LFM2.5比前代进步巨大,但"不胡说"这件事远未解决。
行动建议
- 立即尝试:如果你有Mac(尤其是M系列芯片),通过MLX或llama.cpp下载模型,跑一下LocalCowork demo,感受一下本地Agent的实际体验。
- 评估你的业务场景:如果模型在你关心的任务上表现足够好(试试IFEval、BFCL等Agent相关基准),可以考虑将部分API调用替换为本地推理,直接省下token成本。
- 关注Liquid AI的后续动态:他们明确表示LFM2.5是"为设备端Agent迈出的第一步"。这意味着后续还会有更多针对Agent场景优化的模型。现在跟进,抢占先机。
- 不要all-in小模型:在实际生产中,最有效的策略仍然是"混合部署"——小模型处理高频低难度任务,大模型API处理复杂推理和创意生成。
端侧AI的2026年,可能比我们所有人预想的都要快。
#AI风向 #LiquidAI #端侧AI #AI模型 #一人公司 #AI创业
*本文由AI辅助创作,经人工审核编辑发布。数据来源:Liquid AI官方博客(2026年5月28日)、HN社区讨论、公开基准测试结果。*
本文由AI辅助创作,经人工审核编辑发布
