【AI风向】Liquid AI扔出王炸：8B小模型跑在笔记本上，性能硬刚17B大模型，一人公司AI Agent时代真的来了

2026年5月28日，Liquid AI发布LFM2.5-8B-A1B：8B总参数、仅1B激活、38万亿token训练、128K上下文，在多项基准上碾压7B和17B级竞品。最关键的是——它能在你的笔记本电脑上以每秒18,500个token的速度运行。对于一人公司和AI创业者来说，这意味着"私有AI Agent跑在本地"不再是空话。

事件回顾：一颗投向"小模型"赛道的深水炸弹

5月28日，Liquid AI（MIT孵化、以"液态神经网络"闻名的AI公司）悄然发布了LFM2.5-8B-A1B，一个定位"边缘设备"的MoE（混合专家）模型。

这不是普通的模型迭代。

它的前身LFM2-8B-A1B发布于2025年10月，当时就已经引起关注。而这次8个月后的升级，几个数字的变化堪称"跳级"：

上下文窗口：32K → 128K（翻了4倍）
预训练数据量：12万亿token → 38万亿token（翻了3倍多）
词表规模：6.5万 → 12.8万（翻倍，大幅改善非拉丁语言支持）
推理速度：18,500 token/秒（M5 Max上测得）

这些数字背后的含义是：一个入门级笔记本就能跑的模型，现在可以处理整本书长度的上下文，理解更多语言，而且快得像打字。

为什么这个模型值得AI创业者关注

1. 本地AI Agent不再是"Next Year"的事

Liquid AI在博客里直接说："这是一个推理专用模型，专为消费级硬件上的快速、可靠工具调用而打造。"他们还特别强调了一个词——agentic benchmarks（智能体基准测试）。

在Tau² Telecom任务上，LFM2.5-8B-A1B拿到了88.07分，超过了Llama-4-Scout（17B/3.6B，87.40分）和Granite-4.0-H-Tiny（7B/A1B，75.82分）。这意味着：一个总参数只有8B、激活参数仅1B的模型，在客服自动化等实际Agent场景中，已经比某些17B的大模型更强。

对于AI创业者来说，这是什么概念？你可以在自己的MacBook上跑一个本地Agent，让它处理客户咨询、自动回复邮件、整理日程——而且你的数据不会离开你的设备。不需要API Key，不需要按token付费，不需要担心隐私泄露。

2. 自带了Agent演示——LocalCowork

Liquid AI开源了一个桌面Agent demo叫LocalCowork，直接跑在LFM2.5-8B-A1B上。

LFM2.5-8B-A1B核心参数升级对比

▲ LFM2.5-8B-A1B核心参数：上下文4倍、训练数据3倍、词表翻倍

这个demo的设计思路和我们一直在关注的Agent工坊高度一致：电脑操作Agent（读取屏幕、点击、输入），完全本地运行，数据不出设备，审计轨迹完整记录。Liquid AI在博客里把它的定位写得很清楚："朝着为设备端打造完全私有Agent迈出的第一步。"

这不是概念演示。这是可运行的代码，开源在GitHub上（github.com/Liquid4All/cookbook）。

3. "端侧AI"正在从营销词变成工程现实

就在Liquid AI发布的前一天（5月27日），MacRumors报道苹果将"端侧AI"列为关键战略方向。HN上有评论直接猜测："苹果会不会收购Liquid AI？"

如果把这两件事放在一起看：苹果要在设备上跑AI、Liquid AI做出能跑在消费级硬件上的高性能模型——这不是巧合。端侧AI的2026年正在加速到来。

性能横评：小模型打大模型的真实战报

Liquid AI在官方博客中给出了详尽的基准对比。我们挑几个关键维度：

知识准确度（AA-Omniscience Index，越低越好）：

LFM2.5-8B-A1B：-24.70
前代LFM2-8B-A1B：-78.42（提升+53.62）
Granite-4.0-H-Tiny（7B/A1B）：-62.53
Llama-4-Scout（17B/3.6B）：-49.17

Liquid的新模型在"不胡说"这件事上，比前代提升了超过50个点，而且全面超越了同级别的Granite和更大的Llama。

指令遵循（IFEval）：

LFM2.5-8B-A1B：63.47
Llama-4-Scout：24.50
Granite-4.0-H-Tiny：61.63

指令遵循能力是Agent场景的刚需——模型需要准确理解"打开浏览器、搜索XX、提取前三篇、整理成表格"这样的复合指令。LFM2.5在这里的表现远超17B的Llama-4-Scout。

数学推理（MATH500）：

LFM2.5-8B-A1B：88.76
Llama-4-Scout：94.60
Granite-4.0-H-Tiny：80.56

数学上Llama-4-Scout仍然领先，但考虑到激活参数差了3.6倍，Liquid的表现已经很惊人。

竞赛数学（AIME26）：

LFM2.5-8B-A1B：50.00
Llama-4-Scout：68.67
Granite-4.0-H-Tiny：39.33

硬核数学仍然是更大模型的优势领域，但Liquid在8B级别已经做到了及格线以上。

HN社区的质疑与清醒评价

HN上对这件事的讨论获得了152分、52条评论，热度很高。但评论区的态度不是一味叫好——有几位开发者的实测反馈值得注意：

一位开发者在bug修复基准上测试后表示："它的表现不如我预期的好。Qwen2.5-Coder-3B（2年前的模型）修复了约50%的bug，而这个模型只修复了约12%。"

这个反馈揭示了一个关键事实：基准分数不完全等于实际编码能力。虽然LFM2.5在MATH500上拿了88分，但在真实代码修复任务中，专门为代码优化的旧模型可能更实用。

另一位评论者提出了"过度训练"的质疑："38T token对一个8B模型来说太多了。Chinchilla最优缩放律是20倍活跃参数，Mistral一度做到了2倍Chinchilla，而这个是1800倍。"

翻译一下：按照DeepMind提出的Chinchilla定律，一个1B激活参数的模型"最优"训练量大约是200亿token。Liquid用掉了这个数字的190倍。这意味着它在训练效率上可能存在边际递减，同时也意味着这个模型的训练成本并不低。

还有一位HN用户发现了有趣的身份认知问题："我问它是谁造的，它说它是Google的。"

训练技术上的几个亮点

抛开争议，LFM2.5-8B-A1B在训练方法上有几个值得了解的技术选择：

avg@k奖励机制：Liquid在强化学习阶段使用了基于avg@k的奖励建模。这个技术的效果是：模型在维持知识广度的同时，幻觉率显著降低。官方博客表示这是"知识准确度大幅提升的关键"。
分阶段上下文扩展：不是一次性从32K跳到128K。Liquid的做法是：先用2T token的中期训练将上下文扩展到32K，然后通过调整RoPE（旋转位置编码）的基础频率θ，再用400B token将上下文扩展到128K。这种渐进式方法避免了直接大幅扩展导致的注意力分散问题。
推理专用设计：LFM2.5-8B-A1B是个"推理专用模型"（reasoning-only model），不像前代那样支持视觉输入。Liquid的策略很清晰：在这个尺寸级别，专注做好一件事比什么都做但做不好更有价值。

▲ 一人公司+本地AI Agent：笔记本上跑私有Agent，数据不出设备

一人公司可以怎么用？

最实际的问题：如果你是AI创业者或一人公司经营者，这个模型对你有什么用？

场景一：本地知识库+私有Agent

用LFM2.5-8B-A1B + llama.cpp，你可以在自己的笔记本上搭建一个完全离线的知识库问答系统。128K上下文意味着你可以丢进去整本技术手册、完整的产品文档、甚至几个月的客户邮件历史，然后让模型基于这些内容回答问题。

不需要付费API，数据不会上传到任何服务器。对于处理敏感客户信息的场景（法律咨询、财务分析、医疗记录整理），这是巨大的优势。

场景二：批量内容处理Agent

结合LocalCowork的思路，你可以让这个模型驱动一个桌面Agent：自动浏览网页收集信息、整理成结构化报告、批量处理Excel数据、自动回复格式化邮件。

虽然它在代码生成上不如专用模型，但在"理解指令→调用工具→整理输出"这条Agent链路上，它的遵循指令能力（IFEval 63.47）已经足够做很多实际工作。

场景三：作为多Agent系统的"调度员"

如果你的业务需要多个AI同时工作（一个查资料、一个写文案、一个检查格式），LFM2.5-8B-A1B可以担任"任务分解和调度"的角色。它的1B激活参数意味着调度开销极低，可以把宝贵的API额度留给真正需要强大推理能力的任务。

局限和风险

代码能力不如专用模型：HN用户的实测已经证明，Qwen2.5-Coder-3B在代码修复上明显更强。如果你的核心业务是AI辅助编程，这个模型不是最佳选择。

无视觉能力：这是纯粹的文本推理模型。需要图像理解或生成的场景，需要搭配其他模型。

Ollama支持尚未就绪：虽然llama.cpp、MLX、vLLM都提供day-one支持，但最流行的本地模型运行工具Ollama还没有适配。对于习惯了ollama run一键启动的用户，需要等一等或自己折腾。

事实准确性仍需验证：HN上有人指出模型自称"是Google制造的"。在知识准确度上LFM2.5比前代进步巨大，但"不胡说"这件事远未解决。

行动建议

立即尝试：如果你有Mac（尤其是M系列芯片），通过MLX或llama.cpp下载模型，跑一下LocalCowork demo，感受一下本地Agent的实际体验。
评估你的业务场景：如果模型在你关心的任务上表现足够好（试试IFEval、BFCL等Agent相关基准），可以考虑将部分API调用替换为本地推理，直接省下token成本。
关注Liquid AI的后续动态：他们明确表示LFM2.5是"为设备端Agent迈出的第一步"。这意味着后续还会有更多针对Agent场景优化的模型。现在跟进，抢占先机。
不要all-in小模型：在实际生产中，最有效的策略仍然是"混合部署"——小模型处理高频低难度任务，大模型API处理复杂推理和创意生成。

端侧AI的2026年，可能比我们所有人预想的都要快。

#AI风向 #LiquidAI #端侧AI #AI模型 #一人公司 #AI创业

*本文由AI辅助创作，经人工审核编辑发布。数据来源：Liquid AI官方博客（2026年5月28日）、HN社区讨论、公开基准测试结果。*

本文由AI辅助创作，经人工审核编辑发布