PrismML 发布 Bonsai Image 4B,用1-bit/三进制量化把 FLUX.2 Klein 4B 压缩 8.3 倍,在 iPhone 17 Pro Max 上 9.4 秒出一张 512×512 图,开源权重 Apache 2.0 协议。本地图像生成的"DeepSeek 时刻"来了。
事件回顾
5 月 26 日,由 Caltech 研究团队创立、Khosla Ventures 与 Google 等机构支持的 PrismML,发布了 Bonsai Image 4B —— 一套为本地设备优化的紧凑型图像生成模型。HN 上迅速冲到 408 分、170 条评论。
核心突破简单到一句话:把 4B 参数级别的扩散 Transformer 从 7.75GB 压缩到 0.93GB(1-bit 版),能在 iPhone 上直接运行。
Bonsai Image 4B 有两个变体:
| 变体 | 权重格式 | Transformer 大小 | 压缩比 | 精度保留 |
|---|---|---|---|---|
| 1-bit Bonsai | {−1, +1} 二值 | 0.93 GB | 8.3× | 88% |
| Ternary Bonsai | {−1, 0, +1} 三值 | 1.21 GB | 6.4× | 95% |
| FLUX.2 Klein 4B(原始) | FP16 全精度 | 7.75 GB | 1× | 100% |
在 iPhone 17 Pro Max 上,1-bit 版本生成一张 512×512 图像仅需 9.4 秒,Mac M4 Pro 上约 6 秒,比原生全精度 MFLUX pipeline 快 5.6 倍。而原始的 FLUX.2 Klein 4B 根本无法在 iPhone 上运行——设备内存根本装不下。
为什么这是一个"DeepSeek 时刻"
去年 DeepSeek 用 MoE + 极致优化把大语言模型的推理成本打下来了。Bonsai Image 4B 对图像生成做的事,逻辑完全一样:不让模型变小,而是让表示方式变聪明。
具体做法是保留 FLUX.2 Klein 4B 的完整架构,只改变 Transformer 权重的存储方式——把 FP16 浮点权重压缩成二值或三值形式,配合一个小的 FP16 缩放因子(group-wise scaling)。约 5% 的精度敏感层(投影层)保留 FP16,其余全部量化。
效果:1-bit 版以 每权重 1.125 有效比特的极致压缩率,把 Transformer 部分从 7.75GB 砍到 0.93GB;而三进制版利用额外的"零"状态获得更好的表达力,在 1.21GB 下保留了原始模型 95% 的精度。
对比几个关键基准:
- GenEval(物体组合与属性绑定):三进制版 0.723,原始 FLUX.2 Klein 4B 是 0.819,SDXL 只有 0.3
- HPSv3(人类偏好与美学质量):三进制版 12.22,接近原始 12.84
- DPG-Bench(密集提示遵循):三进制版 0.851,几乎与原始 0.853 持平
与同体量模型对比更直观:SDXL 体积是 Bonsai 1-bit 的 5.5 倍,GenEval 却只有它的 44%。BK-SDM-Small 体积相近(0.98 GB),但 GenEval 仅 0.297——不到 Bonsai 1-bit 的一半。
对 AI 创业者意味着什么
1. 本地推理的商业模式被重新定价
云端 API 图像生成(DALL-E、Midjourney、Firefly)按张计费,每次生成都是有成本的。如果你在做一个需要大量图像迭代的产品——比如 AI 设计工具、电商商品图生成、游戏资产生成——每一轮"生成→不满意→重新生成"都在烧钱。
Bonsai Image 4B 把这件事搬到了本地。用户在自己的设备上生成,没有边际服务成本。这意味着:
- 无限迭代:用户可以反复调整 prompt 直到满意,不再心疼每次 0.04 美元
- 零延迟:本地推理消除了网络往返,即出即看
- 隐私保护:prompt 和生成的图像不离开设备
这对 B2C AI 图像产品是根本性的成本结构变化。
2. 移动端图像生成终于可用
此前能在手机上跑的图像模型(如 BK-SDM-Small)质量太差,质量能用的模型(如 SDXL)又太大。Bonsai Image 4B 第一次在"质量可接受 × 设备可承载"的交集上落子。
9.4 秒出图的 iPhone 17 Pro Max 体验已经接近可用——这不是"技术 demo",而是能嵌入产品的推理速度。PrismML 同步推出的 iOS App "Bonsai Studio" 就是最好的证明。
3. 开源权重 = 零许可费
Apache 2.0 协议意味着你可以:
- 把模型嵌入商业产品,无需付费
- 对模型做微调(fine-tune)适配垂直场景
- 在自有服务器或边缘设备上部署
这在 Midjourney 闭源、Stable Diffusion 陷入商业纠纷的当下,是一个难得的干净选型。
警惕:这还不是完美方案
几个需要冷静看待的点:
质量天花板还在。1-bit 版只保留了原模型 88% 的精度——对需要高保真度的商业场景(产品摄影、品牌素材)来说,这个差距是肉眼可见的。三进制版 95% 好很多,但体积也大了 30%。
硬件的下一站是专用芯片。Bonsai Image 4B 跑在通用 Apple Silicon 上,但真正的爆发点可能在专用 NPU 或低比特推理芯片上——那是 2027 年的事了。
生态依赖 Core ML / MLX。PrismML 的部署栈目前深度绑定 Apple 生态(MLX 低比特路径)和 CUDA(Gemlite GEMM kernel)。非 Apple/非 NVIDIA 硬件的支持还没影。
行动建议
如果你是 AI 创业者,现在可以做的事:
- 评估图像生成成本:如果你的产品每月在图像 API 上花超过 100 美元,本地推理方案可能已经比云 API 便宜(考虑到设备是用户自备的)
- 关注量化技术栈:1-bit/三进制量化不是只适用于图像——同样的思路正在向视频、3D、音频扩散模型蔓延
- 试跑 Bonsai Image:如果你有 M 系列 Mac,下载模型跑一下,体验本地推理的延迟和迭代速度——比看 benchmark 表有说服力得多
- 思考"本地优先"的产品设计:什么场景下,用户会更喜欢本地生成而非云生成?隐私、速度、免费迭代——三个维度各有什么产品机会?
- PrismML 官方发布博文:《Introducing 1-bit and Ternary Bonsai Image 4B: Image Generation for Local Devices》(2026年5月26日)— 模型架构、基准测试、性能数据均来自此文
- Hacker News 讨论:[408 points / 170 comments] — 社区对本地推理趋势的广泛讨论
- FLUX.2 Klein 4B 原始模型参数量及基准数据引自 PrismML 官方的对比表格
本文由AI辅助创作,经人工审核编辑发布
