AI风向

【AI风向】1-bit量化杀入图像生成:4B模型从7.7GB压缩到0.93GB,直接在iPhone上跑

PrismML 发布 Bonsai Image 4B,用1-bit/三进制量化把 FLUX.2 Klein 4B 压缩 8.3 倍,在 iPhone 17 Pro Max 上 9.4 秒出一张 512×512 图,开源权重 Apache 2.0 协议。本地图像生成的"DeepSeek 时刻"来了。

事件回顾

5 月 26 日,由 Caltech 研究团队创立、Khosla Ventures 与 Google 等机构支持的 PrismML,发布了 Bonsai Image 4B —— 一套为本地设备优化的紧凑型图像生成模型。HN 上迅速冲到 408 分、170 条评论。

核心突破简单到一句话:把 4B 参数级别的扩散 Transformer 从 7.75GB 压缩到 0.93GB(1-bit 版),能在 iPhone 上直接运行。

Bonsai Image 4B 有两个变体:

变体权重格式Transformer 大小压缩比精度保留
1-bit Bonsai{−1, +1} 二值0.93 GB8.3×88%
Ternary Bonsai{−1, 0, +1} 三值1.21 GB6.4×95%
FLUX.2 Klein 4B(原始)FP16 全精度7.75 GB100%

在 iPhone 17 Pro Max 上,1-bit 版本生成一张 512×512 图像仅需 9.4 秒,Mac M4 Pro 上约 6 秒,比原生全精度 MFLUX pipeline 快 5.6 倍。而原始的 FLUX.2 Klein 4B 根本无法在 iPhone 上运行——设备内存根本装不下。

为什么这是一个"DeepSeek 时刻"

去年 DeepSeek 用 MoE + 极致优化把大语言模型的推理成本打下来了。Bonsai Image 4B 对图像生成做的事,逻辑完全一样:不让模型变小,而是让表示方式变聪明。

具体做法是保留 FLUX.2 Klein 4B 的完整架构,只改变 Transformer 权重的存储方式——把 FP16 浮点权重压缩成二值或三值形式,配合一个小的 FP16 缩放因子(group-wise scaling)。约 5% 的精度敏感层(投影层)保留 FP16,其余全部量化。

效果:1-bit 版以 每权重 1.125 有效比特的极致压缩率,把 Transformer 部分从 7.75GB 砍到 0.93GB;而三进制版利用额外的"零"状态获得更好的表达力,在 1.21GB 下保留了原始模型 95% 的精度

对比几个关键基准:

  • GenEval(物体组合与属性绑定):三进制版 0.723,原始 FLUX.2 Klein 4B 是 0.819,SDXL 只有 0.3
  • HPSv3(人类偏好与美学质量):三进制版 12.22,接近原始 12.84
  • DPG-Bench(密集提示遵循):三进制版 0.851,几乎与原始 0.853 持平

与同体量模型对比更直观:SDXL 体积是 Bonsai 1-bit 的 5.5 倍,GenEval 却只有它的 44%。BK-SDM-Small 体积相近(0.98 GB),但 GenEval 仅 0.297——不到 Bonsai 1-bit 的一半。

对 AI 创业者意味着什么

1. 本地推理的商业模式被重新定价

云端 API 图像生成(DALL-E、Midjourney、Firefly)按张计费,每次生成都是有成本的。如果你在做一个需要大量图像迭代的产品——比如 AI 设计工具、电商商品图生成、游戏资产生成——每一轮"生成→不满意→重新生成"都在烧钱。

Bonsai Image 4B 把这件事搬到了本地。用户在自己的设备上生成,没有边际服务成本。这意味着:

  • 无限迭代:用户可以反复调整 prompt 直到满意,不再心疼每次 0.04 美元
  • 零延迟:本地推理消除了网络往返,即出即看
  • 隐私保护:prompt 和生成的图像不离开设备

这对 B2C AI 图像产品是根本性的成本结构变化。

2. 移动端图像生成终于可用

此前能在手机上跑的图像模型(如 BK-SDM-Small)质量太差,质量能用的模型(如 SDXL)又太大。Bonsai Image 4B 第一次在"质量可接受 × 设备可承载"的交集上落子。

9.4 秒出图的 iPhone 17 Pro Max 体验已经接近可用——这不是"技术 demo",而是能嵌入产品的推理速度。PrismML 同步推出的 iOS App "Bonsai Studio" 就是最好的证明。

3. 开源权重 = 零许可费

Apache 2.0 协议意味着你可以:

  • 把模型嵌入商业产品,无需付费
  • 对模型做微调(fine-tune)适配垂直场景
  • 在自有服务器或边缘设备上部署

这在 Midjourney 闭源、Stable Diffusion 陷入商业纠纷的当下,是一个难得的干净选型。

警惕:这还不是完美方案

几个需要冷静看待的点:

质量天花板还在。1-bit 版只保留了原模型 88% 的精度——对需要高保真度的商业场景(产品摄影、品牌素材)来说,这个差距是肉眼可见的。三进制版 95% 好很多,但体积也大了 30%。

硬件的下一站是专用芯片。Bonsai Image 4B 跑在通用 Apple Silicon 上,但真正的爆发点可能在专用 NPU 或低比特推理芯片上——那是 2027 年的事了。

生态依赖 Core ML / MLX。PrismML 的部署栈目前深度绑定 Apple 生态(MLX 低比特路径)和 CUDA(Gemlite GEMM kernel)。非 Apple/非 NVIDIA 硬件的支持还没影。

行动建议

如果你是 AI 创业者,现在可以做的事:

  1. 评估图像生成成本:如果你的产品每月在图像 API 上花超过 100 美元,本地推理方案可能已经比云 API 便宜(考虑到设备是用户自备的)
  2. 关注量化技术栈:1-bit/三进制量化不是只适用于图像——同样的思路正在向视频、3D、音频扩散模型蔓延
  3. 试跑 Bonsai Image:如果你有 M 系列 Mac,下载模型跑一下,体验本地推理的延迟和迭代速度——比看 benchmark 表有说服力得多
  4. 思考"本地优先"的产品设计:什么场景下,用户会更喜欢本地生成而非云生成?隐私、速度、免费迭代——三个维度各有什么产品机会?
  • PrismML 官方发布博文:《Introducing 1-bit and Ternary Bonsai Image 4B: Image Generation for Local Devices》(2026年5月26日)— 模型架构、基准测试、性能数据均来自此文
  • Hacker News 讨论:[408 points / 170 comments] — 社区对本地推理趋势的广泛讨论
  • FLUX.2 Klein 4B 原始模型参数量及基准数据引自 PrismML 官方的对比表格

本文由AI辅助创作,经人工审核编辑发布