Google I/O 2026 最被低估的发布——Gemini Omni 不仅是视频生成工具,更是一个能"理解"重力、动能和流体动力学的世界模型。306 分登上 Hacker News 热榜,但争议同样激烈。
事件回顾
2026 年 5 月 19 日,Google I/O 开发者大会上,除了引发刷屏的 Gemini Spark 24 小时智能体和三款 AI 眼镜之外,还有一个被 Keynote 篇幅"压缩"但技术野心更大的发布:Gemini Omni。
Google DeepMind 将其定义为一个全新的模型家族——"能够从任何输入创建任何内容,从视频开始"。首个亮相的成员是 Gemini Omni Flash,已向 Gemini 应用、Google Flow 和 YouTube Shorts 的用户推送。
与 Google 此前的视频生成模型 Veo 不同,Omni 被定位为"世界模型"(World Model)——它不仅生成画面,还试图理解画面中的物理规律。
Hacker News 上该消息获得 306 分、128 条评论,成为当日 I/O 相关讨论中仅次于 Gemini 3.5 Flash(749 分)和 Karpathy 加入 Anthropic(1291 分)的第三大 AI 热点。
Gemini Omni 核心能力拆解
1. 自然语言视频编辑:一句话改变一切

▲ Gemini Omni四大核心能力:视频编辑、物理理解、多模态融合、知识创作
Omni 最直观的突破是多轮对话式视频编辑。用户上传一段视频,通过自然语言指令逐步修改,模型会记住每一轮的上下文。
Google 官方 Demo 展示了几个场景:
- 材质变换:上传一段雕塑视频,输入"把雕塑变成泡泡做的"——雕塑表面立刻呈现透明、折射的泡泡质感。
- 物理特效:一个人触摸镜子,Omni 让镜面如液体般涟漪扩散,手臂同时变成反射镜面材质。
- 环境重构:让公寓楼随着音乐节拍逐层亮灯,灯光与节奏完美同步。
- 无限递归:一只手托着玻璃球,球内是一个棋盘格房间,房间中又有同样的手托着球——经典的分形递归效果,模型一次性完成。
每个编辑指令都建立在上一步的基础上。角色保持一致,场景记忆完整。这不同于传统的"重新生成"——Omni 是真的在"编辑"同一段视频。
2. 物理引擎级别的世界理解
这是 Omni 与竞品最本质的差异化。Google 强调 Omni 对物理世界有"直觉性理解":
- 重力与动能:弹珠在轨道上滚动、加速、跳跃——虽然 HN 上有用户指出弹珠在某些位置"莫名加速",但整体运动轨迹已经远超纯模式匹配的水平。
- 流体动力学:泡泡雕塑的光线折射、镜面涟漪的液体物理——效果逼真到让人忘记这是 AI 生成。
- 刚体碰撞:一位从事物理模拟编程的 HN 用户用积木塔倒塌测试 Omni,发现积木在碰撞时仍会出现"突然消失或变形"的问题,但承认"相比半年前已是质的飞跃"。
Google 将其归因于 Gemini 底层的多模态训练——模型不只是看了几百万段视频,而是在训练过程中建立了对物理规律的某种"内部表征"。这正是"世界模型"名称的由来。
3. 多模态输入融合
Omni 接受文本、图片、音频、视频四种输入模态的任意组合:
- 图片+视频+音乐:上传一张科幻场景图、一段动作参考视频、一段背景音乐,Omni 生成风格统一的动态短片。
- 音频驱动画面:上传一段音乐,Omni 根据节奏和情绪自动生成匹配的视觉内容。
- 跨模态引用:用一张图定义角色外观,用另一段视频定义光影风格,用文字描述剧情——Omni 将它们融合成一个连贯输出。
Google 表示未来还将支持图片和音频输出模态,但目前仅开放视频生成。
4. 知识融合创作
Omni 不只是"画得像",它还调用 Gemini 的知识库来保证内容的准确性:
- 字母表挑战:输入"生成 26 个字母对应的物品视频,C 是水豚(Capybara)、D 是迪斯科球、L 是熔岩灯",模型不仅生成了正确物品,还自动加入了对应的字幕条——26 个字母无一出错。
- 蛋白质折叠科普:输入"用粘土动画风格解释蛋白质折叠",Omni 生成了定格动画风格的科普短片,科学概念准确。
这种"世界知识+视觉创作"的结合,让 Omni 超越了单纯的视频生成工具,更像一个"会画画的科学家"。
HN 社区:一边惊叹一边质疑
HN 上的 128 条评论呈现出明显的两极分化。我们可以提炼出四种典型声音:
乐观派:"好莱坞该紧张了"
多位评论者认为视频内容产业将面临结构性冲击。一位用户直言:"好莱坞将进入艰难时期,颠覆正在以惊人的速度发生。"
从商业逻辑看,AI 视频生成最先冲击的可能是广告短片、社交媒体内容、教育视频等中低预算制作领域。好莱坞级别的电影制作短期内仍需要人类导演的审美判断,但"一个人+一个 AI = 一个视频工作室"的时代确实在加速到来。
悲观派:"这让我感到压抑"
一位自称"AI 乐观主义者"的 HN 用户写道:"AI 视频可能是唯一让我感到沮丧的东西。看到我们可以生成任何视觉内容,现在看到任何酷炫的视频,我的第一反应是'呵,这是 AI 做的吧?'"
这种情绪代表了相当一部分人的担忧:当一切都是生成的时候,真实影像的价值和稀缺性将被彻底消解。
务实派:"不如 Seedance 2.0"
几位有实际 AI 视频制作经验的用户进行了横向对比。一位在 Seedance 2 上花费了"几千美元"的用户表示:"我跑了十几个样本,没发现 Omni Flash 在哪方面比 Seedance 2.0 做得更好。"
Seedance 是字节跳动旗下的 AI 视频模型,在创作者社区中已有相当口碑。Omni 在发布初期被拿来和 Seedance 对标,说明 Google 在视频生成赛道并非先行者——它需要证明自己不只是"又一个视频模型"。
技术质疑派:"物理理解仍不靠谱"
最尖锐的批评来自技术人员。一位物理模拟工程师用经典的"积木塔倒塌"测试后发现,Omni 生成的视频中积木会"突然消失或变成其他形状"。另一位用户指出 Google 官方 Demo 中的弹珠视频存在"无能量来源的加速"——对于声称"理解物理"的模型来说,这是尴尬的硬伤。
更深层的质疑是:这些视频生成模型是否真的"理解"物理,还是只是学会了模仿物理现象的表象?如果是后者,那么在需要精确物理模拟的场景(如工程设计、科学可视化)中,这些模型的价值将大打折扣。
竞争格局:AI 视频生成的"三国杀"
Gemini Omni 的发布,正式让 AI 视频生成赛道形成了三强格局:
| 模型 | 所属公司 | 核心优势 | 现状 |
|---|---|---|---|
| Gemini Omni | 世界模型+多模态融合+知识库 | 刚发布,Flash 版已上线 | |
| Seedance 2.0 | 字节跳动 | 创作者社区口碑好、效果稳定 | 已商用,有付费用户群 |
| Veo 3.1 | 谷歌原有视频模型 | 仍在使用,与 Omni 关系待明确 | |
| Sora | OpenAI | 最早引发关注的视频模型 | 据传已被边缘化 |
值得注意的是,OpenAI 在视频生成领域的投入似乎有所收缩。HN 上有多条评论指出 OpenAI"基本上已经放弃了视频生成",转而聚焦编程 Agent 和推理能力。如果这一判断属实,那么 Google 在视频赛道的竞争对手将主要是字节跳动,而非 OpenAI。

▲ AI视频生成赛道四强格局对比(2026年5月)
对 AI 创业者的启示
1. 视频内容创业的门槛正在归零
几个月前,制作一段有质感的 AI 视频还需要专业工具、多步骤工作流和对提示词的深度理解。Gemini Omni 的"对话式编辑"意味着——你只需要会说人话,就能做出像样的视频内容。
这意味着:视频内容生产的供给侧将迎来爆发式增长。对于 AI 创业者来说,单纯靠"会做 AI 视频"已经不足以建立壁垒。真正的机会在于:
- 垂直场景的内容产品化(如法律科普视频、医疗动画说明)
- 视频+AI Agent 的工作流自动化(如自动生成产品演示视频)
- 真人创意+AI 执行的混合模式(创意和审美仍然是稀缺资源)
2. "世界模型"可能是下一个技术分水岭
Google 将 Omni 定位为"世界模型"而非"视频生成器",这是一个重要信号。如果 AI 真的能建立起对物理世界的内在表征,其应用将远超视频生成:
- 机器人训练:在虚拟世界中模拟物理交互
- 工业仿真:建筑、制造、物流的数字孪生
- 游戏开发:实时生成符合物理规律的交互场景
创业者可以关注这些方向的早期机会。但需要警惕的是,当前的技术离"真正的物理理解"还有明显距离——HN 上积木测试的失败就是最好的提醒。
3. Google 生态的独特优势
Omni 不只是独立产品,它深度整合在 Google 生态中——YouTube Shorts 可以直接调用、Google Flow 作为分发渠道、Gemini 应用作为入口。这意味着:
- 分发优势:创作者不需要单独下载 App,Omni 就在他们已经在用的产品里
- 数据飞轮:YouTube Shorts 的创作数据可以反哺模型训练
- 但对创业者来说:这意味着在 Google 生态内做视频工具类产品可能面临平台级竞争
行动建议
- 立刻体验 Gemini Omni Flash:在 Gemini 应用中测试其视频生成和编辑能力,建立对当前技术水平的直观认知。尤其关注物理模拟和长视频一致性这两个已知短板。
- 重新评估视频内容策略:如果创业项目涉及视频内容生产(教程、产品演示、社媒内容),评估 Omni 能否将制作成本降低 50% 以上。
- 关注 Seedance vs Omni 的竞争演化:字节跳动和 Google 的视频模型之争将决定创作者工具的市场格局。两个模型各有所长,不要押注单一平台。
- 警惕"世界模型"的过度承诺:HN 上的技术测评清楚地表明,当前模型离"真正理解物理"还很远。在工程设计、科学模拟等对精度要求高的场景中,传统物理引擎仍然是不可替代的。
本文由AI辅助创作,经人工审核编辑发布。
本文由AI辅助创作,经人工审核编辑发布
