【AI风向】Google 发布 Gemini Omni：能理解物理世界的视频生成模型来了，好莱坞该紧张了

Google I/O 2026 最被低估的发布——Gemini Omni 不仅是视频生成工具，更是一个能"理解"重力、动能和流体动力学的世界模型。306 分登上 Hacker News 热榜，但争议同样激烈。

事件回顾

2026 年 5 月 19 日，Google I/O 开发者大会上，除了引发刷屏的 Gemini Spark 24 小时智能体和三款 AI 眼镜之外，还有一个被 Keynote 篇幅"压缩"但技术野心更大的发布：Gemini Omni。

Google DeepMind 将其定义为一个全新的模型家族——"能够从任何输入创建任何内容，从视频开始"。首个亮相的成员是 Gemini Omni Flash，已向 Gemini 应用、Google Flow 和 YouTube Shorts 的用户推送。

与 Google 此前的视频生成模型 Veo 不同，Omni 被定位为"世界模型"（World Model）——它不仅生成画面，还试图理解画面中的物理规律。

Hacker News 上该消息获得 306 分、128 条评论，成为当日 I/O 相关讨论中仅次于 Gemini 3.5 Flash（749 分）和 Karpathy 加入 Anthropic（1291 分）的第三大 AI 热点。

Gemini Omni 核心能力拆解

1. 自然语言视频编辑：一句话改变一切

Gemini Omni四大核心能力

▲ Gemini Omni四大核心能力：视频编辑、物理理解、多模态融合、知识创作

Omni 最直观的突破是多轮对话式视频编辑。用户上传一段视频，通过自然语言指令逐步修改，模型会记住每一轮的上下文。

Google 官方 Demo 展示了几个场景：

材质变换：上传一段雕塑视频，输入"把雕塑变成泡泡做的"——雕塑表面立刻呈现透明、折射的泡泡质感。
物理特效：一个人触摸镜子，Omni 让镜面如液体般涟漪扩散，手臂同时变成反射镜面材质。
环境重构：让公寓楼随着音乐节拍逐层亮灯，灯光与节奏完美同步。
无限递归：一只手托着玻璃球，球内是一个棋盘格房间，房间中又有同样的手托着球——经典的分形递归效果，模型一次性完成。

每个编辑指令都建立在上一步的基础上。角色保持一致，场景记忆完整。这不同于传统的"重新生成"——Omni 是真的在"编辑"同一段视频。

2. 物理引擎级别的世界理解

这是 Omni 与竞品最本质的差异化。Google 强调 Omni 对物理世界有"直觉性理解"：

重力与动能：弹珠在轨道上滚动、加速、跳跃——虽然 HN 上有用户指出弹珠在某些位置"莫名加速"，但整体运动轨迹已经远超纯模式匹配的水平。
流体动力学：泡泡雕塑的光线折射、镜面涟漪的液体物理——效果逼真到让人忘记这是 AI 生成。
刚体碰撞：一位从事物理模拟编程的 HN 用户用积木塔倒塌测试 Omni，发现积木在碰撞时仍会出现"突然消失或变形"的问题，但承认"相比半年前已是质的飞跃"。

Google 将其归因于 Gemini 底层的多模态训练——模型不只是看了几百万段视频，而是在训练过程中建立了对物理规律的某种"内部表征"。这正是"世界模型"名称的由来。

3. 多模态输入融合

Omni 接受文本、图片、音频、视频四种输入模态的任意组合：

图片+视频+音乐：上传一张科幻场景图、一段动作参考视频、一段背景音乐，Omni 生成风格统一的动态短片。
音频驱动画面：上传一段音乐，Omni 根据节奏和情绪自动生成匹配的视觉内容。
跨模态引用：用一张图定义角色外观，用另一段视频定义光影风格，用文字描述剧情——Omni 将它们融合成一个连贯输出。

Google 表示未来还将支持图片和音频输出模态，但目前仅开放视频生成。

4. 知识融合创作

Omni 不只是"画得像"，它还调用 Gemini 的知识库来保证内容的准确性：

字母表挑战：输入"生成 26 个字母对应的物品视频，C 是水豚（Capybara）、D 是迪斯科球、L 是熔岩灯"，模型不仅生成了正确物品，还自动加入了对应的字幕条——26 个字母无一出错。
蛋白质折叠科普：输入"用粘土动画风格解释蛋白质折叠"，Omni 生成了定格动画风格的科普短片，科学概念准确。

这种"世界知识+视觉创作"的结合，让 Omni 超越了单纯的视频生成工具，更像一个"会画画的科学家"。

HN 社区：一边惊叹一边质疑

HN 上的 128 条评论呈现出明显的两极分化。我们可以提炼出四种典型声音：

乐观派："好莱坞该紧张了"

多位评论者认为视频内容产业将面临结构性冲击。一位用户直言："好莱坞将进入艰难时期，颠覆正在以惊人的速度发生。"

从商业逻辑看，AI 视频生成最先冲击的可能是广告短片、社交媒体内容、教育视频等中低预算制作领域。好莱坞级别的电影制作短期内仍需要人类导演的审美判断，但"一个人+一个 AI = 一个视频工作室"的时代确实在加速到来。

悲观派："这让我感到压抑"

一位自称"AI 乐观主义者"的 HN 用户写道："AI 视频可能是唯一让我感到沮丧的东西。看到我们可以生成任何视觉内容，现在看到任何酷炫的视频，我的第一反应是'呵，这是 AI 做的吧？'"

这种情绪代表了相当一部分人的担忧：当一切都是生成的时候，真实影像的价值和稀缺性将被彻底消解。

务实派："不如 Seedance 2.0"

几位有实际 AI 视频制作经验的用户进行了横向对比。一位在 Seedance 2 上花费了"几千美元"的用户表示："我跑了十几个样本，没发现 Omni Flash 在哪方面比 Seedance 2.0 做得更好。"

Seedance 是字节跳动旗下的 AI 视频模型，在创作者社区中已有相当口碑。Omni 在发布初期被拿来和 Seedance 对标，说明 Google 在视频生成赛道并非先行者——它需要证明自己不只是"又一个视频模型"。

技术质疑派："物理理解仍不靠谱"

最尖锐的批评来自技术人员。一位物理模拟工程师用经典的"积木塔倒塌"测试后发现，Omni 生成的视频中积木会"突然消失或变成其他形状"。另一位用户指出 Google 官方 Demo 中的弹珠视频存在"无能量来源的加速"——对于声称"理解物理"的模型来说，这是尴尬的硬伤。

更深层的质疑是：这些视频生成模型是否真的"理解"物理，还是只是学会了模仿物理现象的表象？如果是后者，那么在需要精确物理模拟的场景（如工程设计、科学可视化）中，这些模型的价值将大打折扣。

竞争格局：AI 视频生成的"三国杀"

Gemini Omni 的发布，正式让 AI 视频生成赛道形成了三强格局：

模型	所属公司	核心优势	现状
Gemini Omni	Google	世界模型+多模态融合+知识库	刚发布，Flash 版已上线
Seedance 2.0	字节跳动	创作者社区口碑好、效果稳定	已商用，有付费用户群
Veo 3.1	Google	谷歌原有视频模型	仍在使用，与 Omni 关系待明确
Sora	OpenAI	最早引发关注的视频模型	据传已被边缘化

值得注意的是，OpenAI 在视频生成领域的投入似乎有所收缩。HN 上有多条评论指出 OpenAI"基本上已经放弃了视频生成"，转而聚焦编程 Agent 和推理能力。如果这一判断属实，那么 Google 在视频赛道的竞争对手将主要是字节跳动，而非 OpenAI。

AI视频生成模型竞争格局对比

▲ AI视频生成赛道四强格局对比（2026年5月）

对 AI 创业者的启示

1. 视频内容创业的门槛正在归零

几个月前，制作一段有质感的 AI 视频还需要专业工具、多步骤工作流和对提示词的深度理解。Gemini Omni 的"对话式编辑"意味着——你只需要会说人话，就能做出像样的视频内容。

这意味着：视频内容生产的供给侧将迎来爆发式增长。对于 AI 创业者来说，单纯靠"会做 AI 视频"已经不足以建立壁垒。真正的机会在于：

垂直场景的内容产品化（如法律科普视频、医疗动画说明）
视频+AI Agent 的工作流自动化（如自动生成产品演示视频）
真人创意+AI 执行的混合模式（创意和审美仍然是稀缺资源）

2. "世界模型"可能是下一个技术分水岭

Google 将 Omni 定位为"世界模型"而非"视频生成器"，这是一个重要信号。如果 AI 真的能建立起对物理世界的内在表征，其应用将远超视频生成：

机器人训练：在虚拟世界中模拟物理交互
工业仿真：建筑、制造、物流的数字孪生
游戏开发：实时生成符合物理规律的交互场景

创业者可以关注这些方向的早期机会。但需要警惕的是，当前的技术离"真正的物理理解"还有明显距离——HN 上积木测试的失败就是最好的提醒。

3. Google 生态的独特优势

Omni 不只是独立产品，它深度整合在 Google 生态中——YouTube Shorts 可以直接调用、Google Flow 作为分发渠道、Gemini 应用作为入口。这意味着：

分发优势：创作者不需要单独下载 App，Omni 就在他们已经在用的产品里
数据飞轮：YouTube Shorts 的创作数据可以反哺模型训练
但对创业者来说：这意味着在 Google 生态内做视频工具类产品可能面临平台级竞争

行动建议

立刻体验 Gemini Omni Flash：在 Gemini 应用中测试其视频生成和编辑能力，建立对当前技术水平的直观认知。尤其关注物理模拟和长视频一致性这两个已知短板。

重新评估视频内容策略：如果创业项目涉及视频内容生产（教程、产品演示、社媒内容），评估 Omni 能否将制作成本降低 50% 以上。

关注 Seedance vs Omni 的竞争演化：字节跳动和 Google 的视频模型之争将决定创作者工具的市场格局。两个模型各有所长，不要押注单一平台。

警惕"世界模型"的过度承诺：HN 上的技术测评清楚地表明，当前模型离"真正理解物理"还很远。在工程设计、科学模拟等对精度要求高的场景中，传统物理引擎仍然是不可替代的。

本文由AI辅助创作，经人工审核编辑发布。

本文由AI辅助创作，经人工审核编辑发布