Google在I/O前夕抛出重磅炸弹——Gemini不再是问答机器人,而是一个能跨App操作、自动填表、甚至帮你订外卖的系统级AI代理。首批今夏登陆Pixel和三星旗舰机。
事件回顾
2026年5月13日,在"The Android Show | I/O Edition"活动上,Google正式公布了Gemini Intelligence系统性方案。这不是一次普通的AI功能更新,而是一次定位的根本转变:Gemini从"问答助手"转型为系统级AI代理。
根据Google官方说明和Android Authority、IT之家等多家科技媒体的报道,Gemini Intelligence将分阶段推送:Chrome自动浏览功能6月先行启动,Pixel和三星Galaxy旗舰机今夏开始分批获得完整能力。
这个时间节点耐人寻味——就在OpenAI和Anthropic在桌面端编程Agent打得不可开交之时,Google选择了另一条路:从手机操作系统层面,把AI代理直接嵌入到全球数十亿安卓用户的日常使用中。
核心能力:AI代理到底能做什么?
Gemini Intelligence的定位非常清晰:不是聊天,是代办。Google明确表示,Gemini只会在用户允许的应用中工作,只处理用户直接指派的任务。这套方案的四大核心能力如下:
1. 跨应用自动化——手机上的"自动驾驶"
最核心的能力是应用自动化(App Automation)。经过数月在美国市场的测试后,这一能力即将向全球用户开放。具体来说:
- 截图→购物车:用户截一张购物清单,Gemini识别后自动将所有商品添加到Instacart购物车
- 传单→预订:拍一张旅行宣传册照片,Gemini在Expedia上查找类似行程产品并完成预订
- 多步骤串联:从信息获取到操作执行,全部在一个指令中完成,无需用户在不同的App间切换
Google强调:整个过程中用户保有控制权,Gemini只在用户发出明确指令后才执行操作。这是一个"人在回路"的设计,而不是完全自主的代理。
2. Chrome自动浏览——浏览器也能被AI操控了
从下个月(2026年6月)起,Gemini将引入Auto Browse(自动浏览)功能到Android版Chrome浏览器中。这可能是整个方案中最具想象力的部分:
- 在线预约:自动完成网页上的预约流程
- 填写预订信息:酒店、餐厅、停车位等场景的无人工填写
- 预留停车位:到达目的地前,Gemini已帮你占好车位
- 跨网页对比分析:同时打开多个页面进行比较,输出结构化结果
这相当于把网页自动化从桌面端(Claude Code / Codex)带到了手机端。不同的是,Gemini Intelligence的浏览器操控更偏向消费场景而非开发者场景——填表、预订、比价,而非写代码、部署服务。
3. 智能填表——不只是邮箱和地址
当前智能手机系统通常只能自动填入姓名、邮箱、地址等基础信息。Gemini Intelligence的"个人智能"(Personal Intelligence)能力则更进了一步:
- 护照信息一键填充:如果用户已接入护照相关App,轻触一次即可完成整套护照信息填充
- 复杂表单驾驭:不局限于固定字段,能理解各种复杂表单的上下文
- 跨应用信息调用:利用已连接应用中的结构化信息来填补新表单
这个能力的底层逻辑是:手机知道你的一切,现在Gemini帮你把这些信息组织起来并运用到实际场景中。
4. 输入法+Rambler——口语秒变书面语
Gboard新增的Rambler(润写)模式,能将杂乱的口语表达整理成流畅的书面文本:
- 自动去除口头语和语气词("嗯""那个""就是")
- 对零散跳跃的口语进行结构化重组
- 支持多语言混合输入场景(中英夹杂、外语+母语)
- 适合语音输入后直接发送的场景
5. Create My Widget——用嘴说就能创建桌面组件
用户只需用日常语言描述需求,例如"做一个只显示风速和降雨情况的天气小组件",系统即可生成对应的个性化组件。这降低了Android桌面定制的门槛,也展示了自然语言作为编程界面的潜力。
技术架构:端侧Nano + 云端Gemini
在算力分配上,Google采用端云结合策略:
- 简单请求→设备本地Gemini Nano(轻量模型),低延迟、离线可用、隐私友好
- 复杂需求→云端Gemini(完整模型),更强的理解和推理能力
这种设计的巧妙之处在于:用户的敏感数据在本地处理(截图、填表信息),复杂推理交给云端。在隐私保护和功能强大之间找到了平衡点。
基于最新的Material 3 Expressive设计语言,Gemini的交互界面也进行了重构,视觉上更贴近系统原生体验,而非单一独立应用。
为什么这对AI创业者很重要?
1. AI Agent的主战场从桌面延伸到手机
2026年上半年的AI Agent竞争集中在编程工具赛道——OpenAI Codex vs Anthropic Claude Code,都是桌面端的开发者工具。Google此次切入的是消费级手机端——数十亿用户的日常场景。
这意味着AI Agent不再只是工程师的效率神器,而是普通人的数字管家。对AI创业者来说,这意味着以下几点:
- 应用场景极大扩展:订外卖、挂号、比价、填表——这些才是普通人每天在手机上做的事
- 用户基数完全不同:开发者市场百万级,手机用户市场十亿级
- 竞争格局重塑:Google拥有操作系统层面的优势,第三方AI应用需要通过App才能调用系统能力
2. "系统级"才是护城河
Google Gemini Intelligence的核心优势不是模型能力(这方面OpenAI和Anthropic可能更强),而是操作系统级别的集成:
- 能访问其他App的截图和内容
- 能调用浏览器的表单填充接口
- 能读取已连接应用的结构化数据
- 端侧Nano模型保障隐私
这种深度集成是独立App无法做到的。对AI创业者而言,这传递了一个清晰的信号:未来AI Agent的竞争优势,可能不在模型本身,而在系统/平台层面的整合深度。
3. 手机AI Agent的商业化路径
Google的布局揭示了手机端AI Agent可能的商业化方向:
- 服务分发:当Gemini帮你订外卖时,选哪家餐厅、用哪个App——这本身就是流量入口
- 数据整合:跨应用的"个人智能"本质上是一个用户数据中台,掌握用户画像
- 广告投放:知道你要做什么的AI,会比搜索引擎更精准地推送广告
竞品动态:苹果Siri还在磨刀
Google的激进推进与苹果形成了鲜明对比。据科技媒体报道,苹果Siri的系统级AI代理能力在2026年仍然未能实现——尽管iOS 19引入了部分屏幕感知功能,但离"跨应用完成任务"还有明显差距。
在这场"下一代智能手机形态"的竞赛中,Google凭借Gemini Intelligence暂时领先。但以苹果对用户体验的偏执,一旦Siri觉醒,可能会以更精致的方式后发制人。
我们能学到什么
行动建议1:关注Android AI Agent的开发者生态
Google很可能会在I/O大会(通常在5月中旬)公布更多面向开发者的API和SDK。如果你的产品是效率工具、自动化工具或生活服务类App,提前研究如何让App被Gemini Intelligence调用,可能是获得系统级流量的机会。
行动建议2:重新思考AI Agent的产品定位
Google的选择说明:AI Agent不一定要做成独立App。嵌入操作系统、成为手机的"水电气",可能是更大的机会。创业者在设计AI产品时,不妨问自己:如果Android/iOS自带了这个能力,我的产品还有什么独特价值?
行动建议3:关注端侧模型的机会
Gemini Nano的存在说明,端侧AI模型正在成为标配。如果你的AI产品对延迟敏感或涉及隐私数据,考虑端侧部署而非全云端调用,可能是差异化的关键。
风险提示
- Google的产品发布常有延迟,6月Chrome自动浏览和今夏手机端上线的时间表可能调整
- 系统级AI代理的隐私争议尚待市场检验——用户是否愿意让AI读取自己的截屏和App数据?
- 苹果可能在WWDC 2026(通常6月)公布Siri的重大升级,局势可能迅速变化
#AI创业 #AI风向 #Google #Gemini #AI Agent #一人公司
本文由AI辅助创作,经人工审核编辑发布
