OpenClaw 今晨发布 v2026.5.24-beta.1,核心突破:你可以在 Agent 执行任务时通过语音实时干预——查状态、改方向、取消重来,全都不需要等它跑完。
为什么你应该关注这个版本
如果你是 AI 创业者,日常用 AI Agent 处理大量自动化任务,你一定遇到过这种场景:Agent 跑着跑着方向偏了,但你只能干等它完成(或超时),然后再重新来一遍。一次跑偏,浪费几分钟到几十分钟的 token 和等待时间。
OpenClaw v2026.5.24-beta.1 从根本上解决了这个问题——实时语音操控。你可以在 Agent 运行时通过 Discord 语音对它说"停,换个方向",Agent 会立即响应。这不是未来功能,npm 上已经可以安装了。
本篇文章将带你实操配置这套系统,包括语音操控、会议纪要自动捕获、以及几个大幅提升效率的性能调优。
核心功能一:实时语音操控正在运行的 Agent
▲ 图1:OpenClaw 语音实时操控架构 — 用户通过 Discord 语音实时查询状态、调整方向或取消任务
这是什么
PR #84231 实现了一个关键能力:当 OpenClaw Agent 正在执行 consult(咨询/任务)时,你可以通过 WebUI 或 Discord 语音呼叫它,实时:
- 查询状态:Agent 现在在做什么?进度到哪了?
- 取消任务:方向不对,立刻终止
- 调整方向:不改整体任务,但换个执行路径
- 排队追加:当前任务跑完后,接着做你刚说的事
这对于长时间运行的 Agent 任务(如代码重构、数据分析、批量内容生成)尤其重要。以前 Agent 是"发射后不管"(fire-and-forget),现在变成了"边飞边控"(steerable)。
配置方法
在 OpenClaw 配置文件中启用实时语音操控:
实际使用流程
踩坑提醒
⚠️ 语音识别延迟:Discord 语音转录有 1-3 秒延迟,不要在 Agent 任务最后几秒才喊停——那时它可能已经完成了。
⚠️ 唤醒词准确性:默认唤醒词包含 OpenClaw,如果团队里有人叫类似名字可能误触发。建议在 wakeNames 里配置独特唤醒词。
⚠️ 上下文预算:语音操控会消耗额外的 context window,USER.md 和 SOUL.md 文件较长的用户建议先精简这些文件,给实时交互留足预算。
核心功能二:会议纪要自动捕获,带说话人标注
▲ 图2:Meeting Notes 插件自动捕获 Discord 语音会议并生成带说话人标注的摘要
这是什么
OpenClaw 新增了一个 meeting-notes 外部插件,第一个实时数据源就是 Discord 语音。它可以在你开语音会时自动记录每个人的发言,生成带说话人标签的会议摘要。
关键能力:
- 自动启动捕获:配置后 Agent 加入语音频道即开始记录
- 说话人标注:摘要中会标注"谁说了什么"
- 手动导入:支持手动导入外部转录文本
- 只读 CLI 访问:
openclaw meeting-notes命令行查看历史记录
配置方法
使用方式
踩坑提醒
⚠️ 多人说话重叠:Discord 语音转录在多人同时说话时准确率下降。建议会议中保持一人说完另一人再说的节奏。
⚠️ 说话人识别:说话人标注基于 Discord 用户 ID,如果同一个人用不同设备加入,可能被识别为两个说话人。
核心功能三:自适应图像压缩
这是什么
新增 agents.defaults.imageQuality 配置项,让你根据场景选择图像处理策略:
- token-efficient:最小化 token 消耗,适合批处理
- balanced:默认值,平衡质量和消耗
- high-detail:最高质量,适合需要精确视觉分析的场景
配合已有的媒体理解工具,OpenClaw 现在可以根据图片质量设置自动调整压缩参数,一个高精度医疗影像分析 Agent 用 high-detail,一个商品图批量分类 Agent 用 token-efficient,各自最优。
核心功能四:子 Agent 上下文隔离
这是什么
PR #85283 修改了子 Agent 的默认启动上下文。以前子 Agent 会继承主 Agent 的全部上下文(包括 persona、identity、user 文件、memory、heartbeat 配置等),现在默认只加载 AGENTS.md 和 TOOLS.md。
为什么重要
对于用了 delegate_task 做多 Agent 协作的场景,这意味着:
- 更快的启动速度:子 Agent 不需要加载几十 KB 的 persona 文件
- 更低的 token 消耗:每次委托任务节省数千 token
- 更清晰的职责边界:子 Agent 只知道自己该用的工具和该遵守的规范
- 更安全:敏感的身份信息、用户偏好不会泄露给临时子 Agent
如果你想给特定子 Agent 更多上下文,可以在配置中显式指定:
性能提升:模型列表查询提速 4100 倍
▲ 图3:模型列表查询性能对比 — 从 20 秒优化到 5 毫秒,提速 4100 倍
这个版本中一个容易被忽视但影响深远的变化是性能优化。PR #84816 实现了一个关键改进:
模型列表查询从约 20 秒降到约 5 毫秒——提速 4100 倍。
这是怎么做到的?简单说就是"预热"(pre-warm):Gateway 启动时一次性构建 provider 的认证状态映射表,后续每次 /models 查询都直接读缓存,不再逐个调用 provider 插件做发现。
对于经常切换模型的用户,这意味着 openclaw models list 几乎瞬间返回结果。
其他值得关注的更新
- iMessage 点赞确认: #85952 新增对 iMessage 的 thumbs up/down 反应支持
- 子 Agent 超时可见性:子 Agent 超时或取消时,父会话会收到明确的错误通知而非静默成功
- CLI 认证配置优化:
openclaw models auth login --profile-id支持命名认证配置,管理多个 API Key 更方便 - 60+ 项 Bug 修复:包括 Telegram 消息去重、Slack 推理内容泄露修复、Windows 安装器完善等
动手实践:30 分钟搭建语音可控 Agent
下面是一个完整的端到端配置演练,让你在 30 分钟内体验语音实时操控。
第一步:升级 OpenClaw
第二步:配置 Discord 语音
在 ~/.openclaw/config.yaml 中添加:
第三步:设置环境变量并启动
启动后观察日志,确认 voice 模块加载成功:
第四步:测试语音操控
- 在 Discord 频道 @OpenClaw 发起一个长时间任务(如:"OpenClaw,帮我从 1 数到 100,每数一个数停一秒")
- 加入 Agent 所在的语音频道
- 对着麦克风说:"OpenClaw,现在数到多少了?"
- 观察 Agent 是否在语音中回复当前进度
- 再说:"OpenClaw,不要数了,停止"
第五步:配置图像压缩偏好
根据你的主要使用场景选择:
产出验证
完成以上配置后,你应该能够:
- ✅ 在 Discord 语音中实时查询 Agent 状态
- ✅ 语音指令让 Agent 改变任务方向
- ✅ Agent 加入语音频道后自动生成带说话人标注的会议纪要
- ✅ 根据场景选择合适的图像处理质量
升级指南
⚠️ 这是 beta 版本,生产环境建议先在测试机器上验证。主要风险点:
- 语音操控依赖 Discord 网关:如果 Discord 语音服务不稳定,实时操控功能会受影响。建议关键任务保留
timeout作为兜底方案 - 会议纪要插件是新模块:API 可能在正式版中调整,不建议在合规要求严格的场景中使用
- 子 Agent 上下文隔离:如果你的现有工作流依赖子 Agent 能访问完整的
USER.md和SOUL.md,需要在bootstrap.files中显式添加这些文件 - 上下文预算:语音操控和会议纪要都会消耗额外的 context window,建议
USER.md控制在 500 字以内 - 多 Agent 并发:这个版本修复了 skill 目录监听的文件描述符耗尽问题(EMFILE),多 Agent 网关现在可以安全运行更多并发 Agent
总结
OpenClaw v2026.5.24-beta.1 的核心价值在于让 Agent 从"发射后不管"变成"边飞边控"。对于 AI 创业者来说,这意味着:
- 减少 token 浪费:跑偏了立即纠正,不等它跑完再重来
- 提升协作效率:语音会议自动纪要,不再需要专人做记录
- 降低运营成本:子 Agent 上下文隔离 + 自适应图像压缩,token 消耗更精准
- 更快的响应速度:模型列表 20s→5ms,Gateway 启动延迟大幅降低
如果你已经在用 OpenClaw 做自动化运营,这个版本值得升级体验。
#AI创业 #Agent工坊 #OpenClaw #AI Agent #一人公司
本文由AI辅助创作,经人工审核编辑发布
