Agent工坊

【Agent工坊】OpenClaw 5.24-beta 发布:语音实时操控 AI Agent,边跑边改方向

OpenClaw 今晨发布 v2026.5.24-beta.1,核心突破:你可以在 Agent 执行任务时通过语音实时干预——查状态、改方向、取消重来,全都不需要等它跑完。

为什么你应该关注这个版本

如果你是 AI 创业者,日常用 AI Agent 处理大量自动化任务,你一定遇到过这种场景:Agent 跑着跑着方向偏了,但你只能干等它完成(或超时),然后再重新来一遍。一次跑偏,浪费几分钟到几十分钟的 token 和等待时间。

OpenClaw v2026.5.24-beta.1 从根本上解决了这个问题——实时语音操控。你可以在 Agent 运行时通过 Discord 语音对它说"停,换个方向",Agent 会立即响应。这不是未来功能,npm 上已经可以安装了。

本篇文章将带你实操配置这套系统,包括语音操控、会议纪要自动捕获、以及几个大幅提升效率的性能调优。

核心功能一:实时语音操控正在运行的 Agent

OpenClaw语音实时操控示意图

▲ 图1:OpenClaw 语音实时操控架构 — 用户通过 Discord 语音实时查询状态、调整方向或取消任务

这是什么

PR #84231 实现了一个关键能力:当 OpenClaw Agent 正在执行 consult(咨询/任务)时,你可以通过 WebUI 或 Discord 语音呼叫它,实时:

  • 查询状态:Agent 现在在做什么?进度到哪了?
  • 取消任务:方向不对,立刻终止
  • 调整方向:不改整体任务,但换个执行路径
  • 排队追加:当前任务跑完后,接着做你刚说的事

这对于长时间运行的 Agent 任务(如代码重构、数据分析、批量内容生成)尤其重要。以前 Agent 是"发射后不管"(fire-and-forget),现在变成了"边飞边控"(steerable)。

配置方法

在 OpenClaw 配置文件中启用实时语音操控:

# ~/.openclaw/config.yaml

channels:

  discord:

    accounts:

      default:

        token: "your-discord-bot-token"

        voice:

          enabled: true

          realtime:

            enabled: true

            wakeName: "OpenClaw" # 唤醒词,默认包含 OpenClaw

            # 可选:自定义唤醒词列表

            wakeNames:

              - "OpenClaw"

              - "小O"

实际使用流程

1. 在 Discord 频道中说:@OpenClaw 帮我分析这 100 个 CSV 文件的数据趋势

2. Agent 开始执行,可能需要 5-10 分钟

3. 3 分钟后,你发现它分析维度不对

4. 加入 Agent 所在的语音频道,说:"OpenClaw,先暂停,把分析维度改成按地区分组"

5. Agent 立刻调整方向,按新指令继续

6. 如果 Agent 即将完成,你也可以说:"OpenClaw,跑完后顺便把结果发到 Slack"

7. Agent 完成主任务后自动执行追加任务

踩坑提醒

⚠️ 语音识别延迟:Discord 语音转录有 1-3 秒延迟,不要在 Agent 任务最后几秒才喊停——那时它可能已经完成了。

⚠️ 唤醒词准确性:默认唤醒词包含 OpenClaw,如果团队里有人叫类似名字可能误触发。建议在 wakeNames 里配置独特唤醒词。

⚠️ 上下文预算:语音操控会消耗额外的 context window,USER.mdSOUL.md 文件较长的用户建议先精简这些文件,给实时交互留足预算。

核心功能二:会议纪要自动捕获,带说话人标注

会议纪要自动捕获示意图

▲ 图2:Meeting Notes 插件自动捕获 Discord 语音会议并生成带说话人标注的摘要

这是什么

OpenClaw 新增了一个 meeting-notes 外部插件,第一个实时数据源就是 Discord 语音。它可以在你开语音会时自动记录每个人的发言,生成带说话人标签的会议摘要。

关键能力:

  • 自动启动捕获:配置后 Agent 加入语音频道即开始记录
  • 说话人标注:摘要中会标注"谁说了什么"
  • 手动导入:支持手动导入外部转录文本
  • 只读 CLI 访问openclaw meeting-notes 命令行查看历史记录

配置方法

# ~/.openclaw/config.yaml

plugins:

  meeting-notes:

    enabled: true

    autoCapture:

      enabled: true

      # 可选:指定只在特定 Discord 服务器/频道自动捕获

      channels:

        - "会议频道ID"

使用方式

# 查看会议纪要

openclaw meeting-notes list

# 查看某次会议的摘要

openclaw meeting-notes show <meeting-id>

# 手动导入外部转录

openclaw meeting-notes import --file transcript.txt --title "产品评审会"

踩坑提醒

⚠️ 多人说话重叠:Discord 语音转录在多人同时说话时准确率下降。建议会议中保持一人说完另一人再说的节奏。

⚠️ 说话人识别:说话人标注基于 Discord 用户 ID,如果同一个人用不同设备加入,可能被识别为两个说话人。

核心功能三:自适应图像压缩

这是什么

新增 agents.defaults.imageQuality 配置项,让你根据场景选择图像处理策略:

  • token-efficient:最小化 token 消耗,适合批处理
  • balanced:默认值,平衡质量和消耗
  • high-detail:最高质量,适合需要精确视觉分析的场景

# ~/.openclaw/config.yaml

agents:

  defaults:

    imageQuality: "balanced" # token-efficient | balanced | high-detail

配合已有的媒体理解工具,OpenClaw 现在可以根据图片质量设置自动调整压缩参数,一个高精度医疗影像分析 Agent 用 high-detail,一个商品图批量分类 Agent 用 token-efficient,各自最优。

核心功能四:子 Agent 上下文隔离

这是什么

PR #85283 修改了子 Agent 的默认启动上下文。以前子 Agent 会继承主 Agent 的全部上下文(包括 persona、identity、user 文件、memory、heartbeat 配置等),现在默认只加载 AGENTS.mdTOOLS.md

为什么重要

对于用了 delegate_task 做多 Agent 协作的场景,这意味着:

  • 更快的启动速度:子 Agent 不需要加载几十 KB 的 persona 文件
  • 更低的 token 消耗:每次委托任务节省数千 token
  • 更清晰的职责边界:子 Agent 只知道自己该用的工具和该遵守的规范
  • 更安全:敏感的身份信息、用户偏好不会泄露给临时子 Agent

如果你想给特定子 Agent 更多上下文,可以在配置中显式指定:

agents:

  subAgents:

    code-reviewer:

      bootstrap:

        files:

          - AGENTS.md

          - TOOLS.md

          - CODE_REVIEW_GUIDE.md # 额外的专业指导

性能提升:模型列表查询提速 4100 倍

模型列表性能对比

▲ 图3:模型列表查询性能对比 — 从 20 秒优化到 5 毫秒,提速 4100 倍

这个版本中一个容易被忽视但影响深远的变化是性能优化。PR #84816 实现了一个关键改进:

模型列表查询从约 20 秒降到约 5 毫秒——提速 4100 倍。

这是怎么做到的?简单说就是"预热"(pre-warm):Gateway 启动时一次性构建 provider 的认证状态映射表,后续每次 /models 查询都直接读缓存,不再逐个调用 provider 插件做发现。

对于经常切换模型的用户,这意味着 openclaw models list 几乎瞬间返回结果。

其他值得关注的更新

  • iMessage 点赞确认: #85952 新增对 iMessage 的 thumbs up/down 反应支持
  • 子 Agent 超时可见性:子 Agent 超时或取消时,父会话会收到明确的错误通知而非静默成功
  • CLI 认证配置优化openclaw models auth login --profile-id 支持命名认证配置,管理多个 API Key 更方便
  • 60+ 项 Bug 修复:包括 Telegram 消息去重、Slack 推理内容泄露修复、Windows 安装器完善等

动手实践:30 分钟搭建语音可控 Agent

下面是一个完整的端到端配置演练,让你在 30 分钟内体验语音实时操控。

第一步:升级 OpenClaw

npm install -g openclaw@2026.5.24-beta.1

openclaw --version

# 应输出: 2026.5.24-beta.1

第二步:配置 Discord 语音

~/.openclaw/config.yaml 中添加:

channels:

  discord:

    accounts:

      default:

        token: "${DISCORD_BOT_TOKEN}"

        voice:

          enabled: true

          realtime:

            enabled: true

            wakeName: "OpenClaw"

agents:

  defaults:

    imageQuality: "balanced"

plugins:

  meeting-notes:

    enabled: true

    autoCapture:

      enabled: true

第三步:设置环境变量并启动

export DISCORD_BOT_TOKEN="your-bot-token-here"

openclaw gateway start

启动后观察日志,确认 voice 模块加载成功:

[gateway] Discord voice realtime enabled (wakeName: OpenClaw)

[gateway] meeting-notes plugin loaded (autoCapture: enabled)

第四步:测试语音操控

  1. 在 Discord 频道 @OpenClaw 发起一个长时间任务(如:"OpenClaw,帮我从 1 数到 100,每数一个数停一秒")
  2. 加入 Agent 所在的语音频道
  3. 对着麦克风说:"OpenClaw,现在数到多少了?"
  4. 观察 Agent 是否在语音中回复当前进度
  5. 再说:"OpenClaw,不要数了,停止"

第五步:配置图像压缩偏好

根据你的主要使用场景选择:

# 场景 A:批量处理商品图(省钱优先)

agents:

  defaults:

    imageQuality: "token-efficient"

# 场景 B:代码截图审查(平衡)

agents:

  defaults:

    imageQuality: "balanced"

# 场景 C:设计稿审核(精度优先)

agents:

  defaults:

    imageQuality: "high-detail"

产出验证

完成以上配置后,你应该能够:

  • ✅ 在 Discord 语音中实时查询 Agent 状态
  • ✅ 语音指令让 Agent 改变任务方向
  • ✅ Agent 加入语音频道后自动生成带说话人标注的会议纪要
  • ✅ 根据场景选择合适的图像处理质量

升级指南

# npm 全局安装用户

npm install -g openclaw@2026.5.24-beta.1

# 或使用内置更新命令

openclaw update --tag v2026.5.24-beta.1

# 确认版本

openclaw --version

⚠️ 这是 beta 版本,生产环境建议先在测试机器上验证。主要风险点:

  • 语音操控依赖 Discord 网关:如果 Discord 语音服务不稳定,实时操控功能会受影响。建议关键任务保留 timeout 作为兜底方案
  • 会议纪要插件是新模块:API 可能在正式版中调整,不建议在合规要求严格的场景中使用
  • 子 Agent 上下文隔离:如果你的现有工作流依赖子 Agent 能访问完整的 USER.mdSOUL.md,需要在 bootstrap.files 中显式添加这些文件
  • 上下文预算:语音操控和会议纪要都会消耗额外的 context window,建议 USER.md 控制在 500 字以内
  • 多 Agent 并发:这个版本修复了 skill 目录监听的文件描述符耗尽问题(EMFILE),多 Agent 网关现在可以安全运行更多并发 Agent

总结

OpenClaw v2026.5.24-beta.1 的核心价值在于让 Agent 从"发射后不管"变成"边飞边控"。对于 AI 创业者来说,这意味着:

  1. 减少 token 浪费:跑偏了立即纠正,不等它跑完再重来
  2. 提升协作效率:语音会议自动纪要,不再需要专人做记录
  3. 降低运营成本:子 Agent 上下文隔离 + 自适应图像压缩,token 消耗更精准
  4. 更快的响应速度:模型列表 20s→5ms,Gateway 启动延迟大幅降低

如果你已经在用 OpenClaw 做自动化运营,这个版本值得升级体验。


#AI创业 #Agent工坊 #OpenClaw #AI Agent #一人公司

本文由AI辅助创作,经人工审核编辑发布