【Agent工坊】OpenClaw 5.24-beta 发布：语音实时操控 AI Agent，边跑边改方向

OpenClaw 今晨发布 v2026.5.24-beta.1，核心突破：你可以在 Agent 执行任务时通过语音实时干预——查状态、改方向、取消重来，全都不需要等它跑完。

为什么你应该关注这个版本

如果你是 AI 创业者，日常用 AI Agent 处理大量自动化任务，你一定遇到过这种场景：Agent 跑着跑着方向偏了，但你只能干等它完成（或超时），然后再重新来一遍。一次跑偏，浪费几分钟到几十分钟的 token 和等待时间。

OpenClaw v2026.5.24-beta.1 从根本上解决了这个问题——实时语音操控。你可以在 Agent 运行时通过 Discord 语音对它说"停，换个方向"，Agent 会立即响应。这不是未来功能，npm 上已经可以安装了。

本篇文章将带你实操配置这套系统，包括语音操控、会议纪要自动捕获、以及几个大幅提升效率的性能调优。

核心功能一：实时语音操控正在运行的 Agent

▲ 图1：OpenClaw 语音实时操控架构 — 用户通过 Discord 语音实时查询状态、调整方向或取消任务

这是什么

PR #84231 实现了一个关键能力：当 OpenClaw Agent 正在执行 consult（咨询/任务）时，你可以通过 WebUI 或 Discord 语音呼叫它，实时：

查询状态：Agent 现在在做什么？进度到哪了？
取消任务：方向不对，立刻终止
调整方向：不改整体任务，但换个执行路径
排队追加：当前任务跑完后，接着做你刚说的事

这对于长时间运行的 Agent 任务（如代码重构、数据分析、批量内容生成）尤其重要。以前 Agent 是"发射后不管"（fire-and-forget），现在变成了"边飞边控"（steerable）。

配置方法

在 OpenClaw 配置文件中启用实时语音操控：

# ~/.openclaw/config.yaml

channels:

discord:

accounts:

default:

token: "your-discord-bot-token"

voice:

enabled: true

realtime:

enabled: true

wakeName: "OpenClaw" # 唤醒词，默认包含 OpenClaw

# 可选：自定义唤醒词列表

wakeNames:

- "OpenClaw"

- "小O"

实际使用流程

1. 在 Discord 频道中说：@OpenClaw 帮我分析这 100 个 CSV 文件的数据趋势

2. Agent 开始执行，可能需要 5-10 分钟

3. 3 分钟后，你发现它分析维度不对

4. 加入 Agent 所在的语音频道，说："OpenClaw，先暂停，把分析维度改成按地区分组"

5. Agent 立刻调整方向，按新指令继续

6. 如果 Agent 即将完成，你也可以说："OpenClaw，跑完后顺便把结果发到 Slack"

7. Agent 完成主任务后自动执行追加任务

踩坑提醒

⚠️ 语音识别延迟：Discord 语音转录有 1-3 秒延迟，不要在 Agent 任务最后几秒才喊停——那时它可能已经完成了。

⚠️ 唤醒词准确性：默认唤醒词包含 OpenClaw，如果团队里有人叫类似名字可能误触发。建议在 wakeNames 里配置独特唤醒词。

⚠️ 上下文预算：语音操控会消耗额外的 context window，USER.md 和 SOUL.md 文件较长的用户建议先精简这些文件，给实时交互留足预算。

核心功能二：会议纪要自动捕获，带说话人标注

▲ 图2：Meeting Notes 插件自动捕获 Discord 语音会议并生成带说话人标注的摘要

这是什么

OpenClaw 新增了一个 meeting-notes 外部插件，第一个实时数据源就是 Discord 语音。它可以在你开语音会时自动记录每个人的发言，生成带说话人标签的会议摘要。

关键能力：

自动启动捕获：配置后 Agent 加入语音频道即开始记录
说话人标注：摘要中会标注"谁说了什么"
手动导入：支持手动导入外部转录文本
只读 CLI 访问：openclaw meeting-notes 命令行查看历史记录

配置方法

# ~/.openclaw/config.yaml

plugins:

meeting-notes:

enabled: true

autoCapture:

enabled: true

# 可选：指定只在特定 Discord 服务器/频道自动捕获

channels:

- "会议频道ID"

使用方式

# 查看会议纪要

openclaw meeting-notes list

# 查看某次会议的摘要

openclaw meeting-notes show <meeting-id>

# 手动导入外部转录

openclaw meeting-notes import --file transcript.txt --title "产品评审会"

踩坑提醒

⚠️ 多人说话重叠：Discord 语音转录在多人同时说话时准确率下降。建议会议中保持一人说完另一人再说的节奏。

⚠️ 说话人识别：说话人标注基于 Discord 用户 ID，如果同一个人用不同设备加入，可能被识别为两个说话人。

核心功能三：自适应图像压缩

这是什么

新增 agents.defaults.imageQuality 配置项，让你根据场景选择图像处理策略：

token-efficient：最小化 token 消耗，适合批处理
balanced：默认值，平衡质量和消耗
high-detail：最高质量，适合需要精确视觉分析的场景

# ~/.openclaw/config.yaml

agents:

defaults:

imageQuality: "balanced" # token-efficient | balanced | high-detail

配合已有的媒体理解工具，OpenClaw 现在可以根据图片质量设置自动调整压缩参数，一个高精度医疗影像分析 Agent 用 high-detail，一个商品图批量分类 Agent 用 token-efficient，各自最优。

核心功能四：子 Agent 上下文隔离

这是什么

PR #85283 修改了子 Agent 的默认启动上下文。以前子 Agent 会继承主 Agent 的全部上下文（包括 persona、identity、user 文件、memory、heartbeat 配置等），现在默认只加载 AGENTS.md 和 TOOLS.md。

为什么重要

对于用了 delegate_task 做多 Agent 协作的场景，这意味着：

更快的启动速度：子 Agent 不需要加载几十 KB 的 persona 文件
更低的 token 消耗：每次委托任务节省数千 token
更清晰的职责边界：子 Agent 只知道自己该用的工具和该遵守的规范
更安全：敏感的身份信息、用户偏好不会泄露给临时子 Agent

如果你想给特定子 Agent 更多上下文，可以在配置中显式指定：

agents:

subAgents:

code-reviewer:

bootstrap:

files:

- AGENTS.md

- TOOLS.md

- CODE_REVIEW_GUIDE.md # 额外的专业指导

性能提升：模型列表查询提速 4100 倍

▲ 图3：模型列表查询性能对比 — 从 20 秒优化到 5 毫秒，提速 4100 倍

这个版本中一个容易被忽视但影响深远的变化是性能优化。PR #84816 实现了一个关键改进：

模型列表查询从约 20 秒降到约 5 毫秒——提速 4100 倍。

这是怎么做到的？简单说就是"预热"（pre-warm）：Gateway 启动时一次性构建 provider 的认证状态映射表，后续每次 /models 查询都直接读缓存，不再逐个调用 provider 插件做发现。

对于经常切换模型的用户，这意味着 openclaw models list 几乎瞬间返回结果。

其他值得关注的更新

iMessage 点赞确认： #85952 新增对 iMessage 的 thumbs up/down 反应支持
子 Agent 超时可见性：子 Agent 超时或取消时，父会话会收到明确的错误通知而非静默成功
CLI 认证配置优化：openclaw models auth login --profile-id 支持命名认证配置，管理多个 API Key 更方便
60+ 项 Bug 修复：包括 Telegram 消息去重、Slack 推理内容泄露修复、Windows 安装器完善等

动手实践：30 分钟搭建语音可控 Agent

下面是一个完整的端到端配置演练，让你在 30 分钟内体验语音实时操控。

第一步：升级 OpenClaw

npm install -g openclaw@2026.5.24-beta.1

openclaw --version

# 应输出: 2026.5.24-beta.1

第二步：配置 Discord 语音

在 ~/.openclaw/config.yaml 中添加：

channels:

discord:

accounts:

default:

token: "${DISCORD_BOT_TOKEN}"

voice:

enabled: true

realtime:

enabled: true

wakeName: "OpenClaw"

agents:

defaults:

imageQuality: "balanced"

plugins:

meeting-notes:

enabled: true

autoCapture:

enabled: true

第三步：设置环境变量并启动

export DISCORD_BOT_TOKEN="your-bot-token-here"

openclaw gateway start

启动后观察日志，确认 voice 模块加载成功：

[gateway] Discord voice realtime enabled (wakeName: OpenClaw)

[gateway] meeting-notes plugin loaded (autoCapture: enabled)

第四步：测试语音操控

在 Discord 频道 @OpenClaw 发起一个长时间任务（如："OpenClaw，帮我从 1 数到 100，每数一个数停一秒"）
加入 Agent 所在的语音频道
对着麦克风说："OpenClaw，现在数到多少了？"
观察 Agent 是否在语音中回复当前进度
再说："OpenClaw，不要数了，停止"

第五步：配置图像压缩偏好

根据你的主要使用场景选择：

# 场景 A：批量处理商品图（省钱优先）

agents:

defaults:

imageQuality: "token-efficient"

# 场景 B：代码截图审查（平衡）

agents:

defaults:

imageQuality: "balanced"

# 场景 C：设计稿审核（精度优先）

agents:

defaults:

imageQuality: "high-detail"

产出验证

完成以上配置后，你应该能够：

✅ 在 Discord 语音中实时查询 Agent 状态
✅ 语音指令让 Agent 改变任务方向
✅ Agent 加入语音频道后自动生成带说话人标注的会议纪要
✅ 根据场景选择合适的图像处理质量

升级指南

# npm 全局安装用户

npm install -g openclaw@2026.5.24-beta.1

# 或使用内置更新命令

openclaw update --tag v2026.5.24-beta.1

# 确认版本

openclaw --version

⚠️ 这是 beta 版本，生产环境建议先在测试机器上验证。主要风险点：

语音操控依赖 Discord 网关：如果 Discord 语音服务不稳定，实时操控功能会受影响。建议关键任务保留 timeout 作为兜底方案
会议纪要插件是新模块：API 可能在正式版中调整，不建议在合规要求严格的场景中使用
子 Agent 上下文隔离：如果你的现有工作流依赖子 Agent 能访问完整的 USER.md 和 SOUL.md，需要在 bootstrap.files 中显式添加这些文件
上下文预算：语音操控和会议纪要都会消耗额外的 context window，建议 USER.md 控制在 500 字以内
多 Agent 并发：这个版本修复了 skill 目录监听的文件描述符耗尽问题（EMFILE），多 Agent 网关现在可以安全运行更多并发 Agent

总结

OpenClaw v2026.5.24-beta.1 的核心价值在于让 Agent 从"发射后不管"变成"边飞边控"。对于 AI 创业者来说，这意味着：

减少 token 浪费：跑偏了立即纠正，不等它跑完再重来
提升协作效率：语音会议自动纪要，不再需要专人做记录
降低运营成本：子 Agent 上下文隔离 + 自适应图像压缩，token 消耗更精准
更快的响应速度：模型列表 20s→5ms，Gateway 启动延迟大幅降低

如果你已经在用 OpenClaw 做自动化运营，这个版本值得升级体验。

#AI创业 #Agent工坊 #OpenClaw #AI Agent #一人公司

本文由AI辅助创作，经人工审核编辑发布