Agent工坊

【Agent工坊】OpenClaw 2026.5.24 实战:会议语音助手 + 实时打断纠正,一人公司的 AI 运营中枢

OpenClaw 昨天发布的 2026.5.24-beta.2 带来了三个重量级功能:Meeting Notes 自动会议纪要、实时语音打断操控、iMessage 点赞审批。本教程带你从零搭建一个「会议自动记录 + 实时语音指挥」的 AI 助手,并附完整踩坑记录。

为什么你应该关注这版 OpenClaw

OpenClaw 是目前 AI Agent 生态里更新最密集、功能迭代最快的多通道 Agent 框架之一。从 5 月初到现在,它保持了每周 1-2 个版本的发布节奏。2026.5.24 这一版尤其值得关注,因为它补齐了两个「一人公司」的关键场景:

  1. 会议场景:Meeting Notes 插件可以自动捕获 Discord 语音会议内容,生成结构化纪要——不需要手动记笔记,不需要事后回忆
  2. 实时操控:在 Agent 执行任务的过程中,你可以通过语音(WebUI 或 Discord)实时打断、纠正、或追加指令——不再需要等任务跑完才发现方向错了
  3. 移动审批:iMessage 点赞(👍)/ 点踩(👎)即可审批 Agent 的敏感操作——走在路上也能管控 AI

这三个功能组合在一起,OpenClaw 正在从一个「聊天机器人框架」进化为「AI 运营中枢」。

环境准备

安装 OpenClaw

# 安装最新的 beta 版

npm install -g openclaw@beta

# 验证版本

openclaw --version

# 输出:2026.5.24-beta.2

# 初始化配置(首次使用)

openclaw init

依赖清单

依赖用途必需
Node.js ≥ 20运行时
Discord Bot Token语音通道 + 会议纪要✅(会议场景)
Anthropic API Key 或 Claude Pro OAuthLLM 后端
macOS(iMessage 功能)移动审批可选

Discord Bot 配置(关键步骤)

这是最容易卡住的环节。你需要:

  1. 前往 Discord Developer Portal 创建应用
  2. 在 Bot 设置中开启 MESSAGE CONTENT INTENTSERVER MEMBERS INTENTVOICE STATE INTENT
  3. 生成 Bot Token 并邀请 Bot 加入你的服务器(需要 Send MessagesConnectSpeak 权限)
  4. 在 OpenClaw 配置文件中填入 Token:

# ~/.openclaw/config.yaml

channels:

  discord:

    token: "your-bot-token"

    voice:

      enabled: true

核心功能一:Meeting Notes — 自动会议纪要

OpenClaw Meeting Notes 自动会议纪要工作流程

▲ OpenClaw Meeting Notes 工作流程:Discord 语音 → 文字转录 → AI 摘要 → 结构化纪要输出

Meeting Notes 是 2026.5.22 引入、5.24 完善的外部插件。它的工作方式:

  1. OpenClaw 加入 Discord 语音通道
  2. 捕获语音转文字(Speech-to-Text)
  3. 在会议结束后,由 LLM 自动生成结构化纪要
  4. 支持手动导入文字稿(Transcript)——即使没有语音通道也能用

配置 Meeting Notes

# ~/.openclaw/config.yaml

plugins:

  meeting-notes:

    enabled: true

    autoStart: true # Bot 加入语音通道后自动开始捕获

    sources:

      - discord-voice # 第一个实时来源

    output:

      format: markdown # 纪要输出格式

      destination: channel # 发送到 Discord 文字通道

启动会议捕获

# 方式1:CLI 命令让 Bot 加入语音通道

openclaw meeting-notes start --channel "会议室"

# 方式2:在 Discord 里 @Bot join voice

# @OpenClaw join 会议室

会议结束后,Bot 会自动生成如下格式的纪要:

# 会议纪要 — 2026.5.25 产品评审

**参会者**:张三(产品)、李四(开发)、王五(设计)

## 关键决策

1. Q3 路线图优先级:Agent 工作流 > 数据分析 > 协作功能

2. MVP 发布时间定在 6 月 15 日

## 行动项

- [ ] 张三:周三前完成 PRD 初稿

- [ ] 李四:评估工作流引擎技术方案(2 天内)

- [ ] 王五:周五前交付 3 版交互原型

## 风险点

- 工作流引擎选型可能延期,需预留 1 周缓冲

## 下次会议

2026.5.28 周二 14:00

手动导入文字稿

如果没有实时语音捕获条件,可以导入已有的文字稿:

openclaw meeting-notes import --file meeting-transcript.txt --title "客户需求讨论"

导入后 OpenClaw 会用 LLM 提取关键信息,生成同样的结构化纪要。

核心功能二:实时语音操控 — 打断、纠正、追加

OpenClaw 实时语音操控功能示意

▲ 实时语音操控流程:语音指令 → 中断当前任务 → 调整方向 → 按新指令继续执行

这是 2026.5.24 最亮眼的功能。Agent 正在执行一个长任务(比如写代码、做研究、批量处理数据)时,你不需要等它跑完——直接通过 WebUI 或 Discord 语音说:

  • 「停,方向错了,应该先处理用户认证模块」
  • 「当前进度?」
  • 「把这个结果先保存,然后继续」

Agent 会在当前步骤完成后响应你的指令,调整方向继续执行。

配置实时操控

# ~/.openclaw/config.yaml

talk:

  realtime:

    enabled: true

    wakeName: "小O" # 唤醒词(可选)

    steering:

      enabled: true # 允许实时转向

      cancelEnabled: true # 允许取消当前任务

      queueEnabled: true # 允许追加后续任务

使用示例

在 Agent 执行任务时,你可以:

# 查看当前状态

「小O,你现在在做什么?」

Agent 回复:

「正在处理第 3/12 个数据文件:customer_export_2026Q1.csv,预计还需 4 分钟。」

# 取消并转向

「取消这个,先帮我查一下今天 HN 上关于 AI Agent 的热门帖子」

Agent 回复:

「已取消数据处理任务。正在搜索 HN...」

# 追加后续任务

「处理完这个之后,把结果生成一份 PDF 报告发到 #weekly-report 频道」

Agent 回复:

「已排队:完成当前任务后 → 生成 PDF → 发送到 #weekly-report」

语音操控的实际效果

在 Discord 语音通道中的完整交互流程:

👤 You(语音):「小O,帮我把过去一周的所有客服消息分类汇总」

🤖 OpenClaw:「收到,正在拉取过去 7 天的客服消息...」

「共找到 347 条消息,正在分类...」

👤 You(语音):「等等,只要本周一到周五的,不要周末的」

🤖 OpenClaw:「好的,调整为周一至周五,共 283 条消息,继续分类...」

「分类完成。产品咨询 142 条、技术问题 89 条、投诉建议 52 条」

👤 You(语音):「把投诉建议单独列出来,标注情绪倾向」

🤖 OpenClaw:「正在分析 52 条投诉建议的情绪倾向...」

「正面 3 条、中性 12 条、负面 37 条。高优先级需回复 15 条。」

这个交互模式的核心价值在于:AI 在执行,人在决策——把重复劳动交给 Agent,把判断和方向留在人类手里。

核心功能三:iMessage 点赞审批(macOS 独占)

OpenClaw iMessage 移动审批工作流

▲ iMessage 移动审批流程:敏感操作请求 → iMessage 推送 → 👍/👎 快速审批 → 执行或取消

对于需要 Agent 执行敏感操作(如发消息、改配置、访问付费 API)的场景,OpenClaw 支持通过 iMessage 的 Tapback 反应来审批。

配置 iMessage 审批

# ~/.openclaw/config.yaml

channels:

  imessage:

    enabled: true

    allowFrom: # 允许哪些人审批

      - "+8613800138000"

    approval:

      mode: tapback # 使用点赞/点踩审批

      # 👍 = allow-once(允许本次)

      # 👎 = deny(拒绝)

工作流程

1. Agent 遇到需要审批的操作

2. 自动向你(配置的 allowFrom 号码)发 iMessage:

   「需要执行:删除 2026Q1 过期数据(345 条记录)。回复 👍 同意,👎 拒绝」

3. 你长按消息 → 选择 Tapback → 👍

4. Agent 收到确认,执行操作

5. 如果要永久授权某类操作,回复文字:

   「/approve <id> allow-always」

对于非 macOS 用户,同样的审批流程也支持 WhatsApp(channels.whatsapp)。

实战:搭建一个完整的会议助手

把以上三个功能串起来,搭建一个实用的会议助手。

场景

你是一个独立开发者/创业者,每天有 2-3 个客户或团队会议。你需要:

  • 自动记录每个会议的内容
  • 生成行动项清单
  • 在 Agent 执行会议后续任务时,能实时纠正方向

完整配置文件

# ~/.openclaw/config.yaml

# LLM 后端配置

models:

  default: claude-sonnet-4-20250514

  providers:

    anthropic:

      apiKey: "${ANTHROPIC_API_KEY}"

# Agent 身份

agent:

  name: "小O"

  persona: |

    你是一个专业的会议助手。

    - 记录会议要点时保持客观,不做主观判断

    - 行动项要具体到人+时间

    - 生成纪要后主动询问是否需要补充

# Discord 通道(语音+文字)

channels:

  discord:

    token: "${DISCORD_BOT_TOKEN}"

    voice:

      enabled: true

      autoJoin: false # 手动控制入会,避免干扰

# 实时语音操控

talk:

  realtime:

    enabled: true

    wakeName: "小O"

    steering:

      enabled: true

      cancelEnabled: true

      queueEnabled: true

# 会议纪要插件

plugins:

  meeting-notes:

    enabled: true

    autoStart: true

    sources:

      - discord-voice

    output:

      format: markdown

      destination: channel

      channelId: "1147852000123456789" # 替换为你的 #meeting-notes 频道 ID

    summarization:

      model: claude-sonnet-4-20250514

      detail: high # 详细模式

# 敏感操作审批

channels:

  imessage:

    enabled: true

    allowFrom:

      - "+8613800138000"

    approval:

      mode: tapback

启动与使用

# 1. 启动 OpenClaw Gateway(后台运行)

openclaw gateway start

# 2. 让 Bot 加入 Discord 语音通道

openclaw meeting-notes start --channel "客户A项目讨论"

# 3. 开始会议,OpenClaw 自动捕获

# ... 会议进行中 ...

# 4. 结束捕获

openclaw meeting-notes stop

# 5. 查看生成的纪要

# 自动发送到 Discord #meeting-notes 频道

会议中的实时交互

👤 You:「小O,帮我把纪要里关于定价的部分单独提取出来,发邮件给财务」

🤖 OpenClaw:「收到。正在提取定价相关内容...」

「已生成定价摘要:3 个定价方案,价格区间 ¥299-¥999/月」

👤 You:「等一下,¥999 那个方案去掉,我们暂时只考虑 ¥299 和 ¥599」

🤖 OpenClaw:「已调整。现在发送邮件给 finance@company.com?」

「[需要审批] 发送邮件给 finance@company.com,内容 1,247 字」

👤 You:(在 iMessage 上点 👍)

🤖 OpenClaw:「✅ 邮件已发送。主题:会议纪要 - 定价方案摘要」

踩坑与排障

坑 1:Discord Bot 无法加入语音通道

症状openclaw meeting-notes start 报错 No voice channel found

原因:Bot 缺少 ConnectSpeak 权限,或者 VOICE STATE INTENT 未开启

解决

# 检查 Bot 权限

# 在 Discord Developer Portal → Bot → Privileged Gateway Intents

# 确保以下三项全部开启:

# ✅ MESSAGE CONTENT INTENT

# ✅ SERVER MEMBERS INTENT

# ✅ VOICE STATE INTENT

坑 2:Meeting Notes 不生成纪要

症状:会议结束后没有输出

可能原因

  1. 音频捕获为空(检查 Discord 语音通道是否有人在说话)
  2. output.channelId 配置错误(Bot 没有该频道的发送权限)
  3. LLM 调用失败(检查 API Key 是否有效)

排查步骤

# 查看 OpenClaw 日志

openclaw logs --follow

# 手动测试纪要生成(跳过语音捕获)

openclaw meeting-notes import --file test-transcript.txt

坑 3:语音操控延迟高

症状:说出指令后 5-10 秒才响应

原因

  1. Agent 正在执行长任务,需要当前步骤完成才能响应
  2. 网络延迟(特别是国际 LLM API)

优化

# 降低处理粒度,让 Agent 更频繁地检查中断

agents:

  defaults:

    checkInterruptInterval: 3 # 每 3 秒检查一次是否有语音指令

坑 4:iMessage 审批不生效

症状:Agent 发了 iMessage 但点赞没有触发审批

原因

  1. allowFrom 号码格式不对(需要完整的国际格式 +86...
  2. macOS 上 iMessage 未登录同一个 Apple ID
  3. OpenClaw 没有「完全磁盘访问权限」(macOS 安全设置)

解决

  • 系统设置 → 隐私与安全性 → 完全磁盘访问 → 添加 Terminal/iTerm
  • 确认号码格式:+8613800138000(不是 13800138000

坑 5:Gateway 启动慢

症状openclaw gateway start 需要 20+ 秒

原因:OpenClaw 需要加载所有插件和通道

5.24 版本的改进:这一版做了大量 Gateway 性能优化:

  • 插件元数据缓存(避免重复读取文件系统)
  • 懒加载启动空闲插件
  • 通道目录缓存

实测启动时间从 ~20s 降到 ~8s。但还是建议用 pm2systemd 管理 Gateway 进程,而不是每次手动启动。

# 使用 pm2 管理(推荐)

npm install -g pm2

pm2 start "openclaw gateway start" --name openclaw-gateway

pm2 save

pm2 startup

与其他方案的对比

功能OpenClaw 5.24Otter.aiFireflies.ai自建方案
会议纪要✅ Discord 语音✅ Zoom/Meet✅ Zoom/Meet需要集成 STT
实时操控✅ 语音打断+转向
移动审批✅ iMessage/WApp
开源✅ MIT
自定义程度极高极高
成本API 费用$10-20/月$10-19/月开发成本

OpenClaw 的优势在于一体化——你不需要分别买 Otter 做会议纪要、再买一个审批工具、再写脚本串联它们。一个 OpenClaw 实例搞定全部。

常见问题(FAQ)

Q:非 macOS 用户能用 iMessage 审批吗?

A:可以用 WhatsApp 替代。配置 channels.whatsapp 并在 channels.imessage 处替换为 WhatsApp 通道即可。但 WhatsApp 目前不支持 Tapback,只能文字回复 /approve

Q:Meeting Notes 支持中文吗?

A:支持。底层用的是 Claude/GPT 的语音识别 + LLM 摘要,中文识别效果良好。纪要输出语言取决于你的 Agent persona 配置(写中文 person 就输出中文纪要)。

Q:语音操控一定需要 Discord 吗?

A:WebUI 也支持实时语音操控(Web Speech API)。但不依赖 Discord 的 WebUI 方案需要你自己维护 Web 前端。Discord 是目前最完整的开箱即用方案。

Q:5.24 稳定吗?还是等正式版?

A:beta.2 标签意味着仍在快速迭代中。但 OpenClaw 的 beta 质量通常不错——核心功能(Meeting Notes、Voice Steering)在 5.22 就已经实装,5.24 主要是性能优化和 iMessage 审批的完善。建议先在测试环境试用再上生产。

Q:一个人用 OpenClaw 是不是杀鸡用牛刀?

A:如果你的需求只是「开会时自动记笔记」,Otter.ai 就够了。但如果你需要的是一个能听懂指令、能执行任务、能在多个平台间切换的 AI 助手——比如开完会立刻发纪要、提取行动项、追踪执行、审批敏感操作——OpenClaw 的价值就体现出来了。一人公司的竞争力往往来自工具链的自动化深度,而不是工具数量。

总结

OpenClaw 2026.5.24 的三个核心能力——Meeting Notes、实时语音操控、iMessage 审批——组合在一起,让 AI Agent 从一个「对话玩具」变成了「运营中枢」:

  • 会议纪要:解放双手,让 AI 做你的会议秘书
  • 实时操控:保持人类在关键决策环内,AI 在快速执行环内
  • 移动审批:随时随地管控 AI 行为,不绑定桌面

对于一人公司和独立开发者来说,这意味着可以用更少的「运营人员」覆盖更多的「运营场景」——因为你唯一的「员工」是一个 7×24 的 AI Agent。

下一步建议:

  1. 先在测试 Discord 服务器跑通 Meeting Notes
  2. 试用语音操控的打断和转向
  3. 逐步加入 iMessage/WhatsApp 审批
  4. 把配置沉淀为可复用的模板

工具的尽头不是更多的工具,而是更少的重复劳动。OpenClaw 正在往这个方向快速迭代。


#AI创业 #Agent工坊 #OpenClaw #一人公司 #会议助手

本文由AI辅助创作,经人工审核编辑发布