AI风向

【AI风向】安大略省审计炸雷:60% AI医生笔录系统开错药,评分体系竟只给"准确性"4%权重

加拿大安大略省审计长发布重磅报告:20款获批用于临床的AI Scribe系统,12款插入了错误药物信息,9款凭空编造治疗方案——而这些系统正被5000多名医生日常使用。

事件回顾

2026年5月13日,加拿大安大略省审计长 Shelley Spence 发布了一份让医疗AI行业震动的专项报告。报告聚焦于该省卫生厅自2023年起推广的 AI Scribe 项目——一款在医生问诊时自动听取对话、生成 SOAP 病历(主观-客观-评估-治疗方案)的AI系统。

审计团队用模拟医患对话录音对20家获批供应商的系统进行了评估,然后请真人医生对比原始录音和AI生成的病历。结果令人震惊:

- 9/20 的系统凭空编造了治疗方案建议——录音里根本没讨论过的内容,被AI写进了病历

- 12/20 的系统插入了错误的药物信息,60%的系统在处方药记录上出错

- 17/20 的系统遗漏了患者心理健康的关键细节,其中6款完全或部分缺失

- 评估中甚至出现了"未发现肿块"、"患者感到焦虑"等完全虚构的陈述,而这些内容在录音中从未出现

更荒诞的是评分体系。报告揭示:在AI Scribe系统的采购评审中,"是否有安大略省本地办公室"占评分权重的30%,而"病历准确性"仅占4%,偏见控制占2%,安全隐私评估占2%。审计报告直言:"不准确的权重可能导致选中那些产生不准确或有偏见病历的供应商。"

目前已有超过5000名安大略省医生在使用AI Scribe系统。安大略省医学数字服务组织(OntarioMD)建议医生手动审核AI生成的病历,但没有任何一套获批系统内置了强制确认(mandatory attestation)功能

省卫生厅发言人在回应CBC时表示:"目前没有收到AI Scribe技术导致患者伤害的报告。"但审计报告明确指出:"AI Scribe系统生成的病历不准确,可能导致不充分或有害的治疗方案,进而影响患者健康。"

为什么重要

这不是又一次"ChatGPT胡说八道"的实验室测试。这是政府正式采购、已大规模部署、正在影响真实患者诊疗的生产系统

对AI创业者而言,这个案例暴露出三个致命问题:

1. 采购评分体系的"反准确性"设计。

2. "未发现伤害"≠"安全"。

3. 人工审核是脆弱的最后防线。

我们能学到什么

### 1. 高风险场景的AI产品,必须内置"安全护栏"而非依赖外部流程

如果你的AI产品可能影响人的健康、财产或法律权益,不要在用户手册里写"请人工审核"就完事了。应该做到:强制置信度标记、自动标注AI生成内容、提供一键回放原始输入对比、高错误率场景自动阻断并升级人工介入。

### 2. 评分权重决定产品方向——提前介入规则制定

很多AI创业者只关注"把产品做好",但安大略案例说明:如果你的客户用的是扭曲的评分标准,再好的产品也可能败给一个在安大略有办公室但病历乱写的竞品。 参与行业标准制定、推动合理的评估框架,应该是B2B/B2G AI创业者的核心战略之一。

### 3. 审计报告=最好的产品路线图

安大略省审计报告本质上是一份"AI医疗文书系统不该做什么"的详细清单。如果你在做医疗AI、法律AI、金融AI——去找你所在行业的审计报告和监管文件,那里写满了用户的痛点和市场的空白。

行动建议

1. 立即检查你的AI产品是否存在类似的"权重扭曲":你的质量评估体系里,核心准确性指标占多大比重?是否有与核心价值无关的指标反客为主?

2. 如果你在医疗/法律/金融等高风险赛道:把安大略审计报告作为镜鉴,逐条对照检查自己的产品是否存在同样的缺陷

3. 关注"AI安全审计"赛道本身:随着AI在高风险领域加速部署,独立的第三方AI审计服务正在成为一个快速增长的市场——这本身就是创业机会


数据来源:The Register (https://www.theregister.com/ai-ml/2026/05/14/ontario-auditors-find-doctors-ai-note-takers-routinely-blow-basic-facts/)、Global News (https://globalnews.ca/news/11844349/ontario-auditor-general-ai-usage/)、安大略省审计长办公室2026年5月专项报告、HN讨论

⚠️ 风险提示:本文基于加拿大安大略省审计报告撰写,不同国家和地区对医疗AI的监管要求不同。AI Scribe系统也在持续迭代中,具体产品表现请以各厂商最新版本为准。

#AI创业 #AI医疗 #AI安全审计 #政府采购 #一人公司