【AI风向】安大略省审计暴雷：60%的AI医疗笔记系统开错药，评分体系里"准确度"只值4分

9/20的AI系统捏造了患者从未说过的症状和治疗建议，而它们在政府评估中"准确度"指标的权重只有4%——连"是否在安大略省有办公室"（30%）的七分之一都不到。

事件回顾

5月14日，加拿大安大略省审计长办公室发布了一份关于省内公共服务AI使用情况的专项报告，其中最炸裂的发现来自"AI Scribe"（AI医疗笔记）项目——安大略省卫生部为医生、执业护士等医疗专业人员采购的AI听写系统，在模拟测试中暴露出令人震惊的事实错误率。

省审计团队用模拟医患对话录音做了测试，然后让真人医生对比原始录音和AI生成的笔记。结果：

20个获批系统中，9个凭空捏造了录音中从未讨论过的信息，包括虚构的"未发现肿块"、"患者焦虑"等描述，并直接给出了治疗建议
12个系统在患者笔记中插入了错误的药物信息——把A药写成B药，把没开过的药写进处方记录
17个系统遗漏了对话中讨论过的患者心理健康关键细节——6个系统"完全或部分遗漏"了精神健康信息
总体来看，60%的评估系统在处方药记录上出了错

换句话说，一个安大略省的患者去看医生，医生用政府认证的AI系统做笔记，有超过一半的概率——AI笔记里记录的药，跟医生实际开的药不是一回事。

比技术故障更可怕的是评分体系

安大略省AI评估权重对比
▲ 安大略省AI Scribe系统评估权重：准确度仅占4%，远低于"本地办公室"的30%（来源：安大略省审计长办公室2026年报告）

这件事最讽刺的地方不在于AI会犯错（LLM产生幻觉早就不是新闻了），而在于——这些系统之所以能通过政府认证，是因为评分体系本身就放弃了准确度。

审计报告披露了安大略省AI Scribe系统的评分权重：

评估维度	评分权重
在安大略省有实体办公室	30%
医疗笔记准确度	4%
SOC 2 Type 2合规	4%
偏见控制	2%
威胁、风险与隐私评估	2%

够魔幻吗？一个医疗AI系统的评分里，"准确度"只值4分，而"有没有本地办公室"值30分。偏见控制2分，隐私评估2分。这不是技术问题，这是采购逻辑的彻底错位——政府在用采购办公家具的思维采购医疗AI。

HN上有加拿大人评论说："作为一个加拿大人，我对AI能帮医生减负感到兴奋，但这太吓人了。我们还没准备好。"另一位多伦多的患者更直接——他说自己的医生每次用AI笔记系统都要手动纠正，经常抱怨"跟电脑说话的时间比跟病人说话的时间还多"。

这不是孤例

AI介入医疗的微妙边界
▲ AI笔记系统在真实临床场景中的表现：一位HN用户分享，自己被诊断为"跑步膝"，AI笔记却写成了"骨质疏松"并添加了不存在的症状

安大略省的审计报告只是AI医疗出错的又一个铁证。在此之前的几个发现同样令人不安：

2026年1月：OpenAI的ChatGPT Health被发现给用户提供"危险且不准确"的医疗建议（The Register报道）
2026年4月：一项研究发现LLM在约80%的早期鉴别诊断案例中未能给出合适的诊断方向
2026年3月：研究显示AI医生助手很容易被诱导改变处方、给出有害建议

更值得警惕的是：这些系统瞄准的是医生而非消费者。消费者用AI查症状不靠谱可以理解，但当AI工具拿到了政府背书、直接嵌入医生工作流时，出错的代价就是临床级的。

一位HN用户分享了自己的亲身经历：他被诊断为"跑步膝"（Runner's Knee），但AI笔记系统把他的诊断写成了"骨质疏松"，并添加了"髋部疼痛"和"行走困难"等他从没提过的症状。"一定要检查你的AI转写记录，"他写道，"尤其是LLM转录工具，它们经常添加不存在的常见症状，或者声称一个完全不存在的诊断。"

AI创业者该从中看到什么

这条新闻对AI创业者至少有三层启示：

第一层：高监管行业的AI产品，准确度是不能妥协的底线。 如果你的AI产品进入医疗、法律、金融等有合规要求的领域，95%的准确率可能还不够——因为你永远不知道那5%的错误落在谁的病例上。安大略省用4%的权重评估准确度，这种采购逻辑迟早出事，而事后的反噬会波及整个行业。

第二层：AI笔记/听写/摘要是一个看似简单、实则极难的赛道。 很多人以为"AI做会议纪要"是个已经解决的问题，但安大略省的审计和HN上几十条从业者评论都在证明——LLM天然不擅长忠实转写。它们会把对话"合理润色"成更连贯的叙述，在这个过程中，可能添加说话人从未表达过的信息。

一位HN用户分享了他工作中的实例：公司的AI笔记工具在一场他亲自参加的会议记录中，捏造了供应商"承诺做某事但从未做到"的描述，导致CIO非常愤怒——而那个承诺根本就不存在，对话的实际情况比AI总结要微妙得多。

第三层：AI评估体系本身就是一个创业机会。 安大略省暴露的问题本质上不是AI不行，而是评估AI的标准和方法完全跟不上。谁能为AI医疗工具建立靠谱的测试基准和审计框架，谁就在定义下一个基础设施层。

行动建议

如果你的产品做AI摘要/笔记功能：加入"一键跳转原文/录音时间戳"的验证机制。HN上有用户分享，他们用的AI会议工具每条笔记旁边都有时间戳链接，点进去就能直接听原始录音片段——这是目前最务实的防幻觉方案。

关注医疗AI的监管风向：安大略省的审计报告已经在对AI Scribe提出整改要求，包括强制医生手动审核AI笔记并签署确认。类似的监管要求很可能扩散到其他地区和其他行业。

别迷信"政府认证"：安大略省这20个系统都是通过政府正式采购流程认证的，结果60%在开药记录上出错。对AI创业者来说，这意味着——如果你的产品能达到真正可靠的准确度，你就有机会替换那些靠"本地办公室"拿分的竞品。

在AI工具中建立"不确定性标记"：让AI在不确定的地方标注出来，而不是硬着头皮编一个看似合理的答案。这能大幅降低关键场景下的风险。

本文由AI辅助创作，经人工审核编辑发布