【AI风向】GitHub正在被AI机器人淹没：核心维护者每周半天清理AI垃圾，一个Git flag成最后防线

230分登顶HN热榜：一家AI创业公司发现自己的GitHub仓库里超过一半的近期commit都是AI生成的噪音，维护者每周花半天时间手动清理。他们用Git的--author flag做了一个巧妙的准入系统，第一周就拦截了500个机器人。

事件回顾

AI创业公司Archestra（一家做AI Agent基础设施的公司）最近公开了一篇博客，详细描述了他们的开源仓库是如何被AI生成的低质量贡献淹没的。

事情的起点是一个挂了900美元赏金的issue。团队希望通过悬赏吸引真实的开发者来贡献代码——结果确实招来了人，但也招来了机器。这个issue很快被AI机器人轰炸到253条评论，充斥着毫无意义的"实施方案"和AI生成的代码片段。真实的贡献者——那些认真研究问题、提出方案的开发者——被淹没在噪音里。

问题随后演变成一场疫情。仅仅一个"添加x.ai提供商支持"的功能请求，就引来了27个PR，其中大部分贡献者连测试都没跑过。团队成员不得不每周花半天时间手动清理AI垃圾：关闭未经测试的PR、删除幻觉生成的issue。

更可怕的数据：在3521个总commit中，369个本质上是噪音（超过10%）。而在过去一个月里，这个比例飙升到超过一半——578个commit中有303个是AI生成的垃圾。

为什么重要

▲ AI垃圾已占开源仓库commit的10%-52%（数据来源：Archestra.ai）

这个事件触动了AI创业圈的三根神经：

第一，AI正在摧毁它赖以成长的土壤。 开源社区是AI行业的基础设施——几乎所有AI工具都建立在开源项目之上。当AI生成的垃圾淹没了开源仓库，真正的贡献者被劝退，整个生态会退化。这不是一个公司的麻烦，而是整个AI行业的慢性毒药。

第二，激励机制被AI逆向劫持。 Archestra用赏金激励贡献，这本来是开源生态的正常操作。但AI的出现让这个机制反噬——赏金吸引了机器人而非人才。类似的问题也出现在LiteLLM仓库中，攻击者利用AI机器人引导讨论方向，制造安全风险。

第三，GitHub的统计数据正在失真。 GitHub官方曾大力宣传AI对平台贡献量的提升，却回避了一个问题：这些贡献中有多少是AI垃圾？当VC还在用GitHub活跃度衡量创业公司时，一个讽刺的悖论出现了：拒绝AI噪音、追求代码质量的公司，反而在融资市场上显得"不活跃"。

就连Linus Torvalds最近也在抱怨——AI生成的"安全漏洞报告"已经让Linux内核安全邮件列表变得"几乎无法管理"。这不是个案，而是一场正在全球开源社区蔓延的流行病。

他们是怎么反击的

Git --author flag白名单方案：CAPTCHA→GitHub API→commit→白名单

▲ Git --author flag实现贡献者白名单的完整流程（第一周拦截500个AI机器人）

Archestra团队首先尝试了温和手段。他们构建了一个叫"London-Cat"的小机器人，根据合并PR数等信号计算贡献者的"声誉值"——但这只是帮他们辨别真伪，没有减少垃圾。

接着他们上线了"AI sheriff"，自动关闭可疑PR——结果误伤了一批真实贡献者。

最终，他们使出了"核选项"：开启GitHub的"仅限先前贡献者"设置。这个规则简单粗暴：如果你之前没有commit进入main分支，就不能评论或创建PR。

但问题来了——真实的新贡献者怎么进来？这就是Git的--author flag上场的时候了。

关键技术细节是这样的：每个GitHub账号都有一个noreply邮箱（格式：ID+username@users.noreply.github.com）。通过GitHub API查询用户ID后，可以用git commit --author="username "创建一笔commit，将作者身份归属给目标用户。

推送后，GitHub会将该用户视为"先前贡献者"，自动解锁仓库权限。

完整的准入流程：

新贡献者在Archestra网站上通过CAPTCHA验证并同意AI伦理规则
GitHub Action自动查询用户ID，将用户名添加到EXTERNAL_CONTRIBUTORS.md
推送一笔以该用户为author的commit到main分支
用户瞬间获得"先前贡献者"身份，可以正常提交PR和评论

实施第一周，这个系统拦截了至少500个AI机器人。

我们能学到什么

对开源维护者：如果你们的仓库也在被AI垃圾困扰，可以考虑类似的"准入门槛"策略。不需要自己造轮子——GitHub的"仅限先前贡献者"设置配合Git的--author flag，就是一个低成本的解决方案。

对AI创业者：这提醒我们，AI工具的副作用正在反噬开发者社区。如果你的目标用户是开发者，他们可能已经被AI垃圾搞得筋疲力尽——你的产品能否帮他们解决这个问题，而不是加重负担？

对投资人：GitHub活跃度数据的可信度正在下降。过去靠星标数和commit频率判断项目质量的模式需要更新了——AI让刷数据变得几乎零成本。

行动建议

如果你是开源维护者：立即检查仓库的"仅限先前贡献者"设置，评估是否需要开启。同时建立一个简单的准入流程（哪怕是手动添加外部贡献者到白名单）。

如果你在构建AI Agent工具：考虑内置"贡献质量评估"功能——帮助用户区分AI生成和人类编写的代码。这是一个真实且紧迫的需求。

如果你在做一人公司：如果你的产品需要开源社区贡献，趁早建立防AI垃圾机制。不要等到仓库变成垃圾场才行动——届时真实贡献者已经流失了。

关注趋势：GitHub和GitLab迟早会推出更完善的反AI垃圾工具。当这些工具出现时，第一时间适配——这可能成为开源项目竞争力的新维度。

本文由AI辅助创作，经人工审核编辑发布