AI风向

【AI风向】GitHub正在被AI机器人淹没:核心维护者每周半天清理AI垃圾,一个Git flag成最后防线

230分登顶HN热榜:一家AI创业公司发现自己的GitHub仓库里超过一半的近期commit都是AI生成的噪音,维护者每周花半天时间手动清理。他们用Git的--author flag做了一个巧妙的准入系统,第一周就拦截了500个机器人。

事件回顾

AI创业公司Archestra(一家做AI Agent基础设施的公司)最近公开了一篇博客,详细描述了他们的开源仓库是如何被AI生成的低质量贡献淹没的。

事情的起点是一个挂了900美元赏金的issue。团队希望通过悬赏吸引真实的开发者来贡献代码——结果确实招来了人,但也招来了机器。这个issue很快被AI机器人轰炸到253条评论,充斥着毫无意义的"实施方案"和AI生成的代码片段。真实的贡献者——那些认真研究问题、提出方案的开发者——被淹没在噪音里。

问题随后演变成一场疫情。仅仅一个"添加x.ai提供商支持"的功能请求,就引来了27个PR,其中大部分贡献者连测试都没跑过。团队成员不得不每周花半天时间手动清理AI垃圾:关闭未经测试的PR、删除幻觉生成的issue。

更可怕的数据:在3521个总commit中,369个本质上是噪音(超过10%)。而在过去一个月里,这个比例飙升到超过一半——578个commit中有303个是AI生成的垃圾。

为什么重要

AI垃圾数据对比:3521个commit中369个AI噪音,近一月超半数

▲ AI垃圾已占开源仓库commit的10%-52%(数据来源:Archestra.ai)

这个事件触动了AI创业圈的三根神经:

第一,AI正在摧毁它赖以成长的土壤。 开源社区是AI行业的基础设施——几乎所有AI工具都建立在开源项目之上。当AI生成的垃圾淹没了开源仓库,真正的贡献者被劝退,整个生态会退化。这不是一个公司的麻烦,而是整个AI行业的慢性毒药。

第二,激励机制被AI逆向劫持。 Archestra用赏金激励贡献,这本来是开源生态的正常操作。但AI的出现让这个机制反噬——赏金吸引了机器人而非人才。类似的问题也出现在LiteLLM仓库中,攻击者利用AI机器人引导讨论方向,制造安全风险。

第三,GitHub的统计数据正在失真。 GitHub官方曾大力宣传AI对平台贡献量的提升,却回避了一个问题:这些贡献中有多少是AI垃圾?当VC还在用GitHub活跃度衡量创业公司时,一个讽刺的悖论出现了:拒绝AI噪音、追求代码质量的公司,反而在融资市场上显得"不活跃"。

就连Linus Torvalds最近也在抱怨——AI生成的"安全漏洞报告"已经让Linux内核安全邮件列表变得"几乎无法管理"。这不是个案,而是一场正在全球开源社区蔓延的流行病。

他们是怎么反击的

Git --author flag白名单方案:CAPTCHA→GitHub API→commit→白名单

▲ Git --author flag实现贡献者白名单的完整流程(第一周拦截500个AI机器人)

Archestra团队首先尝试了温和手段。他们构建了一个叫"London-Cat"的小机器人,根据合并PR数等信号计算贡献者的"声誉值"——但这只是帮他们辨别真伪,没有减少垃圾。

接着他们上线了"AI sheriff",自动关闭可疑PR——结果误伤了一批真实贡献者。

最终,他们使出了"核选项":开启GitHub的"仅限先前贡献者"设置。这个规则简单粗暴:如果你之前没有commit进入main分支,就不能评论或创建PR。

但问题来了——真实的新贡献者怎么进来?这就是Git的--author flag上场的时候了。

关键技术细节是这样的:每个GitHub账号都有一个noreply邮箱(格式:ID+username@users.noreply.github.com)。通过GitHub API查询用户ID后,可以用git commit --author="username "创建一笔commit,将作者身份归属给目标用户。

推送后,GitHub会将该用户视为"先前贡献者",自动解锁仓库权限。

完整的准入流程:

  1. 新贡献者在Archestra网站上通过CAPTCHA验证并同意AI伦理规则
  2. GitHub Action自动查询用户ID,将用户名添加到EXTERNAL_CONTRIBUTORS.md
  3. 推送一笔以该用户为author的commit到main分支
  4. 用户瞬间获得"先前贡献者"身份,可以正常提交PR和评论

实施第一周,这个系统拦截了至少500个AI机器人。

我们能学到什么

对开源维护者:如果你们的仓库也在被AI垃圾困扰,可以考虑类似的"准入门槛"策略。不需要自己造轮子——GitHub的"仅限先前贡献者"设置配合Git的--author flag,就是一个低成本的解决方案。

对AI创业者:这提醒我们,AI工具的副作用正在反噬开发者社区。如果你的目标用户是开发者,他们可能已经被AI垃圾搞得筋疲力尽——你的产品能否帮他们解决这个问题,而不是加重负担?

对投资人:GitHub活跃度数据的可信度正在下降。过去靠星标数和commit频率判断项目质量的模式需要更新了——AI让刷数据变得几乎零成本。

行动建议

  1. 如果你是开源维护者:立即检查仓库的"仅限先前贡献者"设置,评估是否需要开启。同时建立一个简单的准入流程(哪怕是手动添加外部贡献者到白名单)。
  1. 如果你在构建AI Agent工具:考虑内置"贡献质量评估"功能——帮助用户区分AI生成和人类编写的代码。这是一个真实且紧迫的需求。
  1. 如果你在做一人公司:如果你的产品需要开源社区贡献,趁早建立防AI垃圾机制。不要等到仓库变成垃圾场才行动——届时真实贡献者已经流失了。
  1. 关注趋势:GitHub和GitLab迟早会推出更完善的反AI垃圾工具。当这些工具出现时,第一时间适配——这可能成为开源项目竞争力的新维度。

本文由AI辅助创作,经人工审核编辑发布