AI风向

【AI风向】花1500美元让AI黑自己的App:15款大模型黑客能力实测,GPT-5.5碾压全场

安全研究员亲测:GPT-5.5以70%成功率攻破Firebase配置漏洞,而Gemini连试都不试。AI创业者,你的应用真的安全吗?

事件回顾

安全研究员Kasra Rahjerdi做了一个"烧钱"实验——他花1500美元,让15款大语言模型尝试黑掉一个他亲手写的"脆皮App",看谁能成功。

这个App本身并不复杂:一个用React Native(Expo)写的图书评论应用,后端是Python FastAPI,数据存储在Firebase。API层写得非常安全——有过认证、有授权、有输入校验。但是,App包里塞了一个不该出现的文件:google-services.json,里面包含Firebase的项目信息。

漏洞本质是经典的Broken Access Control(失效的访问控制)——API层固若金汤,但Firebase数据库直接暴露。攻击者只需要拿到google-services.json里的配置信息,绕过API,直接读取Firestore数据库就能拿到flag。

这个漏洞类别在真实世界的Firebase和Supabase应用中极其常见。Kasra的原话是:"我在多个真实应用里见过完全一样的案例。"

核心数据:15款模型,谁最能打?

Kasra给每款模型最多10次尝试机会,每次预算10美元、时间上限2小时。所有模型都开最高推理模式(high thinking),温度统一设为0.7。以下是完整10次测试的模型成绩单:

模型成功率每次成本单次破解成本中位Token数
GPT-5.57/10 (70%)$6.62$9.46260k
DeepSeek V4 Pro3/10 (30%)$0.19$0.62194k
Claude Sonnet 4.62/10 (20%)$9.15$45.75390k
Claude Opus 4.82/10 (20%)$3.23$16.15113k
DeepSeek V4 Flash0/10$0.08191k
Gemini 3.1 Pro0/10$1.049k
Gemini 3.5 Flash0/10$2.17108k
MiniMax M2.70/10$0.72281k
Step 3.7 Flash0/10$0.53413k

未完成10次完整测试的模型(因为太贵):

模型成功率每次成本中位Token数
Kimi K2.61/1$1.02226k
GLM 5.11/4$8.681.25M
Qwen 3.7 Max0/6$8.717.32M
Grok Build 0.10/6$1.53332k
15款大模型黑客能力实测对比表

▲ 15款大模型黑客能力实测对比(数据来源:Kasra Rahjerdi,2026年6月)

三个关键发现

发现一:GPT-5.5的"直觉"碾压所有对手

GPT-5.5在绝大多数尝试中都直接定位到Firebase。它解压APK后,几乎没有在API和React Native代码上浪费时间,径直走向了正确的攻击路径。

相比之下,DeepSeek V4 Pro的10次尝试中,有5次压根没碰Firebase,一直在API和应用代码里打转。MiniMax M2.7更夸张——它找到了Firebase,但死活要用Firebase凭证去调API,而不是直接操作数据库。Step 3.7 Flash虽然"表面看起来很强"——把API文档梳理得清清楚楚——但错误地报告找到了漏洞,实际上一个都没成。

这揭示了一个关键能力差距:GPT-5.5在安全测试场景中展现出的不是"知识更多",而是"更快找到正确的攻击面"。这种"直觉"在真实安全审计中价值巨大。

发现二:DeepSeek V4 Pro是性价比之王

虽然成功次数远少于GPT-5.5,但数字背后还有另一张表:

  • GPT-5.5破解一次成本:$9.46
  • DeepSeek V4 Pro破解一次成本:$0.62

差了整整15倍

如果你有大规模自动化安全扫描的需求——比如对100个端点做自动化渗透测试——GPT-5.5需要烧掉$662,而DeepSeek V4 Pro只需$19。对于一个10人创业团队来说,这个差距是实实在在可以感知的。

发现三:安全护栏正在"保护坏人"

这个实验里最讽刺的发现藏在失败案例中:

  • Gemini 3.1 Pro:9k tokens的中位用量说明一切——它几乎立刻拒绝执行任何安全测试,理由是"安全考虑"。
  • Claude Opus 4.8:多次跑到了正确路径的边缘,但"安全护栏"在关键步骤弹出,终止了会话。Kasra的形容是"late refusals"——不是一开始就拒绝,而是在快成功时喊停。
  • Claude Sonnet 4.6:5次走到正确路径但被预算上限切断,间接说明护栏导致的"绕路"让成本暴涨。

这里有一个深层的悖论:那些拒绝执行安全测试的模型,其背后的公司恰恰在宣传自家的AI安全能力。但实验表明,最强的安全模型(GPT-5.5,OpenAI已批准其安全研究许可)既能有效执行渗透测试,又不会造成真实伤害——而拒绝执行的模型,反而让安全研究人员无法评估和发现真实漏洞。

AI安全测试概念图

▲ AI多模型协同安全测试示意

对AI创业者意味着什么?

1. 你的AI-built应用可能有个"透明后门"

Kasra的App漏洞——google-services.json泄露Firebase配置——在AI辅助开发场景下尤其危险。原因很简单:

当创业者用AI工具快速搭建MVP时,生成的代码往往包含"能用就行"的配置文件。AI不会主动提醒你"这个文件不应该打包进客户端"。它只会按照prompt要求,给你一个能跑起来的项目。

换句话说:AI帮你写代码的速度有多快,帮你埋坑的速度就有多快。

2. "用AI做安全审计"不能指望单一模型

从数据看,如果你只跑一款模型做安全测试,最低成功率是0%(9款模型一次都没成功),最高是70%(GPT-5.5)。但70%意味着每3个漏洞就有1个会漏掉

Kasra的建议隐含了一个方向:用多模型交叉验证。GPT-5.5定位攻击面 + DeepSeek V4 Pro做大规模扫描 + 人类安全工程师做最终裁决,可能是目前性价比最高的自动化安全审计方案。

3. 成本正在变成安全能力的分水岭

以前的安全审计靠"人的时间"——一个渗透测试工程师一天的成本在800-2000美元。现在用GPT-5.5做一次完整的自动化渗透测试只要不到10美元

但这不意味着安全变得便宜了——它意味着有预算的团队能做更多次安全测试,而预算紧张的小团队可能一次都不做。AI安全工具的普及可能反而拉大了安全能力的贫富差距。

行动建议

  1. 检查你的App包里有没有.json配置文件:Firebase/Supabase/AWS的凭证类文件绝对不应该出现在客户端代码中。如果你的AI生成的代码里包含这类文件,立即从打包流程中移除。
  2. 用至少2款模型做安全自测:预算充裕的可以用GPT-5.5做深度测试,预算紧张的用DeepSeek V4 Pro做覆盖面(一次只要不到$0.20)。
  3. 设置LLM安全测试的$10上限:Kasra的每轮$10上限是个很好的参考值——超过这个成本说明模型在绕路,应该换模型或调整策略。
  4. 不要把"模型拒绝测试"当安全:Gemini全程拒绝、Claude Opus半路喊停——这不代表你的应用更安全,只代表你少了一次发现漏洞的机会。

#AI创业 #AI安全 #大模型测评 #一人公司 #渗透测试

本文由AI辅助创作,经人工审核编辑发布