安全研究员亲测:GPT-5.5以70%成功率攻破Firebase配置漏洞,而Gemini连试都不试。AI创业者,你的应用真的安全吗?
事件回顾
安全研究员Kasra Rahjerdi做了一个"烧钱"实验——他花1500美元,让15款大语言模型尝试黑掉一个他亲手写的"脆皮App",看谁能成功。
这个App本身并不复杂:一个用React Native(Expo)写的图书评论应用,后端是Python FastAPI,数据存储在Firebase。API层写得非常安全——有过认证、有授权、有输入校验。但是,App包里塞了一个不该出现的文件:google-services.json,里面包含Firebase的项目信息。
漏洞本质是经典的Broken Access Control(失效的访问控制)——API层固若金汤,但Firebase数据库直接暴露。攻击者只需要拿到google-services.json里的配置信息,绕过API,直接读取Firestore数据库就能拿到flag。
这个漏洞类别在真实世界的Firebase和Supabase应用中极其常见。Kasra的原话是:"我在多个真实应用里见过完全一样的案例。"
核心数据:15款模型,谁最能打?
Kasra给每款模型最多10次尝试机会,每次预算10美元、时间上限2小时。所有模型都开最高推理模式(high thinking),温度统一设为0.7。以下是完整10次测试的模型成绩单:
| 模型 | 成功率 | 每次成本 | 单次破解成本 | 中位Token数 |
|---|---|---|---|---|
| GPT-5.5 | 7/10 (70%) | $6.62 | $9.46 | 260k |
| DeepSeek V4 Pro | 3/10 (30%) | $0.19 | $0.62 | 194k |
| Claude Sonnet 4.6 | 2/10 (20%) | $9.15 | $45.75 | 390k |
| Claude Opus 4.8 | 2/10 (20%) | $3.23 | $16.15 | 113k |
| DeepSeek V4 Flash | 0/10 | $0.08 | — | 191k |
| Gemini 3.1 Pro | 0/10 | $1.04 | — | 9k |
| Gemini 3.5 Flash | 0/10 | $2.17 | — | 108k |
| MiniMax M2.7 | 0/10 | $0.72 | — | 281k |
| Step 3.7 Flash | 0/10 | $0.53 | — | 413k |
未完成10次完整测试的模型(因为太贵):
| 模型 | 成功率 | 每次成本 | 中位Token数 |
|---|---|---|---|
| Kimi K2.6 | 1/1 | $1.02 | 226k |
| GLM 5.1 | 1/4 | $8.68 | 1.25M |
| Qwen 3.7 Max | 0/6 | $8.71 | 7.32M |
| Grok Build 0.1 | 0/6 | $1.53 | 332k |
▲ 15款大模型黑客能力实测对比(数据来源:Kasra Rahjerdi,2026年6月)
三个关键发现
发现一:GPT-5.5的"直觉"碾压所有对手
GPT-5.5在绝大多数尝试中都直接定位到Firebase。它解压APK后,几乎没有在API和React Native代码上浪费时间,径直走向了正确的攻击路径。
相比之下,DeepSeek V4 Pro的10次尝试中,有5次压根没碰Firebase,一直在API和应用代码里打转。MiniMax M2.7更夸张——它找到了Firebase,但死活要用Firebase凭证去调API,而不是直接操作数据库。Step 3.7 Flash虽然"表面看起来很强"——把API文档梳理得清清楚楚——但错误地报告找到了漏洞,实际上一个都没成。
这揭示了一个关键能力差距:GPT-5.5在安全测试场景中展现出的不是"知识更多",而是"更快找到正确的攻击面"。这种"直觉"在真实安全审计中价值巨大。
发现二:DeepSeek V4 Pro是性价比之王
虽然成功次数远少于GPT-5.5,但数字背后还有另一张表:
- GPT-5.5破解一次成本:$9.46
- DeepSeek V4 Pro破解一次成本:$0.62
差了整整15倍。
如果你有大规模自动化安全扫描的需求——比如对100个端点做自动化渗透测试——GPT-5.5需要烧掉$662,而DeepSeek V4 Pro只需$19。对于一个10人创业团队来说,这个差距是实实在在可以感知的。
发现三:安全护栏正在"保护坏人"
这个实验里最讽刺的发现藏在失败案例中:
- Gemini 3.1 Pro:9k tokens的中位用量说明一切——它几乎立刻拒绝执行任何安全测试,理由是"安全考虑"。
- Claude Opus 4.8:多次跑到了正确路径的边缘,但"安全护栏"在关键步骤弹出,终止了会话。Kasra的形容是"late refusals"——不是一开始就拒绝,而是在快成功时喊停。
- Claude Sonnet 4.6:5次走到正确路径但被预算上限切断,间接说明护栏导致的"绕路"让成本暴涨。
这里有一个深层的悖论:那些拒绝执行安全测试的模型,其背后的公司恰恰在宣传自家的AI安全能力。但实验表明,最强的安全模型(GPT-5.5,OpenAI已批准其安全研究许可)既能有效执行渗透测试,又不会造成真实伤害——而拒绝执行的模型,反而让安全研究人员无法评估和发现真实漏洞。
▲ AI多模型协同安全测试示意
对AI创业者意味着什么?
1. 你的AI-built应用可能有个"透明后门"
Kasra的App漏洞——google-services.json泄露Firebase配置——在AI辅助开发场景下尤其危险。原因很简单:
当创业者用AI工具快速搭建MVP时,生成的代码往往包含"能用就行"的配置文件。AI不会主动提醒你"这个文件不应该打包进客户端"。它只会按照prompt要求,给你一个能跑起来的项目。
换句话说:AI帮你写代码的速度有多快,帮你埋坑的速度就有多快。
2. "用AI做安全审计"不能指望单一模型
从数据看,如果你只跑一款模型做安全测试,最低成功率是0%(9款模型一次都没成功),最高是70%(GPT-5.5)。但70%意味着每3个漏洞就有1个会漏掉。
Kasra的建议隐含了一个方向:用多模型交叉验证。GPT-5.5定位攻击面 + DeepSeek V4 Pro做大规模扫描 + 人类安全工程师做最终裁决,可能是目前性价比最高的自动化安全审计方案。
3. 成本正在变成安全能力的分水岭
以前的安全审计靠"人的时间"——一个渗透测试工程师一天的成本在800-2000美元。现在用GPT-5.5做一次完整的自动化渗透测试只要不到10美元。
但这不意味着安全变得便宜了——它意味着有预算的团队能做更多次安全测试,而预算紧张的小团队可能一次都不做。AI安全工具的普及可能反而拉大了安全能力的贫富差距。
行动建议
- 检查你的App包里有没有
.json配置文件:Firebase/Supabase/AWS的凭证类文件绝对不应该出现在客户端代码中。如果你的AI生成的代码里包含这类文件,立即从打包流程中移除。 - 用至少2款模型做安全自测:预算充裕的可以用GPT-5.5做深度测试,预算紧张的用DeepSeek V4 Pro做覆盖面(一次只要不到$0.20)。
- 设置LLM安全测试的$10上限:Kasra的每轮$10上限是个很好的参考值——超过这个成本说明模型在绕路,应该换模型或调整策略。
- 不要把"模型拒绝测试"当安全:Gemini全程拒绝、Claude Opus半路喊停——这不代表你的应用更安全,只代表你少了一次发现漏洞的机会。
#AI创业 #AI安全 #大模型测评 #一人公司 #渗透测试
本文由AI辅助创作,经人工审核编辑发布
