【Agent工坊】Hermes v0.17 图像编辑实战：用 image_generate 直接改图，一人公司从此告别 Photoshop

Hermes v0.17 给 image_generate 加了图生图能力——同一个工具，传一张原图加一句提示词，就能改颜色、去背景、草图变渲染图。覆盖全部图像后端，零学习成本。

▲ ▲ image_generate 双模式对比：文生图模式（左）与 v0.17 新增的图生图编辑模式（右），传原图+提示词即可触发编辑

发生了什么

6 月 19 日，Hermes Agent 发布 v0.17.0「Reach Release」——1475 个 commit，800 个合并 PR，245 位社区贡献者参与。在众多更新中，有一个功能对一人公司尤其重要：image_generate 现在能编辑图片了，不只是从零生成。

具体来说，PR #48705 给 image_generate 工具加了一个 image_url 参数。当你传一张已有图片的路径（或 URL）进去，Hermes 自动识别这是「编辑模式」而非「生成模式」，把请求路由到对应后端的图生图端点。整个过程对用户透明——你用的还是 image_generate 这个工具，只是多传了一张原图。

支持的场景包括但不限于：

改颜色：「把这张 logo 的底色从红改成蓝」
去背景：「移除图片背景，只保留主体」
草图渲染：「把这张线稿转成高保真渲染图」
风格迁移：「把这张照片转成吉卜力动画风格」

覆盖的后端矩阵也很全：OpenAI 的 images.edit、xAI 的 /v1/images/edits、Krea 的参考引导生成，以及 FAL 平台上的 7 个模型（flux-2/klein/9b、flux-2-pro、nano-banana-pro、gpt-image-1.5、gpt-image-2、ideogram/v3、qwen-image）。

为什么一人公司需要这个

一人公司的视觉需求其实非常碎片化：产品截图要调色、社媒封面要改文字、客户方案的示意图要去水印。这些事说大不大，但每件都打断工作流——打开 Photoshop、导入、操作、导出、上传，一套流程至少 5-10 分钟。一天来个三四次，一小时就没了。

更关键的是，这些操作你和 Hermes 本来就在对话窗口里——你让它生成了一张封面，然后发现标题颜色不对。以前你得下载→改图→重新上传→替换。现在你只需要在对话框里追加一句：

把这张封面的标题改成白色，背景加深一点

Hermes 自动带上上一轮生成的图片 URL，调用同一个 image_generate 工具，后端走编辑端点，几秒钟返回修改后的版本。

这是一个真正的「对话式设计」闭环——你不用离开聊天界面，就能完成从生成到迭代修改的完整流程。

操作指南

基础用法：传图片 + 提示词

如果你已经在之前的对话中生成了图片，直接引用就行：

用 image_generate 把刚才那张封面图的标题文字改成白色粗体

Hermes 会自动从上下文里拿到上一张图片的 URL 或路径，作为 image_url 传入。

如果你要编辑本地文件，显式指定路径：

用 image_generate 编辑 /tmp/logo.png，把橙色底色改成深蓝色

Hermes 看到 image_url 参数后，走编辑模式而非生成模式，其余流程完全相同。

场景一：改颜色——Logo 换色

假设你有一个橙色的 Logo，想改成深蓝版本适配新的品牌色。不需要打开 Figma，直接在 Hermes 里操作：

用 image_generate 编辑 /tmp/logo-orange.png：

把整个 logo 的橙色填充区域（#FF6B35）改成深蓝色（#1A237E），

保持白色文字不变，保持透明背景

Hermes 会调用 GPT Image 2 的编辑端点（或你配置的其他后端），在保留结构和文字的前提下替换颜色。响应时间通常在 30-60 秒。

场景二：去背景——产品图抠图

产品截图往往带有浏览器边框、桌面背景等干扰元素。你可以让 Hermes 帮你去掉：

用 image_generate 编辑 /tmp/screenshot.png：

移除背景，只保留中间的仪表盘面板，

背景改成纯白色，方便放进 PPT

这个操作背后的实际调用链是：图片 → base64 编码 → OpenAI images.edit 端点（或 FAL flux-2/edit）→ 返回处理后的 PNG。

▲ ▲ 后端编辑能力矩阵：v0.17 已接入的全部图像后端及其编辑端点和参考图上限

场景三：草图变渲染图

这是图生图能力最让人兴奋的用法之一。你手绘一个低保真的线框图，让 AI 帮你渲染成高保真效果：

用 image_generate 编辑 /tmp/wireframe-sketch.jpg：

把这张手绘线框图转成高保真 UI 渲染图，

深色主题，卡片式布局，现代科技感，

保留原始布局结构

这个场景对一人公司做产品原型展示特别有用——你不用先学会 Figma，手画个草图 AI 就能帮你变成能放进 PPT 给客户看的效果图。

场景四：风格迁移

用 image_generate 编辑 /tmp/team-photo.jpg：

把这张团队合照转成吉卜力动画风格，

暖色调，柔和光线，保留人物特征和站位

Krea 后端特别适合这个场景——它支持 10 张参考图片的引导生成，风格控制的自由度更高。

后端能力矩阵

不同的图像后端对编辑功能的支持程度不同。以下是 v0.17 中已接入的后端及其编辑能力：

后端	编辑端点	参考图上限	适合场景
OpenAI (GPT Image 2)	`images.edit`	16 张	Logo 改色、去背景、细节修改
xAI (Grok Imagine)	`/v1/images/edits`	取决于模型	创意编辑、风格变化
Krea	`image_style_references`	10 张	风格迁移、参考引导生成
FAL flux-2 系列	`/edit`	9 张	通用编辑、草图渲染
FAL ideogram/v3	`/edit`	9 张	文字渲染+编辑
FAL qwen-image	`/edit`	9 张	中文场景编辑

重要：如果你的 Hermes 配置的是纯文生图后端（不支持编辑），Hermes 会返回清晰的 modality_unsupported 错误，而不是静默丢掉你的原图然后生成一张全新的。这个容错设计避免了「我以为在改图，其实 AI 给我生了一张新的」的尴尬。

如何查看你的后端是否支持编辑

在 Hermes 对话中直接问：

你当前配置的图像模型支持图生图编辑吗？

Hermes 的动态 schema 机制会读取当前模型的能力声明（capabilities().modalities），告诉你是否支持 image_url 参数。如果支持，它会明确告诉你参考图上限是多少张。

踩坑与排障

坑一：原图太大，后端拒绝

GPT Image 2 的 images.edit 端点对输入图片有尺寸限制（通常不超过 4096×4096 像素，且文件大小不超过 4MB）。如果你传了一张 8000×6000 的原始照片，会被后端拒绝。

解决：编辑前先压缩——

先把 /tmp/large-photo.jpg 缩放到 2048px 宽，保持比例，

然后用 image_generate 编辑压缩后的版本

Hermes 可以用终端工具（ImageMagick 的 convert 或 Python Pillow）先做预处理。

▲ ▲ 截图到方案全流程：从截取竞品到输出方案文档，全程不离开 Hermes 对话窗口

坑二：去背景不干净，边缘有毛刺

这是 AI 编辑的已知局限——对于复杂边缘（头发丝、半透明物体），AI 的去背景效果不如专业工具（如 remove.bg 的专用模型）。如果你的图片主体和背景颜色接近，AI 可能误删主体的一部分。

解决：

优先选择高对比度的原图（主体和背景颜色差异大）
如果第一次效果不好，在提示词里加约束：「严格保护主体边缘，不要切割主体任何部分」
对于精度要求高的场景（电商产品白底图），仍建议用专用去背景 API

坑三：文字在编辑过程中变形

如果你编辑的图片上有文字（比如封面的标题），AI 在修改背景或风格时可能改变文字的清晰度甚至内容。这是因为图生图模型本质上是「看着原图重新画」，它不区分「文字」和「图案」。

解决：

如果需要保留原文文字不变，在提示词里强调：「保持所有文字内容不变，包括字体、大小和位置」
对于封面改色这类需求，更好的做法是让 Hermes 重新生成封面（用新的颜色参数调用 make_cover.py），而不是编辑已有的封面图
把「编辑已有图」和「重新生成」视为两种策略，按需选择

坑四：provider 不支持编辑，但没有报错

如果你的 Hermes 使用的是只支持文生图的模型（如某些 FAL 模型的老版本），你可能传了 image_url 但 Hermes 没有报错，而是静默忽略了原图，直接生成了一张全新的图片。

v0.17 已修复此问题——不支持编辑的模型会返回 modality_unsupported 错误。但有两个前提：

你确实升级到了 v0.17（hermes --version 确认）
后端提供商正确声明了自己的 capabilities

如果升级后仍有问题，检查你的图像插件是否更新到了兼容 v0.17 的版本。

坑五：编辑结果的「保真度」与「创意度」的权衡

图生图存在一个经典矛盾：如果 AI 过于「忠实」于原图，你可能觉得改了等于没改；如果 AI 过于「自由」，你可能觉得改得面目全非。不同的后端的默认倾向不同：

OpenAI GPT Image 2 偏保守——倾向于保留原图结构
Krea 偏创意——倾向于风格化改造
FAL flux-2 居中——可通过提示词精细控制

如果你的编辑结果不满意，尝试换一个后端试试。Hermes 的多后端架构让你可以在不同模型间切换，找到最适合你当前任务的。

实际工作流：从截图到方案图，全程不离开 Hermes

假设你要给客户做一份竞品分析方案，需要处理几张竞品截图。完整流程如下：

1. 截取竞品官网首页到 /tmp/comp1.png

2. 去背景，只保留核心界面：

「用 image_generate 编辑 /tmp/comp1.png，去掉浏览器边框和地址栏，

只保留网页主体内容，白色背景」

3. 标注关键区域：

「用 image_generate 编辑上一步的结果，

在定价区域周围画一个红色虚线框，

并在框旁边添加文字标注『价格对比点』」

4. 统一色调，放进方案文档：

「用 image_generate 把上一步的结果转成灰度图，

保持红色标注不变，方便打印到黑白方案里」

全程在 Hermes 对话窗口完成，不需要打开任何图像编辑软件。产出直接可以粘贴进 Word 或 PPT。

配合 Hermes 的 delegate_task(background=true)（也是 v0.17 的新功能），你甚至可以把多张图片的批量编辑丢到后台，自己继续写方案文字，编辑完成后 Hermes 自动把结果推回对话。

总结

image_generate 的图生图能力是 Hermes v0.17 中对一人公司最实用的更新之一。核心价值三点：

零切换成本——改图不需要离开 Hermes 对话窗口，编辑和生成用同一个工具
全后端覆盖——不管你用的是 OpenAI、xAI、Krea 还是 FAL，编辑能力都可用
对话式迭代——「生成→不满意→改→再改」的循环在聊天界面内完成，不需要下载-上传-替换的繁琐流程

如果说 v0.16 把 Hermes 搬上了桌面，v0.17 就是让这个桌面成为一个完整的内容生产环境——不只是写文字、写代码，现在连图片也可以在对话流里完成从创意到终稿的全过程。

升级到 v0.17 的命令：

hermes update

hermes --version # 确认版本 ≥ v2026.6.19

升级后重启 Hermes，image_generate 就能处理编辑请求了。试试把你桌面上那张需要微调的 logo 丢给它——你会发现改图这件事，从此不需要离开终端。

风险提示

图生图编辑依赖后端 API 的可用性。如果后端服务不稳定（如 GPT Image 2 的 503），编辑请求也会失败。此时建议等几分钟重试。
不同后端的编辑质量差异较大。OpenAI 的 images.edit 在保留原图结构方面表现最好；FAL 的模型编辑速度更快但保真度略低。建议根据任务类型选择合适的后端。
编辑后的图片仍可能出现 AI 生成内容的常见问题（文字乱码、结构变形）。发布到正式渠道前建议人工确认。

本文由AI辅助创作，经人工审核编辑发布

更多一人公司案例与工具，微信搜索「AI创业内参」关注我们