Agent工坊

【Agent工坊】Hermes v0.17 图像编辑实战:用 image_generate 直接改图,一人公司从此告别 Photoshop

Hermes v0.17 给 image_generate 加了图生图能力——同一个工具,传一张原图加一句提示词,就能改颜色、去背景、草图变渲染图。覆盖全部图像后端,零学习成本。

▲ image_generate 双模式对比:文生图模式(左)与 v0.17 新增的图生图编辑模式(▲ ▲ image_generate 双模式对比:文生图模式(左)与 v0.17 新增的图生图编辑模式(右),传原图+提示词即可触发编辑

发生了什么

6 月 19 日,Hermes Agent 发布 v0.17.0「Reach Release」——1475 个 commit,800 个合并 PR,245 位社区贡献者参与。在众多更新中,有一个功能对一人公司尤其重要:image_generate 现在能编辑图片了,不只是从零生成。

具体来说,PR #48705 给 image_generate 工具加了一个 image_url 参数。当你传一张已有图片的路径(或 URL)进去,Hermes 自动识别这是「编辑模式」而非「生成模式」,把请求路由到对应后端的图生图端点。整个过程对用户透明——你用的还是 image_generate 这个工具,只是多传了一张原图。

支持的场景包括但不限于:

  • 改颜色:「把这张 logo 的底色从红改成蓝」
  • 去背景:「移除图片背景,只保留主体」
  • 草图渲染:「把这张线稿转成高保真渲染图」
  • 风格迁移:「把这张照片转成吉卜力动画风格」

覆盖的后端矩阵也很全:OpenAI 的 images.edit、xAI 的 /v1/images/edits、Krea 的参考引导生成,以及 FAL 平台上的 7 个模型(flux-2/klein/9b、flux-2-pro、nano-banana-pro、gpt-image-1.5、gpt-image-2、ideogram/v3、qwen-image)。

为什么一人公司需要这个

一人公司的视觉需求其实非常碎片化:产品截图要调色、社媒封面要改文字、客户方案的示意图要去水印。这些事说大不大,但每件都打断工作流——打开 Photoshop、导入、操作、导出、上传,一套流程至少 5-10 分钟。一天来个三四次,一小时就没了。

更关键的是,这些操作你和 Hermes 本来就在对话窗口里——你让它生成了一张封面,然后发现标题颜色不对。以前你得下载→改图→重新上传→替换。现在你只需要在对话框里追加一句:

把这张封面的标题改成白色,背景加深一点

Hermes 自动带上上一轮生成的图片 URL,调用同一个 image_generate 工具,后端走编辑端点,几秒钟返回修改后的版本。

这是一个真正的「对话式设计」闭环——你不用离开聊天界面,就能完成从生成到迭代修改的完整流程。

操作指南

基础用法:传图片 + 提示词

如果你已经在之前的对话中生成了图片,直接引用就行:

用 image_generate 把刚才那张封面图的标题文字改成白色粗体

Hermes 会自动从上下文里拿到上一张图片的 URL 或路径,作为 image_url 传入。

如果你要编辑本地文件,显式指定路径:

用 image_generate 编辑 /tmp/logo.png,把橙色底色改成深蓝色

Hermes 看到 image_url 参数后,走编辑模式而非生成模式,其余流程完全相同。

场景一:改颜色——Logo 换色

假设你有一个橙色的 Logo,想改成深蓝版本适配新的品牌色。不需要打开 Figma,直接在 Hermes 里操作:

用 image_generate 编辑 /tmp/logo-orange.png:

把整个 logo 的橙色填充区域(#FF6B35)改成深蓝色(#1A237E),

保持白色文字不变,保持透明背景

Hermes 会调用 GPT Image 2 的编辑端点(或你配置的其他后端),在保留结构和文字的前提下替换颜色。响应时间通常在 30-60 秒。

场景二:去背景——产品图抠图

产品截图往往带有浏览器边框、桌面背景等干扰元素。你可以让 Hermes 帮你去掉:

用 image_generate 编辑 /tmp/screenshot.png:

移除背景,只保留中间的仪表盘面板,

背景改成纯白色,方便放进 PPT

这个操作背后的实际调用链是:图片 → base64 编码 → OpenAI images.edit 端点(或 FAL flux-2/edit)→ 返回处理后的 PNG。

▲ 后端编辑能力矩阵:v0.17 已接入的全部图像后端及其编辑端点和参考图上限▲ ▲ 后端编辑能力矩阵:v0.17 已接入的全部图像后端及其编辑端点和参考图上限

场景三:草图变渲染图

这是图生图能力最让人兴奋的用法之一。你手绘一个低保真的线框图,让 AI 帮你渲染成高保真效果:

用 image_generate 编辑 /tmp/wireframe-sketch.jpg:

把这张手绘线框图转成高保真 UI 渲染图,

深色主题,卡片式布局,现代科技感,

保留原始布局结构

这个场景对一人公司做产品原型展示特别有用——你不用先学会 Figma,手画个草图 AI 就能帮你变成能放进 PPT 给客户看的效果图。

场景四:风格迁移

用 image_generate 编辑 /tmp/team-photo.jpg:

把这张团队合照转成吉卜力动画风格,

暖色调,柔和光线,保留人物特征和站位

Krea 后端特别适合这个场景——它支持 10 张参考图片的引导生成,风格控制的自由度更高。

后端能力矩阵

不同的图像后端对编辑功能的支持程度不同。以下是 v0.17 中已接入的后端及其编辑能力:

后端编辑端点参考图上限适合场景
OpenAI (GPT Image 2)images.edit16 张Logo 改色、去背景、细节修改
xAI (Grok Imagine)/v1/images/edits取决于模型创意编辑、风格变化
Kreaimage_style_references10 张风格迁移、参考引导生成
FAL flux-2 系列/edit9 张通用编辑、草图渲染
FAL ideogram/v3/edit9 张文字渲染+编辑
FAL qwen-image/edit9 张中文场景编辑

重要:如果你的 Hermes 配置的是纯文生图后端(不支持编辑),Hermes 会返回清晰的 modality_unsupported 错误,而不是静默丢掉你的原图然后生成一张全新的。这个容错设计避免了「我以为在改图,其实 AI 给我生了一张新的」的尴尬。

如何查看你的后端是否支持编辑

在 Hermes 对话中直接问:

你当前配置的图像模型支持图生图编辑吗?

Hermes 的动态 schema 机制会读取当前模型的能力声明(capabilities().modalities),告诉你是否支持 image_url 参数。如果支持,它会明确告诉你参考图上限是多少张。

踩坑与排障

坑一:原图太大,后端拒绝

GPT Image 2 的 images.edit 端点对输入图片有尺寸限制(通常不超过 4096×4096 像素,且文件大小不超过 4MB)。如果你传了一张 8000×6000 的原始照片,会被后端拒绝。

解决:编辑前先压缩——

先把 /tmp/large-photo.jpg 缩放到 2048px 宽,保持比例,

然后用 image_generate 编辑压缩后的版本

Hermes 可以用终端工具(ImageMagick 的 convert 或 Python Pillow)先做预处理。

▲ 截图到方案全流程:从截取竞品到输出方案文档,全程不离开 Hermes 对话窗口▲ ▲ 截图到方案全流程:从截取竞品到输出方案文档,全程不离开 Hermes 对话窗口

坑二:去背景不干净,边缘有毛刺

这是 AI 编辑的已知局限——对于复杂边缘(头发丝、半透明物体),AI 的去背景效果不如专业工具(如 remove.bg 的专用模型)。如果你的图片主体和背景颜色接近,AI 可能误删主体的一部分。

解决

  • 优先选择高对比度的原图(主体和背景颜色差异大)
  • 如果第一次效果不好,在提示词里加约束:「严格保护主体边缘,不要切割主体任何部分」
  • 对于精度要求高的场景(电商产品白底图),仍建议用专用去背景 API

坑三:文字在编辑过程中变形

如果你编辑的图片上有文字(比如封面的标题),AI 在修改背景或风格时可能改变文字的清晰度甚至内容。这是因为图生图模型本质上是「看着原图重新画」,它不区分「文字」和「图案」。

解决

  • 如果需要保留原文文字不变,在提示词里强调:「保持所有文字内容不变,包括字体、大小和位置」
  • 对于封面改色这类需求,更好的做法是让 Hermes 重新生成封面(用新的颜色参数调用 make_cover.py),而不是编辑已有的封面图
  • 把「编辑已有图」和「重新生成」视为两种策略,按需选择

坑四:provider 不支持编辑,但没有报错

如果你的 Hermes 使用的是只支持文生图的模型(如某些 FAL 模型的老版本),你可能传了 image_url 但 Hermes 没有报错,而是静默忽略了原图,直接生成了一张全新的图片。

v0.17 已修复此问题——不支持编辑的模型会返回 modality_unsupported 错误。但有两个前提:

  1. 你确实升级到了 v0.17(hermes --version 确认)
  2. 后端提供商正确声明了自己的 capabilities

如果升级后仍有问题,检查你的图像插件是否更新到了兼容 v0.17 的版本。

坑五:编辑结果的「保真度」与「创意度」的权衡

图生图存在一个经典矛盾:如果 AI 过于「忠实」于原图,你可能觉得改了等于没改;如果 AI 过于「自由」,你可能觉得改得面目全非。不同的后端的默认倾向不同:

  • OpenAI GPT Image 2 偏保守——倾向于保留原图结构
  • Krea 偏创意——倾向于风格化改造
  • FAL flux-2 居中——可通过提示词精细控制

如果你的编辑结果不满意,尝试换一个后端试试。Hermes 的多后端架构让你可以在不同模型间切换,找到最适合你当前任务的。

实际工作流:从截图到方案图,全程不离开 Hermes

假设你要给客户做一份竞品分析方案,需要处理几张竞品截图。完整流程如下:

1. 截取竞品官网首页到 /tmp/comp1.png

2. 去背景,只保留核心界面:

「用 image_generate 编辑 /tmp/comp1.png,去掉浏览器边框和地址栏,

  只保留网页主体内容,白色背景」

3. 标注关键区域:

「用 image_generate 编辑上一步的结果,

  在定价区域周围画一个红色虚线框,

  并在框旁边添加文字标注『价格对比点』」

4. 统一色调,放进方案文档:

「用 image_generate 把上一步的结果转成灰度图,

  保持红色标注不变,方便打印到黑白方案里」

全程在 Hermes 对话窗口完成,不需要打开任何图像编辑软件。产出直接可以粘贴进 Word 或 PPT。

配合 Hermes 的 delegate_task(background=true)(也是 v0.17 的新功能),你甚至可以把多张图片的批量编辑丢到后台,自己继续写方案文字,编辑完成后 Hermes 自动把结果推回对话。

总结

image_generate 的图生图能力是 Hermes v0.17 中对一人公司最实用的更新之一。核心价值三点:

  1. 零切换成本——改图不需要离开 Hermes 对话窗口,编辑和生成用同一个工具
  2. 全后端覆盖——不管你用的是 OpenAI、xAI、Krea 还是 FAL,编辑能力都可用
  3. 对话式迭代——「生成→不满意→改→再改」的循环在聊天界面内完成,不需要下载-上传-替换的繁琐流程

如果说 v0.16 把 Hermes 搬上了桌面,v0.17 就是让这个桌面成为一个完整的内容生产环境——不只是写文字、写代码,现在连图片也可以在对话流里完成从创意到终稿的全过程。

升级到 v0.17 的命令

hermes update

hermes --version # 确认版本 ≥ v2026.6.19

升级后重启 Hermes,image_generate 就能处理编辑请求了。试试把你桌面上那张需要微调的 logo 丢给它——你会发现改图这件事,从此不需要离开终端。


风险提示

  • 图生图编辑依赖后端 API 的可用性。如果后端服务不稳定(如 GPT Image 2 的 503),编辑请求也会失败。此时建议等几分钟重试。
  • 不同后端的编辑质量差异较大。OpenAI 的 images.edit 在保留原图结构方面表现最好;FAL 的模型编辑速度更快但保真度略低。建议根据任务类型选择合适的后端。
  • 编辑后的图片仍可能出现 AI 生成内容的常见问题(文字乱码、结构变形)。发布到正式渠道前建议人工确认。

本文由AI辅助创作,经人工审核编辑发布

更多一人公司案例与工具,微信搜索「AI创业内参」关注我们