大家好,我是烧麦。

在独立站的运营过程中,绕不开的一个门槛就是作图,但在如今 AI 的时代,加上前段时间 Gpt 出的 image 2 模型,现在的 AI 制图已经进入了以假乱真的时代。

在 GPT 本次的生图模型更新之前,我都是使用的 Nano Banan 2 和 Pro 模型,在之前我还有 Gemni 会员的时候,我会使用 Google Flow 来完成生图,按照官方的说法,一天大概可以生成一百多张图,在实际的使用过程中,我并没有遇到生图数量的限制。

我会使用 Nano Banana 模型来完成我的产品、视频封面、博客文章、图标、LOGO 等的制作,非常好用,下图是我的一些项目:

CleanShot 2026-05-14 at 21.38.58@2x.png

但现在,比这个更加强大的生图模型 GPT 的 Image 2 的到来,更加让人感到震惊。没错,就是震惊级别。这种震惊甚至到了让我连夜放弃 Gemni,转而投向 GPT 的怀抱,因为实在是太香了。

生图流程

ChatGPT

我们先从 ChatGPT 讲起,GPT 不像 Gemini 有比较完善的生态,它不能做到一次性生成多张图片,网上有人做到过,我也做到过,但后面我让它生成多张图片,它会直接将多张图片混在一起,这让我感到有些无语,如下图:

它直接给我混在一张图片里,我都不知道该如何吐槽,只能夸他生成的图片细节不错。

但经过研究和查询攻略,我们依旧有办法,其实也算是比较简单的办法,就是需要在对话的时候打开 GPT 的代理模式,但这种方式咋说呢,你们可以看见这生成的图跟上一张图的产品完全没有任何关系,差别太大了,或许在执行这种生图方式之前,需要将生成的图的规则给定死会好一些。

CleanShot 2026-05-14 at 21.49.48@2x.png

目前 ChatGPT 除了这种方式我没找到有其他可以同时生成多张图片的方式,如果各位有方法,可以告诉我一下,真的有些难搞。

Codex

请出目前的最强大工具(个人评价),为啥呢?因为可以调用 Image 2 的图片啊,虽然说现在各大中转站都有 image 2 的 API ,且生图便宜,大概 6 分钱一张图,但是,目前的 Image 2 的 API 速率且不说大多数中转站的失误率都非常高,剩下的都非常慢,生成一张图片,要等个 2 分钟,这属实有些拉胯,我能想到的唯一方式就是调用官方的 API。

但考虑到工作量和额度,最好的方式就是购买一个 GPT 的会员,这样,我们就能直接在 Codex 中使用,如图:

CleanShot 2026-05-14 at 21.58.10@2x.png
CleanShot 2026-05-14 at 21.59.19@2x.png

当然了,生图这不是随便生成的,在 Codex 中装一个 Skill,这个是我目前自用的,也是我自己创建的,你可以直接将这个压缩包丢给 Codex,让其安装就好。

资源我都整理在百度网盘中,年度会员可以找我私聊,我会将提取码分享给你。

百度网盘 请输入提取码
百度网盘为您提供文件的网络备份、同步和分享服务。空间大、速度快、安全稳固,支持教育网加速,支持手机端。注册使用百度网盘即可享受免费存储空间

安装完之后,你就可以在对话过程中直接调用这个 Skill。然后把你的这些需求发给它,或者问它:“我现在准备生成一个产品组,需要提供什么样的东西?”它会引导你。

Skill

这个 SkIl 主要是用来制作产品详情图的,但不是那种传统电商的详情图,是我用在独立站里面的,最后会有 9 张筛选出来的固定图片,由 2 张棚拍图、5 张场景图、2 张规格图组成,另外,在制作的过程中,可以根据你现有产品的 SKU,来生成不同 SKU 所使用的分类头图。

但在使用这个 Skill 的开始对话中,也需要你提交很多跟产品相关的图片,例如最好包含产品的正面、背面、侧面、顶部、底部、45 度角,以及关键结构的近景。比如接口、孔位、螺丝、卡扣、折叠状态、展开状态、安装后的样子等等,总之,是越详细越好,它会自己拆解产品并建模,然后生成 3 张图:结构基准、安装关系、尺寸接口,用来为后续的 9 张图奠定生成基础,不会产生图片错误。

如果你没有购买样品回来的话,可以去翻一翻这个产品目前用户评论里的照片。多翻一点,然后发给 AI 也可以,各个角度都收集一下,AI 它自己会在后台进行标注,当然,建议多收集一些。

在生成的过程中,会多生成一些图片,供你备选使用。

Skill 理念

这个 SKU 的配置脱离了传统的电商详情图,没有那么多文字,由:

  • 两张干净的暖灰色底图为背景生成的棚拍图,这个的存在是用来做产品本体的展示。
  • 五张场景图:这个场景图的 SKU 是以“杂志拍摄”为理念。并不注重产品在装配时是什么样的概念,而是更加注重使用产品那一刻的感觉,也就是“使用时刻”
  • 规格图:是一种类似于产品拆解的那种概念,线条感,没有传统规格图那么传统。

我们的产品详情图,比起介绍产品的各个功能及其优势,我们更加注重产品融入生活的那种感觉,即人们在使用产品那一刻的感受。

所以,我们的整体风格在生成场景时,会采取大胆的裁切。我们不再以产品主体为核心观念,而是更多地展现景色与产品融为一体的感觉,让用户在视觉上产生溢价,不会将我们与廉价的厂图放在一起作为比较。

在生成的过程中,你可以自由地去调整自己的 Logo,尤其是对于那些目前手上还没有现货,想要去做一些素材出来的朋友,非常合适,当然,目前的 Skill 还处在一个初期的版本,在整体的生成上可能并不是百分之百如人愿。这个 Skill 也会随着我在实践过程中的不断尝试,进行持续的优化和更新,感兴趣的伙伴可以保持关注。

CleanShot 2026-05-14 at 22.35.20@2x.png

Gemini

至于 Gemini ,我就不多说了,因为 Gemini 目前还不支持这个 Skill。虽然在 Gemini 的 AI 界面里也可以生成,但速度比较慢,我还是比较习惯在 Google Flow 里面去生成图片,方便一次性多抽卡。

在 Gemini 里面去抽卡的时候,我们也可以先在 ChatGPT 里面输入我们 Skill 里面的 Markdown 文档,告诉它大概的生成风格,然后让它给出各个图片的 prompt,你再放到 Google Flow 里面去生成,差不多是这个流程。

https://labs.google/fx/zh/tools/flow

结尾

当然了,除了 ChatGPT 、 Gemini,这些我们经常在网上看到的。还有 ComfyUI 的工作流(比如 Flux),或者最近的 MiniMax hub,其实这些工具都大差不差。

如果你要说接下来我想要在生图上面更方便、更快一点,或者在复杂性稍微高一点的情况下,我可能会考虑去看看 MiniMax hub,了解一下它到底是什么样的情况。

当然,目前我还没有接触过。因为我觉得目前生图的话,ChatGPT 的 image 2 已经够用了,不过有研究精神的伙伴可以先去看一看 MiniMax Hub。听说它可以去调用像 Imagen 2 和 Nano Banana 的模型。

如果它真的可以全部调用,并且可以使用自己的 API 的话,我觉得挺好的,因为省钱的同时可以用多个模型进行图片生成工作,但是不知道里面可不可以去使用 Skill 这个东西,

但是我们在使用工具的时候,一定要记得我们的工具是为了工作而生的。不要在工具上面浪费太多时间,本来工具这个东西就是用来提效的,用的顺手就行。

最后祝大家今天依旧幸福、开心、快乐,祝生意一切顺利,祝发财!