
AI 图像生成进入新时代:ChatGPT Images 2.0 能写菜单、画漫画了
两年前,如果让图像生成模型为墨西哥餐厅设计菜单,你大概率会得到 "enchuita""churiros""burrto""margartas" 这类凭空捏造的"新派美食词汇"。如今,ChatGPT Images 2.0 已经能生成一份几乎可以直接使用的真实菜单——当然,如果看到一道酸橘汁腌鱼标价 $13.50,你可能会对食材品质产生怀疑。
从"写错字"到"写对字":扩散模型退场,自回归模型登场
AI 图像模型长期以来在文字渲染上表现糟糕,根本原因在于其底层技术——扩散模型(diffusion models)。这类模型的工作原理是从噪声中逐步重建图像,文字在画面中占的像素微乎其微,因此很难被准确学习。
近年来,业界开始探索新的生成机制。自回归模型(autoregressive models)被寄予厚望,它通过预测"图像应该长什么样"来生成内容,运作逻辑更接近大语言模型。
至于 ChatGPT Images 2.0 究竟用了什么架构,OpenAI 在本周的一次媒体简报中拒绝回应。
核心能力:网页搜索、多图生成、自动纠错
尽管架构成谜,OpenAI 倒是说明了新模型具备"思考能力"(thinking capabilities),具体包括三项关键特性:
- 网页搜索:模型可以实时检索信息,确保生成内容与事实相符
- 一提示多图:单次输入可批量产出多张图像
- 自我纠错:生成后自动检查,降低明显错误率
这些能力让 Images 2.0 能够制作不同尺寸的营销素材,甚至生成多格漫画。整个复杂任务的完成时间也只需几分钟,而非传统意义上的漫长等待。
非拉丁语系文本理解大幅提升
Images 2.0 对日语、韩语、印地语、孟加拉语等非拉丁文字体系的文字渲染能力显著增强。不过模型的知识截止时间为 2025 年 12 月,涉及近期热点事件的提示词可能会出现准确性问题。
此外,模型支持高达 2K 分辨率输出,能够精确处理小号文字、图标、UI 元素、密集构图和精细风格约束——这些往往是图像生成模型的传统短板。
开放节奏与定价
即日起,所有 ChatGPT 和 Codex 用户均可访问 Images 2.0;付费用户可生成更高质量的作品。OpenAI 同步开放 gpt-image-2 API,定价根据输出质量和分辨率而有所不同。


评论