ChatGPT Images 2.0 生成文字能力超预期

2026年4月22日内容管家

AI领域评论13字数 678阅读2分15秒阅读模式

AI 图像生成进入新时代：ChatGPT Images 2.0 能写菜单、画漫画了

两年前，如果让图像生成模型为墨西哥餐厅设计菜单，你大概率会得到 "enchuita""churiros""burrto""margartas" 这类凭空捏造的"新派美食词汇"。如今，ChatGPT Images 2.0 已经能生成一份几乎可以直接使用的真实菜单——当然，如果看到一道酸橘汁腌鱼标价 $13.50，你可能会对食材品质产生怀疑。

从"写错字"到"写对字"：扩散模型退场，自回归模型登场

AI 图像模型长期以来在文字渲染上表现糟糕，根本原因在于其底层技术——扩散模型（diffusion models）。这类模型的工作原理是从噪声中逐步重建图像，文字在画面中占的像素微乎其微，因此很难被准确学习。

近年来，业界开始探索新的生成机制。自回归模型（autoregressive models）被寄予厚望，它通过预测"图像应该长什么样"来生成内容，运作逻辑更接近大语言模型。

至于 ChatGPT Images 2.0 究竟用了什么架构，OpenAI 在本周的一次媒体简报中拒绝回应。

核心能力：网页搜索、多图生成、自动纠错

尽管架构成谜，OpenAI 倒是说明了新模型具备"思考能力"（thinking capabilities），具体包括三项关键特性：

网页搜索：模型可以实时检索信息，确保生成内容与事实相符
一提示多图：单次输入可批量产出多张图像
自我纠错：生成后自动检查，降低明显错误率

这些能力让 Images 2.0 能够制作不同尺寸的营销素材，甚至生成多格漫画。整个复杂任务的完成时间也只需几分钟，而非传统意义上的漫长等待。

非拉丁语系文本理解大幅提升

Images 2.0 对日语、韩语、印地语、孟加拉语等非拉丁文字体系的文字渲染能力显著增强。不过模型的知识截止时间为 2025 年 12 月，涉及近期热点事件的提示词可能会出现准确性问题。

此外，模型支持高达 2K 分辨率输出，能够精确处理小号文字、图标、UI 元素、密集构图和精细风格约束——这些往往是图像生成模型的传统短板。

开放节奏与定价

即日起，所有 ChatGPT 和 Codex 用户均可访问 Images 2.0；付费用户可生成更高质量的作品。OpenAI 同步开放 gpt-image-2 API，定价根据输出质量和分辨率而有所不同。