ChatGPT Images 2.0 生成文字能力超预期

内容管家 AI领域评论0字数 678阅读2分15秒阅读模式
ChatGPT Images 2.0 生成文字能力超预期

AI 图像生成进入新时代:ChatGPT Images 2.0 能写菜单、画漫画了

两年前,如果让图像生成模型为墨西哥餐厅设计菜单,你大概率会得到 "enchuita""churiros""burrto""margartas" 这类凭空捏造的"新派美食词汇"。如今,ChatGPT Images 2.0 已经能生成一份几乎可以直接使用的真实菜单——当然,如果看到一道酸橘汁腌鱼标价 $13.50,你可能会对食材品质产生怀疑。

从"写错字"到"写对字":扩散模型退场,自回归模型登场

AI 图像模型长期以来在文字渲染上表现糟糕,根本原因在于其底层技术——扩散模型(diffusion models)。这类模型的工作原理是从噪声中逐步重建图像,文字在画面中占的像素微乎其微,因此很难被准确学习。

近年来,业界开始探索新的生成机制。自回归模型(autoregressive models)被寄予厚望,它通过预测"图像应该长什么样"来生成内容,运作逻辑更接近大语言模型。

至于 ChatGPT Images 2.0 究竟用了什么架构,OpenAI 在本周的一次媒体简报中拒绝回应。

核心能力:网页搜索、多图生成、自动纠错

尽管架构成谜,OpenAI 倒是说明了新模型具备"思考能力"(thinking capabilities),具体包括三项关键特性:

  • 网页搜索:模型可以实时检索信息,确保生成内容与事实相符
  • 一提示多图:单次输入可批量产出多张图像
  • 自我纠错:生成后自动检查,降低明显错误率

这些能力让 Images 2.0 能够制作不同尺寸的营销素材,甚至生成多格漫画。整个复杂任务的完成时间也只需几分钟,而非传统意义上的漫长等待。

非拉丁语系文本理解大幅提升

Images 2.0 对日语、韩语、印地语、孟加拉语等非拉丁文字体系的文字渲染能力显著增强。不过模型的知识截止时间为 2025 年 12 月,涉及近期热点事件的提示词可能会出现准确性问题。

此外,模型支持高达 2K 分辨率输出,能够精确处理小号文字、图标、UI 元素、密集构图和精细风格约束——这些往往是图像生成模型的传统短板。

开放节奏与定价

即日起,所有 ChatGPT 和 Codex 用户均可访问 Images 2.0;付费用户可生成更高质量的作品。OpenAI 同步开放 gpt-image-2 API,定价根据输出质量和分辨率而有所不同。

延伸阅读

 
内容管家

发表评论