Sora：OpenAI新一代文本生成视频AI模型

2024年2月17日吾爱分享

AI领域评论22字数 1684阅读5分36秒阅读模式

人工智能是当今科技领域最前沿的研究方向之一，它有着无限的潜力和可能性，可以为数十亿人的生活带来更多的便利和帮助。OpenAI 是一个致力于创造和推广友善的人工智能的研究机构，它一直在不断地探索和创新，推出了一系列的人工智能模型，如 GPT-3、DALL-E、CLIP、Codex 等。这些模型都是基于 Transformer 和深度学习的技术，可以处理多种类型的数据，如文本、图像、视频、音频和代码，从而实现多模态的理解和生成。

最近，OpenAI 又宣布了其下一代的人工智能模型：Sora。这个模型在多模态的长文本理解方面取得了突破性的进展。Sora 基于先进的混合专家（MoE）架构，提高了模型的效率和性能。Sora Pro 是该系列的第一个模型，它可以处理多达 100 万个令牌的上下文窗口，这是目前任何大规模基础模型所能达到的最长的上下文窗口。

提示词：一位时尚的女人走在东京的街道上，街道上到处都是温暖的发光霓虹灯和动画城市标志。她身穿黑色皮夹克，红色长裙，黑色靴子，背着一个黑色钱包。她戴着墨镜，涂着红色口红。她自信而随意地走路。街道潮湿而反光，营造出五颜六色的灯光的镜面效果。许多行人四处走动。（Prompt: A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.）

Sora Pro 的长上下文窗口

长上下文窗口是指模型能够处理和分析大量的信息，而不是只能处理有限的信息。一个模型的“上下文窗口”是由“令牌”（tokens）组成的，令牌是用于处理信息的基本单元，它可以是整个或部分的单词、图像、视频、音频或代码。一个模型的上下文窗口越大，它能够一次性接收和处理的信息就越多，从而使得它的输出更加一致、相关和有用。

通过一系列的机器学习创新，OpenAI 将 Sora Pro 的上下文窗口容量从 Gemini 1.0 的 32,000 个令牌提高到了 128,000 个令牌，甚至可以达到 100 万个令牌，这是目前任何一个大规模基础模型都没有达到的水平。这意味着 Sora Pro 可以一次性处理大量的数据，包括 1 小时的视频、11 小时的音频、超过 30,000 行的代码或者超过 700,000 个单词的文本。Sora Pro 可以无缝地分析、分类和总结大量的内容，例如，当给定一个 402 页的阿波罗 11 号登月任务的记录，它可以推理出文档中的对话、事件和细节。

Sora Pro 的文本到视频的能力

Sora Pro 不仅可以理解长文本，还可以将文本转换为视频。这是一个非常有创意和有挑战性的任务，因为它需要模型能够根据文本的内容和风格，生成逼真和想象力丰富的场景。Sora Pro 可以根据用户的文本提示，生成高清的视频，最长可以达到一分钟，同时保持视觉质量和用户的要求。

Sora Pro 可以处理不同的主题和风格，如历史、科幻、动画、纪录片等。它可以根据文本的细节，生成相应的物体、人物、动作、背景、光照等。它还可以根据文本的情感，生成相应的氛围、色调、音乐等。例如，当给定一个关于时尚女性在东京街头行走的文本提示时，它可以生成一个充满霓虹灯和动态广告牌的夜晚场景，展示女性的服装、姿态、表情等。

Sora Pro 的评估和测试

OpenAI 对 Sora Pro 进行了全面的评估和测试，以检验其性能和质量。它使用了多个评测指标，如准确性、一致性、多样性、创造性等，来比较 Sora Pro 和其他的人工智能模型，如 Gemini 1.0 Pro 和 Gemini 1.0 Ultra。结果显示，Sora Pro 在多个评测指标上都超过了 Gemini 1.0 Pro 的 87%，并且与 Gemini 1.0 Ultra 在相同的评测指标上表现得大致相同。Sora Pro 即使在上下文窗口增大时也能保持高水平的性能。在针对长上下文的“大海捞针”（Needle In A Haystack，NIAH）评测中，模型在长达 100 万个令牌的数据块中找到了 99% 的嵌入文本。

Sora Pro 还展示了令人印象深刻的“在上下文中学习”（in-context learning）的技能，这意味着它可以从一个长的提示中学习一项新的技能，而不需要额外的微调。OpenAI 在“从一本书中进行机器翻译”（Machine Translation from One Book，MTOB）的评测中测试了这项技能，这个评测展示了模型如何从它从未见过的信息中学习。当给定一本关于卡拉曼语（Kalamang）的语法手册时，卡拉曼语是一种只有不到 200 名说话者的语言，模型可以从同样的内容中学习如何将英语翻译成卡拉曼语，其水平与人类相当。

Sora Pro 的安全和责任

OpenAI 在开发和发布 Sora Pro 时，遵循了其人工智能原则和严格的安全政策，确保模型经过了广泛的道德和安全测试，然后将这些研究成果整合到其治理流程和模型开发和评测中，以不断地改进其人工智能系统。OpenAI 也意识到 Sora Pro 可能带来的一些潜在的风险和挑战，如信息的真实性、版权的保护、隐私的保障等，因此它采取了一些措施，如限制模型的访问、添加水印和声明、提供反馈和报告渠道等，以减少模型的滥用和误用。

OpenAI 目前只向开发者和企业客户提供了 Sora Pro 的有限预览，通过 AI Studio 和 Vertex AI。它计划在未来向更广泛的用户提供 Sora Pro 的服务，同时也在不断地改进和优化模型的性能和质量。OpenAI 希望 Sora Pro 能够为人类带来更多的便利和帮助，同时也尊重和保护人类的价值和利益。

Sora Pro 的长上下文窗口

Sora Pro 的文本到视频的能力

Sora Pro 的评估和测试

Sora Pro 的安全和责任

发表评论