Sora:OpenAI新一代文本生成视频AI模型

吾爱分享 AI领域评论22字数 2481阅读8分16秒阅读模式
Sora:OpenAI新一代文本生成视频AI模型

人工智能是当今科技领域最前沿的研究方向之一,它有着无限的潜力和可能性,可以为数十亿人的生活带来更多的便利和帮助。OpenAI 是一个致力于创造和推广友善的人工智能的研究机构,它一直在不断地探索和创新,推出了一系列的人工智能模型,如 GPT-3、DALL-E、CLIP、Codex 等。这些模型都是基于 Transformer 和深度学习的技术,可以处理多种类型的数据,如文本、图像、视频、音频和代码,从而实现多模态的理解和生成。

最近,OpenAI 又宣布了其下一代的人工智能模型:Sora。这个模型在多模态的长文本理解方面取得了突破性的进展。Sora 基于先进的混合专家(MoE)架构,提高了模型的效率和性能。Sora Pro 是该系列的第一个模型,它可以处理多达 100 万个令牌的上下文窗口,这是目前任何大规模基础模型所能达到的最长的上下文窗口。文章源自 吾爱分享 吾爱分享网-https://www.wuaishare.cn/3754.html

提示词:一位时尚的女人走在东京的街道上,街道上到处都是温暖的发光霓虹灯和动画城市标志。她身穿黑色皮夹克,红色长裙,黑色靴子,背着一个黑色钱包。她戴着墨镜,涂着红色口红。她自信而随意地走路。街道潮湿而反光,营造出五颜六色的灯光的镜面效果。许多行人四处走动。(Prompt: A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.)

Sora Pro 的长上下文窗口

长上下文窗口是指模型能够处理和分析大量的信息,而不是只能处理有限的信息。一个模型的“上下文窗口”是由“令牌”(tokens)组成的,令牌是用于处理信息的基本单元,它可以是整个或部分的单词、图像、视频、音频或代码。一个模型的上下文窗口越大,它能够一次性接收和处理的信息就越多,从而使得它的输出更加一致、相关和有用。文章源自 吾爱分享 吾爱分享网-https://www.wuaishare.cn/3754.html

通过一系列的机器学习创新,OpenAI 将 Sora Pro 的上下文窗口容量从 Gemini 1.0 的 32,000 个令牌提高到了 128,000 个令牌,甚至可以达到 100 万个令牌,这是目前任何一个大规模基础模型都没有达到的水平。这意味着 Sora Pro 可以一次性处理大量的数据,包括 1 小时的视频、11 小时的音频、超过 30,000 行的代码或者超过 700,000 个单词的文本。Sora Pro 可以无缝地分析、分类和总结大量的内容,例如,当给定一个 402 页的阿波罗 11 号登月任务的记录,它可以推理出文档中的对话、事件和细节。文章源自 吾爱分享 吾爱分享网-https://www.wuaishare.cn/3754.html

Sora Pro 的文本到视频的能力

Sora Pro 不仅可以理解长文本,还可以将文本转换为视频。这是一个非常有创意和有挑战性的任务,因为它需要模型能够根据文本的内容和风格,生成逼真和想象力丰富的场景。Sora Pro 可以根据用户的文本提示,生成高清的视频,最长可以达到一分钟,同时保持视觉质量和用户的要求。文章源自 吾爱分享 吾爱分享网-https://www.wuaishare.cn/3754.html

Sora Pro 可以处理不同的主题和风格,如历史、科幻、动画、纪录片等。它可以根据文本的细节,生成相应的物体、人物、动作、背景、光照等。它还可以根据文本的情感,生成相应的氛围、色调、音乐等。例如,当给定一个关于时尚女性在东京街头行走的文本提示时,它可以生成一个充满霓虹灯和动态广告牌的夜晚场景,展示女性的服装、姿态、表情等。文章源自 吾爱分享 吾爱分享网-https://www.wuaishare.cn/3754.html

Sora Pro 的评估和测试

OpenAI 对 Sora Pro 进行了全面的评估和测试,以检验其性能和质量。它使用了多个评测指标,如准确性、一致性、多样性、创造性等,来比较 Sora Pro 和其他的人工智能模型,如 Gemini 1.0 Pro 和 Gemini 1.0 Ultra。结果显示,Sora Pro 在多个评测指标上都超过了 Gemini 1.0 Pro 的 87%,并且与 Gemini 1.0 Ultra 在相同的评测指标上表现得大致相同。Sora Pro 即使在上下文窗口增大时也能保持高水平的性能。在针对长上下文的“大海捞针”(Needle In A Haystack,NIAH)评测中,模型在长达 100 万个令牌的数据块中找到了 99% 的嵌入文本。文章源自 吾爱分享 吾爱分享网-https://www.wuaishare.cn/3754.html

Sora Pro 还展示了令人印象深刻的“在上下文中学习”(in-context learning)的技能,这意味着它可以从一个长的提示中学习一项新的技能,而不需要额外的微调。OpenAI 在“从一本书中进行机器翻译”(Machine Translation from One Book,MTOB)的评测中测试了这项技能,这个评测展示了模型如何从它从未见过的信息中学习。当给定一本关于卡拉曼语(Kalamang)的语法手册时,卡拉曼语是一种只有不到 200 名说话者的语言,模型可以从同样的内容中学习如何将英语翻译成卡拉曼语,其水平与人类相当。文章源自 吾爱分享 吾爱分享网-https://www.wuaishare.cn/3754.html

Sora Pro 的安全和责任

OpenAI 在开发和发布 Sora Pro 时,遵循了其人工智能原则和严格的安全政策,确保模型经过了广泛的道德和安全测试,然后将这些研究成果整合到其治理流程和模型开发和评测中,以不断地改进其人工智能系统。OpenAI 也意识到 Sora Pro 可能带来的一些潜在的风险和挑战,如信息的真实性、版权的保护、隐私的保障等,因此它采取了一些措施,如限制模型的访问、添加水印和声明、提供反馈和报告渠道等,以减少模型的滥用和误用。文章源自 吾爱分享 吾爱分享网-https://www.wuaishare.cn/3754.html

OpenAI 目前只向开发者和企业客户提供了 Sora Pro 的有限预览,通过 AI Studio 和 Vertex AI。它计划在未来向更广泛的用户提供 Sora Pro 的服务,同时也在不断地改进和优化模型的性能和质量。OpenAI 希望 Sora Pro 能够为人类带来更多的便利和帮助,同时也尊重和保护人类的价值和利益。文章源自 吾爱分享 吾爱分享网-https://www.wuaishare.cn/3754.html

文章源自 吾爱分享 吾爱分享网-https://www.wuaishare.cn/3754.html

吾爱分享

发表评论