Gemini 1.5：谷歌发布了下一代人工智能模型

吾爱分享

119
文章

1
评论

2024年2月17日 15:19:25AI领域评论2字数 2013阅读6分42秒阅读模式

人工智能是当今科技领域最前沿的研究方向之一，它有着无限的潜力和可能性，可以为数十亿人的生活带来更多的便利和帮助。谷歌作为人工智能的领导者和创新者，一直在不断地推进其人工智能模型的发展和改进，以提高其性能和效率，以及扩展其应用范围和功能。

Gemini 1.0：谷歌的首个多模态人工智能模型文章源自吾爱分享吾爱分享网-https://www.wuaishare.cn/3735.html

去年，谷歌发布了其首个多模态人工智能模型——Gemini 1.0，这是一个能够处理文本、图像、视频、音频和代码等多种类型的数据的模型，它可以根据用户的输入生成各种有用的输出，例如摘要、翻译、代码、故事、歌曲等。Gemini 1.0是一个基于Transformer的模型，它使用了大量的数据和计算资源来训练和运行，它的性能在多个评测指标上都达到了很高的水平，甚至超过了人类的水平。文章源自吾爱分享吾爱分享网-https://www.wuaishare.cn/3735.html

Gemini 1.5：谷歌的下一代人工智能模型文章源自吾爱分享吾爱分享网-https://www.wuaishare.cn/3735.html

今年，谷歌又发布了其下一代人工智能模型——Gemini 1.5，这是一个在Gemini 1.0的基础上进行了重大改进和创新的模型，它使用了一种新的混合专家（Mixture-of-Experts，MoE）的架构，它将一个大的神经网络分成了多个小的“专家”神经网络，根据输入的类型，它可以动态地选择激活最相关的专家路径，这样可以大大提高模型的效率和质量。Gemini 1.5的第一个版本是Gemini 1.5 Pro，它是一个中等规模的多模态模型，它在多种任务上的性能与Gemini 1.0 Ultra（谷歌最大的模型）相当，而且使用了更少的计算资源。Gemini 1.5 Pro还引入了一个突破性的实验性功能——长上下文理解（long-context understanding）。文章源自吾爱分享吾爱分享网-https://www.wuaishare.cn/3735.html

长上下文理解：Gemini 1.5的核心优势文章源自吾爱分享吾爱分享网-https://www.wuaishare.cn/3735.html

长上下文理解是指模型能够处理和分析大量的信息，而不是只能处理有限的信息。一个模型的“上下文窗口”是由“令牌”（tokens）组成的，令牌是用于处理信息的基本单元，它可以是整个或部分的单词、图像、视频、音频或代码。一个模型的上下文窗口越大，它能够一次性接收和处理的信息就越多，从而使得它的输出更加一致、相关和有用。通过一系列的机器学习创新，谷歌将Gemini 1.5 Pro的上下文窗口容量从Gemini 1.0的32,000个令牌提高到了128,000个令牌，甚至可以达到100万个令牌，这是目前任何一个大规模基础模型都没有达到的水平。这意味着Gemini 1.5 Pro可以一次性处理大量的数据，包括1小时的视频、11小时的音频、超过30,000行的代码或者超过700,000个单词的文本。Gemini 1.5 Pro可以无缝地分析、分类和总结大量的内容，例如，当给定一个402页的阿波罗11号登月任务的记录，它可以推理出文档中的对话、事件和细节。文章源自吾爱分享吾爱分享网-https://www.wuaishare.cn/3735.html

Gemini 1.5 Pro可以理解、推理和识别出402页的阿波罗11号登月任务记录中的细节。文章源自吾爱分享吾爱分享网-https://www.wuaishare.cn/3735.html

Gemini 1.5 Pro还可以在不同的模态上执行高度复杂的理解和推理任务，包括视频。例如，当给定一个44分钟的无声的巴斯特·基顿电影，模型可以准确地分析出各种情节和事件，甚至可以推理出电影中容易被忽略的小细节。文章源自吾爱分享吾爱分享网-https://www.wuaishare.cn/3735.html

Gemini 1.5 Pro可以根据一幅简单的线条图识别出一个44分钟的无声的巴斯特·基顿电影中的一个场景。文章源自吾爱分享吾爱分享网-https://www.wuaishare.cn/3735.html

Gemini 1.5 Pro还可以在更长的代码块上执行更相关的问题解决任务。当给定一个包含超过100,000行代码的提示，它可以更好地在示例之间进行推理，提出有用的修改和解释，以及说明代码的不同部分是如何工作的。文章源自吾爱分享吾爱分享网-https://www.wuaishare.cn/3735.html

Gemini 1.5 Pro可以在超过100,000行的代码上进行推理，给出有用的解决方案、修改和解释。

当在一个全面的文本、代码、图像、音频和视频评测面板上进行测试时，Gemini 1.5 Pro在开发我们的大型语言模型（LLMs）所使用的评测指标上超过了Gemini 1.0 Pro的87%，并且与Gemini 1.0 Ultra在相同的评测指标上表现得大致相同。Gemini 1.5 Pro即使在上下文窗口增大时也能保持高水平的性能。在针对长上下文的“大海捞针”（Needle In A Haystack，NIAH）评测中，模型在长达100万个令牌的数据块中找到了99%的嵌入文本。Gemini 1.5 Pro还展示了令人印象深刻的“在上下文中学习”（in-context learning）的技能，这意味着它可以从一个长的提示中学习一项新的技能，而不需要额外的微调。我们在“从一本书中进行机器翻译”（Machine Translation from One Book，MTOB）的评测中测试了这项技能，这个评测展示了模型如何从它从未见过的信息中学习。当给定一本关于卡拉曼语（Kalamang）的语法手册时，卡拉曼语是一种只有不到200名说话者的语言，模型可以从同样的内容中学习如何将英语翻译成卡拉曼语，其水平与人类相当。

Gemini 1.5 Pro可以从一本关于卡拉曼语的语法手册中学习如何将英语翻译成卡拉曼语。

发表评论