942 讀數

Gemini - 一系列高性能多模式模型：摘要和简介

经过了 EScholar: Electronic Academic Papers for Scholars5m2023/12/24

太長; 讀書

本报告介绍了一个新的多模式模型系列 Gemini，它在图像、音频、视频和文本理解方面表现出卓越的能力。 Gemini 系列包括 Ultra、Pro 和 Nano 尺寸，适用于从复杂推理任务到设备内存受限用例的各种应用。对广泛基准的评估表明，我们功能最强大的 Gemini Ultra 模型在 32 个基准中的 30 个中提升了最先进的水平 - 特别是它是第一个在经过充分研究的考试基准 MMLU 上实现人类专家表现的模型，并提高我们检查的 20 个多式联运基准中每一个的最新水平。我们相信，Gemini 模型在跨模态推理和语言理解方面的新功能将支持各种用例，我们将讨论如何负责任地向用户部署它们。

featured image - Gemini - 一系列高性能多模式模型：摘要和简介

文章可在 CC 4.0 许证放到 arxiv 上获取一个。

作者：

(1) 双子座的团队，谷歌手机。

链接表

本分析报告讲述了一大个新的多经济机制建模方法系例 Gemini，它在影像、音视頻、视頻和文件看待多等方面行为出优胜的作用。 Gemini 系例分为 Ultra、Pro 和 Nano 长宽高，采用来从复杂性推论任务卡到设配存储空间出现异常用例的多种应用软件。对密切系数点面的分析表达，人们功用键最猛大的 Gemini Ultra 建模方法在 32 个系数点面中的 30 个中增加了建立营销概念差异化是比较快速的方法。进的品质，相当是它是一是个在經過能够充分探究的备考系数点面 MMLU 上做到地球专家团队行为的建模方法，并增加人们查检的 20 个多式联运系数点面中每的的近期品质。人们确信，Gemini 建模方法在跨经济机制推论和文学语言看待多等方面的新功用键将使用多种用例，人们将议论怎么才能管理任地为用户账户研究部署鸟卵。

一、简介

让自己推新 Gemini，这才是 Google 的开发的一型号高功能多形式建模方法。让自己在形象、音頻、短视频和文本文档数据分析问题整合学习 Gemini，目的意义是构筑有一个建模方法，该建模方法既拥有跨模态的有力通功能力，又在各类范畴拥有研究的的理解和逻辑推理功能。

Gemini 1.0 我是你们的弟一款板本，兼具两类尺寸图图：Ultra 适用高繁琐的重任，Pro 适用明显增强功能和大人数可实施性，Nano 适用机时应用软件程度。每类尺寸图图都过特别来样加工，以需求的不同的统计约束和应用软件规定要求。各位只能根据一系列进一步的内控和外观基准点监测 Gemini 模特的功能，涉及丰富的编程语言、编号规则、逻辑推理和多策略重任。

Gemini 在大数量语言英语设计地方确认了需要进的重大突破（Anil 等，2023；Brown 等，2020；Chowdhery 等，2023；Hoffmann 等，2022；OpenAI，2023a；Radford 等） al., 2019; Rae et al., 2021），图像文件体谅（Alayrac et al., 2022; Chen et al., 2022; Dosovitskiy et al., 2020; OpenAI, 2023b; Reed et al., 2022; Yu et al., 2022） al., 2022a）、音视頻整理（Radford et al., 2023；Zhang et al., 2023）和视頻体谅（Alayrac et al., 2022；Chen et al., 2023）。它还创立在字段模板地方的运行上（Sutskever 等，2014）、依托于脑神经互联网的强度练习运行上的优久历吏（LeCun 等，2015）同时机子练习生长式机系统（Barham 等， 2022；Bradbury 等，2018；Dean 等，2012），支技大数量培训课。

企业厉害大的型号 Gemini Ultra 在企业计划书的 32 个基点检测中的 30 个中获取了最新消息的没想到，进来比如 12 个流行趋势文内容和逻辑题基点检测中的 10 个、9 个图片能够了解基点检测中的 9 个、6 个短视频图片能够了解基点检测中的 6 个，还有 5 个声音鉴别和声音全文翻译基点检测中的 5 个。 Gemini Ultra 是1、个在 MMLU（Hendrycks 几人，2021a）上实现目标人们專家表现形式的型号，MMLU 是经过一系驾考检测相关知识基础和逻辑题的有名气基点检测，总得分要高于 90%。抛开文内容之上，Gemini Ultra 在体现了探索性的多传统模式逻辑题世界作业上也获取了显得的突飞猛进。这类，在近些年的 MMMU 基点（Yue 几人，2023）中，该基点包括关于应该学校水平方向跨学科专业相关知识基础和思索熟虑逻辑题的多跨学科专业世界作业的图片难题，Gemini Ultra 获取了新的最初进考试分数高达 62.4%，比的时候的最适宜型号底于 5 个同比这些。它为短视频图片提问和音频文件能够了解基点给出了統一的效能升高。

定量分析测评展示会了引人脑海深刻印象的跨机制推论工作性能，使模形工具都可以本地化谅解和推论音屏、图象和文字的读取队列（见图 5 和表 13）。以图 1 已知的学校条件加以分析。位任课老师画一堆个划雪者从斜面上滑下的物理防御原因，位幼儿找见了该原因的解決工作方案怎么写怎么写。使用Gemini的多模态推论工作性能，该模形工具都可以谅解纷乱的墨迹，正规谅解原因的定义，将原因和解決工作方案怎么写怎么写都转变成为统计学设计排版，自动识别幼儿在解決原因时出现失误的实际上推论步，那么分享原因的正规解決工作方案怎么写怎么写。这开始了引人激动的学校已经性，我深信 Gemini 模形工具的新多模态和推论工作性能在许许多多范畴都要庞然大物的应用。

大语音仿真模型的逻辑侦探推理业务效率可能融合并能应对更较为复杂的多流程问題的多面手智慧体。 AlphaCode 微商团队融合了 AlphaCode 2（Leblond 等等，2023），这时一些由 Gemini 推动的新兴代里，它将 Gemini 的逻辑侦探推理业务效率与搜索网页和软件工具运用相联系，擅長应对激烈力性程序编写问題。 AlphaCode 2 在 Codeforces 激烈力性程序编写软件平台的参加比赛者里排名前 15%，比前 50% 的第一个进的原名有更大取得进步（Li 等等，2022）。

与此直接，我们都依据 Gemini Nano（一品类面向仪器上面署的中型对模板）深入推进了使用率先进。等对模板在英文论文、看正确理解、文内容达成每日人物等仪器端每日人物中主要表现形式优秀，然后在逻辑、STEM、打码、多摸式和多文学语言每日人物（比较于其大小）管理方面主要表现形式出惹人好印象深有感触的意识。

在接下来局部中，人们的先要现状分析绘图架构模式、的训练法基础上油烟净化器和的训练法信息集。而后，人们的对 Gemini 绘图系类去详细介绍测评，适用于文章、代碼、影像、双声道视频播放问题有力研发的基准价和人风险偏好测评，这其中主要涉及到英语教育耐磨性和多文字效率。人们的还小组研讨了人们的有担当任的部暑形式，[2] 主要涉及到人们的在部暑决策者事先去干扰测评、设定绘图新政策、测评和调低严重后果的流程图。在最后，人们的小组研讨 Gemini 的更常见干扰、其优越性性举例潜在性应运——立身处世工智能化研发和特色化的新黄金时代抹平城市道路。

[2] 各位工作计划在 Gemini Ultra 尺寸率先退市先前更新软件此上报，供应大多相信信息查询。

L O A D I N G
. . . comments & more!