谷歌和 Alphabet 首席执行官桑达尔·皮查伊 (Sundar Pichai) 的笔记:
每一次技术变革都是推进科学发现、加速人类进步和改善生活的机会。我相信,我们现在看到的人工智能转型将是我们有生之年最深刻的,远远大于之前向移动或网络的转变。人工智能有可能为世界各地的人们创造机会——从日常到非凡。它将带来新的创新和经济进步浪潮,并以前所未有的规模推动知识、学习、创造力和生产力。
这就是让我兴奋的地方:有机会让人工智能对世界各地的每个人有所帮助。
作为一家以人工智能为先的公司,近八年来,我们的进步步伐只会加快:数百万人现在正在我们的产品中使用生成式人工智能来完成他们一年前甚至无法完成的事情,从寻找更复杂问题的答案到使用新工具进行协作和创造。与此同时,开发人员正在使用我们的模型和基础设施来构建新的生成式 AI 应用程序,世界各地的初创公司和企业都在使用我们的 AI 工具发展壮大。
这是不可思议的势头,然而,我们才刚刚开始触及可能性的表面。
我们正在大胆而负责任地开展这项工作。这意味着我们的研究要雄心勃勃,追求能够为人类和社会带来巨大利益的能力,同时建立保障措施,并与政府和专家合作,以应对人工智能变得更强大的风险。我们将继续投资于最好的工具、基础模型和基础设施,并在我们的 AI 原则的指导下将它们带到我们的产品和其他产品中。
现在,我们正在与Gemini一起迈出下一步,这是我们迄今为止最强大和最通用的模型,在许多领先的基准测试中具有最先进的性能。我们的第一个版本Gemini 1.0针对不同的尺寸进行了优化:Ultra、Pro 和 Nano。这些是双子座时代的第一批模型,也是我们今年早些时候成立 Google DeepMind 时愿景的首次实现。这个新的模型时代代表了我们作为一家公司所承担的最大科学和工程努力之一。我对未来的发展感到非常兴奋,也对Gemini将为世界各地的人们带来的机会感到兴奋。
– 桑达尔
双子座简介
作者:Google DeepMind首席执行官兼联合创始人Demis Hassabis,代表Gemini团队
人工智能一直是我一生工作的重点,就像我的许多研究同事一样。自从十几岁时为电脑游戏编写人工智能以来,在我作为神经科学研究人员试图了解大脑运作的这些年里,我一直相信,如果我们能够制造出更智能的机器,我们就可以利用它们以令人难以置信的方式造福人类。
这一由人工智能赋予世界负责任的承诺继续推动着我们在 Google DeepMind 的工作。很长一段时间以来,我们一直希望构建新一代的人工智能模型,其灵感来自人们理解世界和与世界互动的方式。人工智能感觉不像是一个智能软件,而更像是有用和直观的东西——一个专家助手或助手。
今天,我们离这个愿景又近了一步,因为我们推出了 Gemini,这是我们有史以来最强大、最通用的模型。
Gemini 是 Google 各团队(包括我们在 Google 研究院的同事)大规模协作的结果。它是从头开始构建的多模态,这意味着它可以概括和无缝地理解、操作和组合不同类型的信息,包括文本、代码、音频、图像和视频。
Gemini 也是我们迄今为止最灵活的型号——能够在从数据中心到移动设备的所有设备上高效运行。其最先进的功能将显著增强开发人员和企业客户使用 AI 构建和扩展的方式。
我们针对三种不同的尺寸优化了第一个版本 Gemini 1.0:
- Gemini Ultra — 我们最大、最强大的型号,适用于高度复杂的任务。
- Gemini Pro — 我们用于扩展各种任务的最佳型号。
- Gemini Nano — 我们最高效的设备端任务模型。
最先进的性能
我们一直在严格测试我们的双子座模型,并评估它们在各种任务中的表现。从自然图像、音频和视频理解到数学推理,Gemini Ultra 在大型语言模型 (LLM) 研发中使用的 30 个广泛使用的学术基准中的 32 个方面,其性能超过了当前最先进的结果。
Gemini Ultra 的得分为 90.0%,是第一个在 MMLU(大规模多任务语言理解)方面优于人类专家的模型,MMLU 使用数学、物理、历史、法律、医学和伦理学等 57 个科目的组合来测试世界知识和解决问题的能力。
我们对 MMLU 的新基准方法使 Gemini 能够在回答困难问题之前使用其推理能力进行更仔细的思考,从而比仅使用其第一印象有显着改进。
Gemini surpasses state-of-the-art performance on a range of benchmarks including text and coding.
Gemini Ultra also achieves a state-of-the-art score of 59.4% on the new MMMU benchmark, which consists of multimodal tasks spanning different domains requiring deliberate reasoning.
With the image benchmarks we tested, Gemini Ultra outperformed previous state-of-the-art models, without assistance from optical character recognition (OCR) systems that extract text from images for further processing. These benchmarks highlight Gemini’s native multimodality and indicate early signs of Gemini’s more complex reasoning abilities.
See more details in our Gemini technical report.
Gemini 在一系列多模式基准测试中超越了最先进的性能。
下一代功能
到目前为止,创建多模态模型的标准方法包括为不同的模态训练单独的组件,然后将它们拼接在一起以粗略地模仿其中的一些功能。这些模型有时可以很好地执行某些任务,例如描述图像,但在更概念化和复杂的推理方面会遇到困难。
我们将 Gemini 设计为原生多模态,从一开始就对不同的模态进行预训练。然后,我们用额外的多模态数据对其进行了微调,以进一步完善其有效性。这有助于 Gemini 从头开始无缝地理解和推理各种输入,远远优于现有的多模态模型——而且它的功能在几乎每个领域都是最先进的。
详细了解 Gemini 的功能并了解其工作原理。
复杂的推理
Gemini 1.0 复杂的多模态推理功能可以帮助理解复杂的书面和视觉信息。这使得它在发现在大量数据中难以辨别的知识方面具有独特的技能。
它通过阅读、过滤和理解信息从数十万份文件中提取见解的卓越能力将有助于在从科学到金融的许多领域以数字速度实现新的突破。
了解文本、图像、音频等
Gemini 1.0 经过训练,可以同时识别和理解文本、图像、音频等,因此它可以更好地理解细微的信息,并可以回答与复杂主题相关的问题。这使得它特别擅长解释数学和物理等复杂学科的推理。
高级编码
我们的第一个 Gemini 版本可以理解、解释和生成世界上最流行的编程语言(如 Python、Java、C++ 和 Go)的高质量代码。它能够跨语言工作并推理复杂信息,使其成为世界上领先的编码基础模型之一。
Gemini Ultra 在多个编码基准测试中表现出色,包括 HumanEval(用于评估编码任务性能的重要行业标准)和 Natural2Code(我们的内部保留数据集),它使用作者生成的来源而不是基于 Web 的信息。
Gemini 也可以用作更高级编码系统的引擎。两年前,我们推出了 AlphaCode,这是第一个在编程竞赛中达到竞技性能水平的 AI 代码生成系统。
使用Gemini的专用版本,我们创建了一个更高级的代码生成系统AlphaCode 2,它擅长解决竞争性编程问题,这些问题超越了编码,涉及复杂的数学和理论计算机科学。
在与原始 AlphaCode 相同的平台上进行评估时,AlphaCode 2 显示出巨大的改进,解决了近两倍的问题,我们估计它的表现优于 85% 的比赛参与者——高于 AlphaCode 的近 50%。当程序员通过定义代码示例要遵循的某些属性来与 AlphaCode 2 协作时,它的性能会更好。
我们很高兴程序员能够越来越多地使用功能强大的 AI 模型作为协作工具,帮助他们推理问题、提出代码设计并协助实施,这样他们就可以更快地发布应用程序并设计更好的服务。
如需了解更多详情,请参阅我们的 AlphaCode 2 技术报告。
更可靠、更可扩展、更高效
我们使用 Google 内部设计的张量处理单元 (TPU) v1 和 v0e 在 AI 优化的基础架构上大规模训练了 Gemini 4.5。我们将其设计为我们最可靠、最可扩展的训练模型,也是我们最高效的服务模型。
在 TPU 上,Gemini 的运行速度明显快于早期、更小、功能更差的型号。这些定制设计的 AI 加速器一直是 Google 人工智能产品的核心,这些产品为搜索、YouTube、Gmail、Google 地图、Google Play 和 Android 等数十亿用户提供服务。它们还使世界各地的公司能够经济高效地训练大规模人工智能模型。
今天,我们宣布推出迄今为止功能最强大、最高效、可扩展性最强的 TPU 系统 Cloud TPU v5p,专为训练尖端 AI 模型而设计。下一代 TPU 将加速 Gemini 的发展,帮助开发人员和企业客户更快地训练大规模生成式 AI 模型,从而使新产品和功能更快地到达客户手中。
Google 数据中心的一排 Cloud TPU v5p AI 加速器超级计算机。
以责任和安全为核心
在 Google,我们致力于在我们所做的每一件事中推进大胆而负责任的 AI。根据 Google 的 AI 原则和我们产品中强大的安全政策,我们将添加新的保护措施,以应对 Gemini 的多模式功能。在开发的每个阶段,我们都在考虑潜在风险,并努力测试和减轻这些风险。
Gemini 拥有迄今为止所有 Google AI 模型中最全面的安全性评估,包括偏见和毒性。我们对网络攻击、说服力和自主性等潜在风险领域进行了新颖的研究,并应用了 Google Research 一流的对抗性测试技术,帮助在部署 Gemini 之前识别关键安全问题。
为了识别内部评估方法中的盲点,我们正在与多元化的外部专家和合作伙伴合作,针对一系列问题对我们的模型进行压力测试。
为了在 Gemini 的训练阶段诊断内容安全问题并确保其输出符合我们的政策,我们使用了 Real Toxicity Prompts 等基准测试,这是一组 100,000 个不同程度的毒性提示,由艾伦人工智能研究所的专家开发。有关这项工作的更多细节即将公布。
例如,为了限制伤害,我们建立了专门的安全分类器来识别、标记和分类涉及暴力或负面刻板印象的内容。结合强大的过滤器,这种分层方法旨在使 Gemini 更安全、更包容每个人。此外,我们将继续解决模型的已知挑战,例如事实性、基础、归因和确证。
责任和安全始终是我们模型开发和部署的核心。这是一项需要协作构建的长期承诺,因此我们正在与行业和更广泛的生态系统合作,通过 MLCommons、前沿模型论坛及其 AI 安全基金以及我们的安全 AI 框架 (SAIF) 等组织定义最佳实践并设定安全和安保基准,旨在帮助减轻公共和私营部门人工智能系统特有的安全风险。在开发Gemini的过程中,我们将继续与世界各地的研究人员、政府和民间社会团体合作。
让 Gemini 向世界开放
Gemini 1.0 现已在一系列产品和平台上推出:
Google 产品中的 Gemini Pro
我们将通过 Google 产品将 Gemini 带给数十亿人。
从今天开始,Bard 将使用 Gemini Pro 的微调版本进行更高级的推理、计划、理解等。这是 Bard 自推出以来最大的升级。它将在 170 多个国家和地区提供英语版本,我们计划在不久的将来扩展到不同的模式并支持新的语言和地点。
我们还将 Gemini 引入 Pixel。Pixel 8 Pro 是第一款搭载 Gemini Nano 的智能手机,它支持“录音机”应用中的“总结”等新功能,并在 Gboard 的智能回复中推出,从 WhatsApp 开始,明年将推出更多消息应用。
在接下来的几个月里,Gemini 将出现在我们的更多产品和服务中,如搜索、广告、Chrome 和 Duet AI。
我们已经开始在搜索中试用 Gemini,它使我们的搜索生成体验 (SGE) 对用户来说更快,在美国,英语延迟减少了 40%,同时质量也得到了提高。
与双子座一起构建
从 13 月 <> 日开始,开发者和企业客户可以通过 Google AI Studio 或 Google Cloud Vertex AI 中的 Gemini API 访问 Gemini Pro。
Google AI Studio 是一款基于 Web 的免费开发者工具,可通过 API 密钥快速制作应用原型和启动应用。当需要完全托管的 AI 平台时,Vertex AI 允许通过完全的数据控制来定制 Gemini,并受益于额外的 Google Cloud 功能,以实现企业安全性、安全性、隐私以及数据治理和合规性。
Android 开发者还可以通过 AI 进行构建,这是我们在设备上执行任务的最高效模型 AICore,这是 Android 14 中提供的一项新系统功能,从 Pixel 8 Pro 设备开始。注册获取 AICore 的早期预览版。
Gemini Ultra 即将推出
对于 Gemini Ultra,我们目前正在完成广泛的信任和安全检查,包括由受信任的外部方进行红队,并在广泛使用之前使用来自人类反馈的微调和强化学习 (RLHF) 进一步完善模型。
作为这一过程的一部分,我们将向选定的客户、开发人员、合作伙伴以及安全和责任专家提供 Gemini Ultra,以便在明年初将其推广给开发人员和企业客户之前进行早期实验和反馈。
明年年初,我们还将推出 Bard Advanced,这是一种全新的尖端 AI 体验,可让您访问我们最好的模型和功能,从 Gemini Ultra 开始。
双子座时代:赋能创新未来
这是人工智能发展的一个重要里程碑,也是我们谷歌新时代的开始,我们将继续快速创新并负责任地提升我们的模型功能。
到目前为止,我们在 Gemini 上取得了长足的进步,我们正在努力为未来的版本进一步扩展其功能,包括规划和内存方面的进步,以及增加处理更多信息的上下文窗口以提供更好的响应。
我们对一个由人工智能负责任地赋能的世界的惊人可能性感到兴奋——一个创新的未来,它将增强创造力、扩展知识、推动科学发展并改变全球数十亿人的生活和工作方式。