‘双子座 2.0:谷歌开启代理智能时代’

谷歌首席执行官桑达尔·皮查伊宣布推出Gemini 2.0,这是谷歌在人工智能领域革命性进展的下一步。

在推出Gemini 1.0模型一年后,这一重大升级整合了增强的多模态能力、代理功能和创新用户工具,旨在推动人工智能驱动技术的边界。

向变革性人工智能迈进

皮查伊回顾了谷歌26年来组织和使世界信息可获取的使命时表示:“如果Gemini 1.0是关于组织和理解信息,那么Gemini 2.0则是关于使其变得更加有用。”

Gemini 1.0于2022年12月发布,是谷歌首个原生多模态人工智能模型。第一代在理解和处理文本、视频、图像、音频和代码方面表现出色。其增强的1.5版本因其长上下文理解而被开发者广泛接受,使得诸如以生产力为中心的NotebookLM等应用成为可能。

现在,随着Gemini 2.0的推出,谷歌旨在加速人工智能作为通用助手的角色,能够进行原生图像和音频生成、更好的推理和规划,以及现实世界的决策能力。用皮查伊的话说,这一发展标志着“代理时代”的到来。

皮查伊解释道:“我们一直在投资开发更具代理性的模型,这意味着它们可以更好地理解您周围的世界,提前多步思考,并在您的监督下为您采取行动。”

Gemini 2.0:核心特性和可用性

今天公告的核心是Gemini 2.0 Flash的实验性发布,这是Gemini第二代的旗舰模型。它在前代模型的基础上构建,同时提供更快的响应时间和更先进的性能。

Gemini 2.0 Flash支持多模态输入和输出,包括生成原生图像与文本结合的能力,以及生成可调节的多语言文本到语音音频。此外,用户还可以受益于原生工具集成,如谷歌搜索,甚至是第三方用户定义的功能。

开发者和企业将通过Google AI StudioVertex AI的Gemini API访问Gemini 2.0 Flash,而更大模型的发布计划在2024年1月进行。

为了全球可访问性,Gemini应用程序现在提供了一个针对聊天优化的2.0 Flash实验模型。早期采用者可以在桌面和移动设备上体验这一更新的助手,移动应用程序的推出即将到来。

像谷歌搜索这样的产品也在通过Gemini 2.0进行增强,解锁处理复杂查询的能力,如高级数学问题、编码查询和多模态问题。

全面的人工智能创新套件

Gemini 2.0的发布伴随着引人注目的新工具,展示了其能力。

其中一个功能,深度研究,作为人工智能研究助手,简化了调查复杂主题的过程,通过将信息汇编成综合报告。另一个升级增强了搜索功能,提供Gemini支持的人工智能概述,处理复杂的多步骤用户查询。

该模型使用谷歌第六代张量处理单元(TPUs),即Trillium进行训练,皮查伊指出“支持了100%的Gemini 2.0训练和推理。”

Trillium现在对外开发者可用,使他们能够受益于支持谷歌自身进步的相同基础设施。

开创代理体验

Gemini 2.0还伴随着实验性的“代理”原型,旨在探索人类与人工智能协作的未来,包括:

  • 项目Astra:通用人工智能助手

项目Astra在今年早些时候的I/O大会上首次介绍,利用Gemini 2.0的多模态理解来改善现实世界的人工智能交互。受信任的测试者在Android上试用了该助手,提供的反馈帮助改进了其多语言对话、记忆保留和与谷歌工具(如搜索、Lens和地图)的集成。Astra还展示了接近人类的对话延迟,进一步研究正在进行,以便将其应用于可穿戴技术,如原型人工智能眼镜。

  • 项目Mariner:重新定义网络自动化

项目Mariner是一个实验性的网页浏览助手,利用Gemini 2.0在浏览器中跨文本、图像和交互元素(如表单)推理的能力。在初步测试中,它在WebVoyager基准测试中完成端到端网络任务的成功率达到了83.5%。早期测试者使用Chrome扩展程序帮助改进Mariner的能力,同时谷歌评估确保技术保持用户友好和安全的安全措施。

  • Jules:为开发者提供的编码代理

Jules是一个为开发者构建的人工智能助手,直接集成到GitHub工作流程中,以解决编码挑战。它可以自主提出解决方案、生成计划并执行基于代码的任务——所有这些都在人工监督下进行。这一实验性努力是谷歌长期目标的一部分,旨在创建跨多个领域的多功能人工智能代理。

  • 游戏应用及其他

谷歌DeepMind正在与Supercell等游戏合作伙伴合作,扩展Gemini 2.0在虚拟环境中的应用,开发智能游戏代理。这些实验性的人工智能伙伴可以实时解释游戏动作,建议策略,甚至通过搜索访问更广泛的知识。研究还在进行中,探讨Gemini 2.0的空间推理如何支持机器人技术,为未来的物理世界应用打开大门。

应对人工智能发展的责任

随着人工智能能力的扩展,谷歌强调优先考虑安全和伦理考量的重要性。

谷歌声称Gemini 2.0经过了广泛的风险评估,并在责任和安全委员会的监督下进行,以减轻潜在风险。此外,其嵌入的推理能力允许进行高级“红队测试”,使开发者能够评估安全场景并优化安全措施。

谷歌还在探索保障措施,以解决用户隐私问题,防止滥用,并确保人工智能代理保持可靠。例如,项目Mariner旨在优先考虑用户指令,同时抵御恶意提示注入,防止网络钓鱼或欺诈交易等威胁。同时,项目Astra中的隐私控制使用户能够轻松管理会话数据和删除偏好。

皮查伊重申了公司对负责任开发的承诺,表示:“我们坚信,构建人工智能的唯一方法就是从一开始就负责任。”

随着Gemini 2.0 Flash的发布,谷歌正逐步接近其构建能够改变各领域交互的通用助手的愿景。

另见:机器遗忘:研究人员使人工智能模型“忘记”数据

想了解更多行业领袖关于人工智能和大数据的内容吗? 请查看人工智能与大数据博览会,该活动将在阿姆斯特丹、加利福尼亚和伦敦举行。该综合活动与其他领先活动共同举办,包括智能自动化会议区块链博览会数字化转型周网络安全与云博览会

探索由TechForge提供的其他即将举行的企业技术活动和网络研讨会这里

标签: , , , , , , , ,