谷歌推出了其最新的AI模型Gemini 1.5,该模型具有公司称之为“实验性”的一百万令牌上下文窗口。
这种新的功能使Gemini 1.5能够处理极长的文本段落-长达一百万个字符-以理解上下文和含义。这超过了以前的AI系统,如Claude 2.1和GPT-4 Turbo,它们的令牌数量分别最多为200,000和128,000个。
谷歌研究人员在一份技术报告中表示:“Gemini 1.5 Pro在跨模态的长上下文检索任务中实现了几乎完美的召回率,改进了长文档QA、长视频QA和长上下文ASR的最新技术水平,并在广泛的基准测试中与Gemini 1.0 Ultra的最新技术水平相匹配或超越。”
谷歌最新模型的效率归功于其创新的专家混合(MoE)架构。
谷歌DeepMind的首席执行官Demis Hassabis解释说:“传统的Transformer是一个大型神经网络,而MoE模型被分成较小的‘专家’神经网络。根据输入的类型,MoE模型学会选择性地激活其神经网络中最相关的专家路径。这种专业化极大地提高了模型的效率。”
为了展示1M令牌上下文窗口的强大功能,谷歌展示了Gemini 1.5如何摄取整个326,914个令牌的阿波罗11号飞行记录,并能准确回答有关它的特定问题。它还在提示时总结了一个684,000个令牌的无声电影的关键细节。
谷歌最初为开发人员和企业提供了有限的Gemini 1.5预览版,其中包含一百万个令牌的上下文窗口。公众的128,000个令牌的普通版本将稍后推出,同时还会公布定价细节。
目前,一百万个令牌的功能仍处于实验阶段。但如果它能够实现早期的承诺,Gemini 1.5可能为AI理解复杂的现实世界文本设定新的标准。
对于现在,这个一百万个令牌的功能仍然是实验性的。但如果它能够实现早期的承诺,Gemini 1.5可能为AI理解复杂的现实世界文本设定新的标准。
(图片来源:谷歌)
想要从行业领导者那里了解更多关于AI和大数据的知识吗?请参加在阿姆斯特丹、加利福尼亚和伦敦举办的AI & Big Data Expo。这个综合性的活动与其他领先的活动同时举办,包括BlockX、Digital Transformation Week和Cyber Security & Cloud Expo。
探索由TechForge提供支持的其他即将举行的企业技术活动和网络研讨会。