谷歌的Gemini 1.5 Pro击败了GPT-4o

谷歌的实验性Gemini 1.5 Pro模型在生成AI基准测试中超越了OpenAI的GPT-4o。

在过去的一年里，OpenAI的GPT-4o和Anthropic的Claude-3主导了这一领域。然而，最新版本的Gemini 1.5 Pro似乎已经领先。

在AI社区中，最广为人知的基准之一是LMSYS聊天机器人竞技场，它评估模型在各种任务上的表现，并分配总体能力分数。在这个排行榜上，GPT-4o获得了1,286的分数，而Claude-3则获得了可喜的1,271。Gemini 1.5 Pro的前一个版本得分为1,261。

Gemini 1.5 Pro的实验版本（标记为Gemini 1.5 Pro 0801）以令人印象深刻的1,300分超越了其最接近的竞争对手。这一显著的进步表明，谷歌最新的模型可能具备比其竞争对手更强的整体能力。

值得注意的是，尽管基准测试提供了对AI模型性能的有价值见解，但它们可能并不总能准确反映其在实际应用中的全部能力或局限性。

来自聊天机器人竞技场的激动人心的消息！@GoogleDeepMind的新Gemini 1.5 Pro（实验0801）在竞技场中测试了一周，收集了超过12K的社区投票。

谷歌Gemini首次夺得第一名，超越了GPT-4o/Claude-3.5，表现令人印象深刻…… https://t.co/SvjBegXbQ9 pic.twitter.com/6MTHdty1jb

— lmsys.org (@lmsysorg) 2024年8月1日

尽管Gemini 1.5 Pro目前可用，但其被标记为早期发布或测试阶段，这表明谷歌可能仍会进行调整，甚至因安全或对齐原因撤回该模型。

这一发展标志着科技巨头之间争夺AI主导地位的重大里程碑。谷歌在基准分数上超越OpenAI和Anthropic的能力展示了该领域创新的快速步伐以及推动这些进步的激烈竞争。

随着AI领域的不断发展，OpenAI和Anthropic将如何应对谷歌的挑战将是一个有趣的观察。他们能否重新夺回排行榜的顶端，还是谷歌已经建立了生成AI性能的新标准？

（照片由Yuliya Strizhkina提供）

另见：Meta的AI战略：为明天而建，而非追求即时利润

想了解更多来自行业领袖的AI和大数据信息吗？ 请查看AI & 大数据博览会，该活动将在阿姆斯特丹、加利福尼亚和伦敦举行。该综合活动与其他领先活动共同举办，包括智能自动化会议、区块链博览会、数字转型周和网络安全与云博览会。

探索由TechForge提供的其他即将举行的企业技术活动和网络研讨会这里。

标签： ai, 人工智能, 基准, 聊天机器人竞技场, 双子座, Gemini 1.5 Pro, 谷歌, 大型语言模型, LLM, LMSYS, 模型

相关文章

Snap推出了用于下一级增强现实的先进人工智能技术。

“欧莱雅：利用生成性人工智能实现化妆品的可持续发展”

“自动驾驶直升机让天空更安全”

“人工智能与‘blisk’在新的DARPA资助合作中相遇”