‘Anthropic对谷歌:谁在与AI幻觉作斗争中获胜?’

Galileo,一家领先的企业应用生成性人工智能开发商,发布了最新的幻觉指数

该评估框架专注于检索增强生成(RAG),评估了来自OpenAI、Anthropic、Google和Meta等主要参与者的22个知名生成AI大语言模型(LLM)。今年的指数显著扩展,新增了11个模型,以反映过去八个月开放源代码和闭源LLM的快速增长。

Galileo的首席执行官兼联合创始人Vikram Chatterji表示:“在当今快速发展的人工智能领域,开发者和企业面临着一个关键挑战:如何在成本、准确性和可靠性之间平衡,利用生成性人工智能的力量。目前的基准往往基于学术用例,而非实际应用。”

该指数采用了Galileo的专有评估指标——上下文遵循性,检查在不同输入长度(从1,000到100,000个标记)下的输出不准确性。这种方法旨在帮助企业在其人工智能实施中做出关于价格和性能平衡的明智决策。

指数的主要发现包括:

  • Anthropic的Claude 3.5 Sonnet在短、中、长上下文场景中表现出色,始终接近完美。
  • Google的Gemini 1.5 Flash在性价比方面表现最佳,在所有任务中均表现强劲。
  • 阿里巴巴的Qwen2-72B-Instruct在开放源代码模型中脱颖而出,特别是在短和中等上下文场景中表现优异。

该指数还突出了LLM领域的几个趋势:

  • 开放源代码模型正在迅速缩小与闭源模型之间的差距,以更低的成本提供更好的幻觉表现。
  • 当前的RAG LLM在处理扩展上下文长度方面表现出显著改善,而不牺牲质量或准确性。
  • 较小的模型有时优于较大的模型,这表明高效的设计可能比规模更为重要。
  • 来自美国以外的强劲表现者的出现,如Mistral的Mistral-large和阿里巴巴的qwen2-72b-instruct,表明LLM开发的全球竞争正在加剧。

尽管像Claude 3.5 Sonnet和Gemini 1.5 Flash这样的闭源模型由于专有训练数据而保持领先,但该指数显示出这一领域正在迅速演变。Google的表现尤其引人注目,其开放源代码的Gemma-7b模型表现不佳,而其闭源的Gemini 1.5 Flash始终排名靠前。

随着人工智能行业继续努力解决幻觉问题,这一问题是生产就绪的生成性人工智能产品的主要障碍,Galileo的幻觉指数为希望根据特定需求和预算限制选择合适模型的企业提供了宝贵的见解。

另见:参议员调查OpenAI的安全和就业实践

想了解更多来自行业领袖的人工智能和大数据信息吗? 请查看人工智能与大数据博览会,该活动将在阿姆斯特丹、加利福尼亚和伦敦举行。该综合活动与其他领先活动共同举办,包括智能自动化会议区块链博览会数字化转型周网络安全与云博览会

探索由TechForge提供的其他即将举行的企业技术活动和网络研讨会这里

标签: , , , , , , , , ,