GPT-4o以人类般的方式与文本、音频和视觉进行集成，实现了人工智能的交互。

OpenAI推出了其新的旗舰模型GPT-4o，它无缝地集成了文本、音频和视觉输入和输出，承诺提升机器交互的自然性。

GPT-4o代表“omni”，旨在满足更广泛的输入和输出模式。OpenAI宣布：“它接受任何文本、音频和图像的组合作为输入，并生成任何文本、音频和图像的组合作为输出。”

用户可以期望快速的响应时间，与人类对话速度相当，平均响应时间为320毫秒。

GPT-4o的引入标志着它与之前版本相比的一大飞跃，它通过一个单一的神经网络处理所有的输入和输出。这种方法使模型能够保留之前版本中在单独的模型管道中丢失的关键信息和上下文。

在GPT-4o之前，’Voice Mode’可以处理GPT-3.5的音频交互，延迟为2.8秒，而GPT-4的延迟为5.4秒。之前的设置涉及三个不同的模型：一个用于将音频转录为文本，另一个用于文本回复，第三个用于将文本转换回音频。这种分割导致了诸如语调、多个说话者和背景噪音等细微差别的丢失。

作为一个集成解决方案，GPT-4o在视觉和音频理解方面有显著的改进。它可以执行更复杂的任务，如和谐歌曲、实时翻译，甚至生成带有笑声和歌唱等表现元素的输出。它的广泛能力的例子包括为面试做准备、即时翻译语言和生成客户服务响应。

GPT-4o在英文文本和编码任务中与GPT-4 Turbo的性能水平相当，但在非英文语言方面明显优于后者，使其成为一个更具包容性和多功能的模型。它在推理方面树立了新的标杆，0-shot COT MMLU（常识问题）得分为88.7%，5-shot no-CoT MMLU得分为87.2%。

该模型在音频和翻译基准测试中也表现出色，超过了之前的最先进模型，如Whisper-v3。在多语言和视觉评估中，它展示了卓越的性能，增强了OpenAI的多语言、音频和视觉能力。

OpenAI通过设计将强大的安全措施纳入了GPT-4o中，通过过滤训练数据和通过后期训练保护措施来改进行为。该模型已经通过了一项准备框架的评估，并符合OpenAI的自愿承诺。在网络安全、说服力和模型自主性等领域的评估表明，GPT-4o在任何类别中都不会超过“中等”风险水平。

进一步的安全评估包括与社会心理学、偏见、公平性和错误信息等各个领域的70多位专家进行广泛的外部红队测试。这种全面的审查旨在减轻GPT-4o新模态引入的风险。

从今天开始，GPT-4o的文本和图像功能在ChatGPT中可用，包括免费版和Plus用户的扩展功能。由GPT-4o提供支持的新的Voice Mode将在未来几周内进入ChatGPT Plus的Alpha测试阶段。

开发人员可以通过API访问GPT-4o，用于文本和视觉任务，享受其速度翻倍、价格减半和增强的速率限制，与GPT-4 Turbo相比。

OpenAI计划通过API将GPT-4o的音频和视频功能提供给一组可信赖的合作伙伴，预计在不久的将来进行更广泛的推广。这种分阶段发布策略旨在确保在全面提供功能范围之前进行彻底的安全性和可用性测试。

Whittemore解释说：“他们将这个模型免费提供给所有人，以及将API的价格降低50%，这是一个巨大的可访问性提升。”

OpenAI邀请社区反馈，不断改进GPT-4o，强调用户输入在识别和弥补GPT-4 Turbo可能仍然表现优异的领域中的重要性。

（图片来源：OpenAI）

相关文章