Hugging Face发布了Idefics2,这是一个多功能模型,能够根据图像和文本理解和生成文本回复。该模型在回答视觉问题、描述视觉内容、从图像中创建故事、提取文档信息甚至基于视觉输入进行算术运算等方面树立了新的标杆。
Idefics2以其仅有的80亿个参数和开放许可证(Apache 2.0)所提供的多功能性超越了其前身Idefics1,并且具有显著增强的光学字符识别(OCR)能力。
该模型不仅在视觉问题回答基准测试中表现出色,而且在与LLava-Next-34B和MM1-30B-chat等规模更大的同类模型相比也能够保持竞争力。
Idefics2的吸引力在于它从一开始就与Hugging Face的Transformers集成,确保了对广泛的多模态应用进行轻松微调。对于那些渴望深入研究的人来说,可以在Hugging Face Hub上获得用于实验的模型。
Idefics2的一个突出特点是其全面的训练理念,融合了包括网络文档、图像标题对和OCR数据在内的公开可用数据集。此外,它还引入了一个名为“The Cauldron”的创新微调数据集,将50个精心策划的数据集融合在一起,用于多方面的对话训练。
Idefics2展示了一种精细处理图像的方法,保持了原生分辨率和宽高比,这与计算机视觉中常规的调整大小规范有明显的不同。它的架构在高级OCR能力的帮助下获得了显著的改进,能够熟练地转录图像和文档中的文本内容,并在解释图表和图形方面表现出更好的性能。
将视觉特征整合到语言骨干中的简化标记了与其前身架构的转变,采用了学习的Perceiver汇集和MLP模态投影,提高了Idefics2的整体效能。
这种视觉语言模型的进步为探索多模态交互开辟了新的途径,Idefics2有望成为社区的基础工具。其性能提升和技术创新凸显了将视觉和文本数据结合起来创建复杂、具有上下文意识的人工智能系统的潜力。
对于希望利用Idefics2能力的爱好者和研究人员,Hugging Face提供了详细的微调教程。
此外,想要了解更多关于人工智能和大数据的信息,可以参加在阿姆斯特丹、加利福尼亚和伦敦举办的AI & Big Data Expo。这个综合性的活动与其他领先的活动同时举办,包括BlockX、Digital Transformation Week和Cyber Security & Cloud Expo。
探索由TechForge提供支持的其他即将举行的企业技术活动和网络研讨会。