尝试拍摄北美大约11,000种树木的每一种照片,你将仅获得自然图像数据集中数百万张照片的一小部分。这些庞大的快照集合——从蝴蝶到座头鲸——是生态学家进行研究的极好工具,因为它们提供了生物独特行为、稀有情况、迁徙模式以及对污染和其他气候变化形式的反应的证据。
尽管自然图像数据集非常全面,但它们的实用性尚未达到最佳状态。搜索这些数据库并提取与假设最相关的图像是非常耗时的。你更需要一个自动化的研究助手——或者可能是被称为多模态视觉语言模型(VLMs)的人工智能系统。它们在文本和图像上进行训练,使它们更容易识别更细微的细节,比如照片背景中的特定树木。
但是,VLMs在图像检索方面能多大程度上帮助自然研究人员呢?来自麻省理工学院计算机科学与人工智能实验室(CSAIL)、伦敦大学学院、iNaturalist等地的一个团队设计了一项性能测试来找出答案。每个VLM的任务是:在团队的“INQUIRE”数据集中定位并重新组织最相关的结果,该数据集由500万张野生动物图片和来自生态学家及其他生物多样性专家的250个搜索提示组成。
寻找那只特别的青蛙
在这些评估中,研究人员发现,较大、较先进的VLMs在训练数据量上远超其他模型,有时能够为研究人员提供他们想要的结果。这些模型在处理关于视觉内容的简单查询时表现相当不错,比如识别珊瑚礁上的碎片,但在需要专业知识的查询中却显著挣扎,比如识别特定的生物条件或行为。例如,VLMs相对容易地发现了海滩上的水母示例,但在处理更技术性的提示时,如“绿色青蛙的黄化症”,即限制其皮肤变黄的条件时则显得困难重重。
他们的发现表明,这些模型需要更多特定领域的训练数据来处理困难的查询。麻省理工学院的博士生爱德华·文德罗(Edward Vendrow)是CSAIL的成员,他共同领导了这项新论文的数据集工作,他认为,通过熟悉更多信息丰富的数据,VLMs有一天可以成为优秀的研究助手。“我们希望构建检索系统,找到科学家在监测生物多样性和分析气候变化时所寻求的确切结果,”文德罗说。“多模态模型尚未完全理解更复杂的科学语言,但我们相信INQUIRE将成为跟踪它们在理解科学术语方面如何改进的重要基准,并最终帮助研究人员自动找到他们所需的确切图像。”
团队的实验表明,由于其广泛的训练数据,较大的模型在简单和复杂搜索中往往更有效。他们首先使用INQUIRE数据集测试VLMs是否能够将500万张图像缩小到最相关的前100个结果(也称为“排名”)。对于像“有人工结构和碎片的珊瑚礁”这样的简单搜索查询,相对较大的模型如“SigLIP”能够找到匹配的图像,而较小的CLIP模型则显得力不从心。根据文德罗的说法,较大的VLMs在排名更困难的查询时“才刚刚开始变得有用”。
文德罗和他的同事们还评估了多模态模型重新排名这100个结果的能力,重新组织哪些图像与搜索最相关。在这些测试中,即使是训练在更精心策划数据上的大型LLMs,如GPT-4o,也显得力不从心:它的精确度得分仅为59.6%,这是任何模型中获得的最高得分。
研究人员在本月早些时候的神经信息处理系统会议(NeurIPS)上展示了这些结果。
为INQUIRE询问
INQUIRE数据集包括基于与生态学家、生物学家、海洋学家和其他专家讨论的搜索查询,这些专家讨论了他们希望寻找的图像类型,包括动物的独特生理条件和行为。然后,一个注释团队花费了180小时使用这些提示搜索iNaturalist数据集,仔细筛选大约200,000个结果,以标记33,000个符合提示的匹配项。
例如,注释者使用了“使用塑料废物作为壳的寄居蟹”和“带有绿色‘26’标签的加利福尼亚秃鹰”等查询,以识别更大图像数据集中描绘这些特定稀有事件的子集。
然后,研究人员使用相同的搜索查询来查看VLMs能多好地检索iNaturalist图像。注释者的标签揭示了模型在理解科学家关键词时的困难,因为它们的结果包括之前被标记为与搜索无关的图像。例如,VLMs对“带有火伤痕的红木树”的结果有时包括没有任何标记的树木的图像。
“这是对数据的仔细策划,重点捕捉生态学和环境科学研究领域的科学询问的真实示例,”麻省理工学院的霍默·A·伯内尔职业发展助理教授、CSAIL首席研究员及该工作的共同高级作者萨拉·比瑞(Sara Beery)说。“这对于扩展我们对VLMs在这些潜在影响科学环境中的当前能力的理解至关重要。它还概述了当前研究中的空白,我们现在可以着手解决,特别是对于复杂的组合查询、技术术语以及划分我们合作者感兴趣类别的细微差别。”
“我们的发现表明,一些视觉模型已经足够精确,可以帮助野生动物科学家检索某些图像,但许多任务对于即使是最大的、表现最好的模型来说仍然太困难,”文德罗说。“尽管INQUIRE专注于生态学和生物多样性监测,但其查询的广泛多样性意味着在INQUIRE上表现良好的VLMs可能在其他观察密集型领域分析大型图像集合时也会表现出色。”
好奇的心想要看到
为了进一步推进他们的项目,研究人员正在与iNaturalist合作开发一个查询系统,以更好地帮助科学家和其他好奇的人找到他们真正想要看到的图像。他们的工作演示允许用户按物种过滤搜索,从而更快地发现相关结果,比如猫的多样眼睛颜色。文德罗和共同首席作者奥米罗斯·潘塔齐斯(Omiros Pantazis)最近从伦敦大学学院获得博士学位,他们还旨在通过增强当前模型来改善重新排名系统,以提供更好的结果。
来自匹兹堡大学的副教授贾斯廷·基茨斯(Justin Kitzes)强调了INQUIRE发现二次数据的能力。“生物多样性数据集正在迅速变得过于庞大,以至于任何个别科学家都无法审查,”基茨斯说,他并未参与这项研究。“这篇论文引起了人们对一个困难且未解决的问题的关注,即如何有效地通过这些数据进行搜索,提出的问题不仅仅是‘这里有什么’,而是询问个体特征、行为和物种相互作用。能够高效、准确地揭示生物多样性图像数据中的这些更复杂现象,对于基础科学和生态学及保护领域的实际影响至关重要。”
文德罗、潘塔齐斯和比瑞与iNaturalist软件工程师亚历山大·谢泼德(Alexander Shepard)、伦敦大学学院教授加布里埃尔·布罗斯托(Gabriel Brostow)和凯特·琼斯(Kate Jones)、爱丁堡大学副教授及共同高级作者奥伊辛·麦克阿达(Oisin Mac Aodha)、马萨诸塞大学阿默斯特分校助理教授格兰特·范霍恩(Grant Van Horn)共同撰写了这篇论文,后者担任共同高级作者。他们的工作部分得到了爱丁堡大学生成性人工智能实验室、美国国家科学基金会/加拿大自然科学与工程研究委员会全球人工智能与生物多样性变化中心、皇家学会研究资助以及由英国世界自然基金会资助的生物健康项目的支持。