北半球的春天的回归引发了龙卷风季节。龙卷风的旋转漏斗状尘土和碎片似乎是一种不可置疑的景象。但是这种景象可能会被气象学家使用的雷达所掩盖。很难准确知道龙卷风何时形成,甚至为什么形成。
一个新的数据集可能会提供答案。它包含了过去10年来袭击美国的数千个龙卷风的雷达回波。产生龙卷风的风暴旁边还有其他严重的风暴,其中一些具有几乎相同的条件,但从未产生过龙卷风。麻省理工学院林肯实验室的研究人员策划了这个名为TorNet的数据集,并已将其开源。他们希望能够实现对这个自然界最神秘和暴力的现象之一进行检测的突破。
该项目的联合主要研究员马克·维莱特(Mark Veillette)与詹姆斯·库尔佐(James Kurdzo)表示:“很多进展都是由易于获取的基准数据集推动的。我们希望TorNet能为机器学习算法检测和预测龙卷风奠定基础。”这两位研究人员都在空中交通管制系统组工作。
除了数据集,团队还发布了在该数据集上训练的模型。这些模型显示出机器学习发现龙卷风的能力。在此基础上的工作可能为预报员开辟新的领域,帮助他们提供更准确的警报,可能拯救生命。
旋转的不确定性
每年在美国发生约1200次龙卷风,平均造成数百万到数十亿美元的经济损失,并夺去71条生命。去年,一次异常持久的龙卷风在密西西比州沿着59英里的路径杀死了17人,至少165人受伤。
然而,龙卷风的预测非常困难,因为科学家们对其形成原因没有清晰的认识。“我们可以看到两个看起来完全相同的风暴,一个会产生龙卷风,而另一个则不会。我们并不完全理解其中的原因,”库尔佐说。
龙卷风的基本成分是不稳定的雷暴,由迅速上升的暖空气和引起旋转的风切变引起。天气雷达是监测这些条件的主要工具。但是,即使在雷达附近,龙卷风也太低无法被探测到。随着具有给定倾斜角度的雷达波束离天线越来越远,它离地面越高,主要看到的是“中尺度环流”中携带的雨水和冰雹的反射,这是风暴的广泛旋转上升气流。中尺度环流并不总是会产生龙卷风。
在这种有限的视野下,预报员必须决定是否发布龙卷风警报。他们通常会谨慎行事。结果,龙卷风警报的虚假警报率超过70%。“这可能导致‘狼来了’的情况,”库尔佐说。
近年来,研究人员开始利用机器学习更好地检测和预测龙卷风。然而,原始数据集和模型并不总是对广大社区开放,阻碍了进展。TorNet填补了这一空白。
该数据集包含超过200,000个雷达图像,其中13,587个描绘了龙卷风。其余的图像是非龙卷风的,来自两个类别的风暴:随机选择的严重风暴或虚警风暴(导致预报员发布警报但未产生龙卷风的风暴)。
每个风暴或龙卷风的样本包含两组六个雷达图像。这两组对应不同的雷达扫描角度。这六个图像描绘了不同的雷达数据产品,例如反射率(显示降水强度)或径向速度(指示风是否向雷达靠近或远离)。
策划数据集的一个挑战是首先找到龙卷风。在天气雷达数据中,龙卷风是极为罕见的事件。然后,团队必须平衡这些龙卷风样本与困难的非龙卷风样本。如果数据集过于简单,例如将龙卷风与暴风雪进行比较,那么在该数据上训练的算法很可能会过度将风暴分类为龙卷风。
“真正的基准数据集的美妙之处在于,我们都在使用相同的数据,具有相同的难度水平,并且可以进行比较结果,”维莱特说。“这也使得气象学对数据科学家更加可访问,反之亦然。这两方更容易共同解决一个问题。”
这两位研究人员代表了跨学科合作所能带来的进展。维莱特是一位数学家和算法开发人员,他一直对龙卷风着迷。库尔佐是一位受过气象学培训的信号处理专家。在研究生阶段,他使用自制的移动雷达追逐龙卷风,收集数据以进行新的分析。
库尔佐说:“这个数据集还意味着研究生不必花一两年的时间来构建数据集。他们可以直接开始他们的研究。”
该项目由林肯实验室的气候变化倡议资助,该倡议旨在利用实验室的多样化技术优势来帮助解决威胁人类健康和全球安全的气候问题。
用深度学习追寻答案
利用该数据集,研究人员开发了基准人工智能(AI)模型。他们特别希望应用深度学习,这是一种擅长处理视觉数据的机器学习形式。深度学习可以从数据集中提取特征(算法用于做出决策的关键观察结果),而其他机器学习方法则需要人工先手动标记特征。
维莱特说:“我们想看看深度学习是否能重新发现人们通常在龙卷风中寻找的东西,甚至能够识别出通常不被预报员搜索的新事物。”
结果是令人鼓舞的。他们的深度学习模型的表现与文献中已知的所有检测龙卷风的算法相似或更好。经过训练的算法正确分类了50%的较弱EF-1级龙卷风和超过85%的EF-2级或更高级别的龙卷风,这些是最具破坏性和代价高昂的龙卷风事件。
他们还评估了另外两种类型的机器学习模型和一种传统模型进行比较。所有这些模型的源代码和参数都是免费提供的。这些模型和数据集也在提交给美国气象学会(AMS)的一份论文中进行了描述。维莱特在一月份的AMS年会上展示了这项工作。
库尔佐说:“公开我们的模型的最大原因是希望社区能够改进它们并做其他伟大的事情。最好的解决方案可能是一个深度学习模型,或者有人可能发现非深度学习模型实际上更好。”
TorNet在天气社区中也可能有其他用途,例如用于对风暴进行大规模案例研究。它还可以与其他数据源(如卫星图像或闪电地图)相结合。融合多种类型的数据可以提高机器学习模型的准确性。
迈向实际应用
除了检测龙卷风外,库尔佐希望模型还可以帮助揭示龙卷风形成的科学原理。
库尔佐问道:“作为科学家,我们看到所有这些龙卷风的前兆——低层旋转的增加,反射率数据中的钩状回波,特定的差分相位(KDP)足迹和差分反射率(ZDR)弧。但是它们是如何相互关联的?还有我们不知道的物理表现吗?”
通过可解释的AI,可能有可能找到这些答案。可解释的AI是指允许模型以人类可理解的格式提供其推理过程的方法,解释为什么它做出了某个特定的决策。在这种情况下,这些解释可能会揭示龙卷风之前发生的物理过程。这些知识可以帮助训练预报员和模型更早地识别出这些迹象。
库尔佐说:“这项技术永远不会取代预报员。但是也许有一天,它可以在复杂情况下引导预报员的目光,并向预测将发生龙卷风活动的区域发出视觉警告。”
随着雷达技术的改进和未来网络的潜在增加,这种帮助可能特别有用。下一代雷达网络的数据刷新速率预计将从每五分钟增加到大约一分钟,可能比预报员解读新信息的速度更快。由于深度学习可以快速处理大量数据,它可能非常适合实时监测雷达回波,与人类一起工作。龙卷风可以在几分钟内形成和消失。
但是,要在实际应用中实现算法还有很长的路要走,尤其是在安全关键的情况下,维莱特说:“我认为预报员社区对机器学习仍然持怀疑态度,这是可以理解的。建立信任和透明度的一种方法是拥有像这样的公共基准数据集。这是第一步。”
团队希望下一步由全球各地的研究人员来完成,他们受到该数据集的启发,并有动力构建自己的算法。这些算法将进入测试平台,最终将向预报员展示,开始过渡到实际应用的过程。
最终,这条道路可能会回到信任。
库尔佐说:“我们可能永远不会通过这些工具获得超过10到15分钟的龙卷风警报。但是如果我们能降低虚假警报率,我们可能会在公众的认知中取得进展。人们将使用这些警报来采取必要的行动来拯救自己的生命。”