在过去的100多年里,科学家们一直使用X射线晶体学来确定金属、岩石和陶瓷等晶体材料的结构。
这种技术在晶体完好无损时效果最佳,但在许多情况下,科学家们只能获得材料的粉末版本,其中包含随机的晶体碎片。这使得拼凑整体结构变得更加困难。
麻省理工学院的化学家们现在提出了一种新的生成性人工智能模型,可以大大简化这些粉末晶体的结构确定。该预测模型可以帮助研究人员表征用于电池、磁铁和许多其他应用的材料。
“结构是你需要了解任何材料的第一件事。它对超导性很重要,对磁铁很重要,对你创造的光伏材料也很重要。它对你能想到的任何以材料为中心的应用都很重要,”麻省理工学院化学系的弗雷德里克·乔治·凯斯教授达娜·弗里德曼说。
弗里德曼和斯坦福大学计算机科学教授尤尔·莱斯科维奇是这项新研究的资深作者,该研究今天发表在《美国化学学会杂志》上。麻省理工学院的研究生埃里克·里泽尔和耶鲁大学的本科生塔赫·麦基是论文的主要作者。
独特的模式
晶体材料,包括金属和大多数其他无机固体材料,由许多相同的、重复的单元组成的晶格构成。这些单元可以被视为具有独特形状和大小的“盒子”,其中原子被精确地排列。
当X射线照射到这些晶格上时,它们会以不同的角度和强度从原子上衍射,揭示原子的位置和它们之间的键的信息。自20世纪初以来,这种技术已被用于分析材料,包括具有晶体结构的生物分子,如DNA和某些蛋白质。
对于仅以粉末晶体形式存在的材料,解决这些结构变得更加困难,因为这些碎片并不携带原始晶体的完整3D结构。
“精确的晶格仍然存在,因为我们所称的粉末实际上是一组微晶。因此,你拥有与大晶体相同的晶格,但它们处于完全随机的方向,”弗里德曼说。
对于成千上万种这些材料,X射线衍射模式存在但仍未解决。为了尝试破解这些材料的结构,弗里德曼和她的同事们在一个名为材料项目的数据库上训练了一个机器学习模型,该数据库包含超过150,000种材料。首先,他们将数万种这些材料输入到一个现有模型中,该模型可以模拟X射线衍射模式的外观。然后,他们使用这些模式来训练他们的AI模型,称为Crystalyze,以根据X射线模式预测结构。
该模型将预测结构的过程分解为几个子任务。首先,它确定晶格“盒子”的大小和形状,以及哪些原子将进入其中。然后,它预测盒子内原子的排列。对于每个衍射模式,模型生成几个可能的结构,这些结构可以通过将其输入到一个确定给定结构的衍射模式的模型中进行测试。
“我们的模型是生成性AI,这意味着它生成一些它之前没有见过的东西,这使我们能够生成几种不同的猜测,”里泽尔说。“我们可以做出一百个猜测,然后我们可以预测我们的猜测应该是什么样的粉末模式。如果输入与输出完全相同,那么我们就知道我们是对的。”
解决未知结构
研究人员在材料项目的几千个模拟衍射模式上测试了该模型。他们还在RRUFF数据库中测试了超过100个实验衍射模式,该数据库包含近14,000种天然晶体矿物的粉末X射线衍射数据,这些数据在训练数据中被排除。在这些数据上,模型的准确率约为67%。然后,他们开始在以前未解决的衍射模式上测试该模型。这些数据来自粉末衍射文件,其中包含超过400,000种已解决和未解决材料的衍射数据。
利用他们的模型,研究人员为100多种以前未解决的模式提出了结构。他们还利用该模型发现了弗里德曼实验室通过在高压下强迫在常压下不反应的元素形成化合物而创造的三种材料的结构。这种方法可以用来生成具有截然不同的晶体结构和物理特性的新的材料,即使它们的化学成分相同。
石墨和钻石——两者均由纯碳构成——就是这种材料的例子。弗里德曼开发的材料,每种都含有铋和另一种元素,可能在设计新型永久磁铁材料方面具有用处。
“我们从现有数据中发现了许多新材料,最重要的是,解决了我们实验室中三种未知结构,这些结构构成了这些元素组合的第一种新二元相,”弗里德曼说。
麻省理工学院团队表示,能够确定粉末晶体材料的结构可能有助于几乎所有与材料相关领域的研究人员,该团队在crystalyze.org上发布了该模型的网络接口。
这项研究得到了美国能源部和国家科学基金会的资助。