编辑 | 绿萝
许多人担心 AI 已经走得太远,或者有走得太远的风险。拥有「AI 教父」之称的杰弗里·辛顿(Geoffrey Hinton)最近辞去了谷歌副总裁的职务,理由是希望不受约束地公开谈论 AI 对社会和人类福祉的潜在风险。
但是,与这些大局的担忧相反,在许多科学领域,你会听到一种不同的沮丧情绪在悄悄地表达:AI 还没有走得足够远。其中一个领域是化学,机器学习工具有望在研究人员寻找和合成有用的新物质的方式上掀起一场革命。但大规模革命尚未发生——因为缺乏可用于「投喂」人工智能系统的数据。
任何 AI 系统的好坏取决于它所训练的数据。这些系统依赖于所谓的神经网络,它们的开发人员使用必须庞大、可靠且无偏见的训练数据集来教授神经网络。
如果化学家想要充分利用生成式 AI 工具的全部潜力,他们需要帮助建立此类训练数据集。需要更多数据——包括实验数据和模拟数据——包括历史数据和其他模糊的知识,例如来自不成功实验的数据。研究人员必须确保由此产生的信息是可访问的。这项任务仍在进行中。
举个例子,人工智能工具可以进行逆合成。他们从化学家想要制造的化学结构开始,然后逆向工作,以确定最佳的起始材料和制造它的反应步骤顺序。采用这种方法的人工智能系统包括 3N-MCTS,由德国明斯特大学(University of Münster)和中国上海大学的研究人员设计。它将已知的搜索算法与三个神经网络相结合。这些工具已经引起了人们的注意,但很少有化学家采用它们。
MCTS 方法示意图。(来源:Nature)
为了做出准确的化学预测,人工智能系统需要充分了解不同反应所涉及的特定化学结构。发现新反应的化学家通常会发表研究结果,但通常这些结果并不详尽。除非 AI 系统拥有全面的知识,否则它们最终可能会建议起始材料的结构会停止反应工作或导致不正确的产品。
混合进步的一个例子是人工智能研究人员称之为「逆向设计」。在化学中,这涉及从所需的物理特性开始,然后确定具有这些特性的物质,并且理想情况下可以廉价制造。例如,基于人工智能的逆向设计帮助科学家选择了制造蓝色磷光有机发光二极管的最佳材料。
逆向设计的计算方法,要求模型建议具有所需特征的结构,已经在化学中使用,研究人员经常审查它们的输出。如果人工智能要在逆向设计中胜过现有的计算工具,它需要足够的训练数据将化学结构与特性联系起来。但在这种情况下,「足够」的训练数据的含义取决于所使用的人工智能类型。
由加利福尼亚州旧金山的 OpenAI 开发的 ChatGPT 等通才生成式 AI 系统非常需要数据。要将这种生成式 AI 系统应用于化学,需要数十万甚至数百万个数据点。
一种更注重化学的人工智能方法是根据分子的结构和性质来训练系统。在 AI 的语言中,分子结构是图形。在分子中,化学键连接原子——就像边连接图中的节点一样。这种拥有 5,000-10,000 个数据点的人工智能系统已经可以击败传统的计算方法来回答化学问题。问题是,在许多情况下,即使 5,000 个数据点也远远超过当前可用的数量。
AlphaFold 蛋白质结构预测工具,可以说是最成功的化学 AI 应用程序,使用了这种图形表示方法。AlphaFold 的创建者在一个强大的数据集上对其进行了训练:成立于 1971 年的蛋白质数据库(Protein data Bank)中的信息,旨在整理不断增长的实验确定的蛋白质结构集,目前包含超过 200,000 个结构。AlphaFold 提供了一个很好的例子,说明在提供足够的高质量数据时,AI 系统可以拥有的强大功能。
那么其他人工智能系统如何创建或访问更多更好的化学数据呢?一种可能的解决方案是建立从已发表的研究论文和现有数据库中提取数据的系统,例如英国剑桥大学的研究人员创建的一种算法 OPSIN,该算法将化学名称转换为结构。这种方法加速了 AI 在有机化学中的应用。(OPSIN 开源地址:
https://opsin.ch.cam.ac.uk/)
一种开源解决方案 OPSIN:从化学名称到结构。(来源:J. Chem. Inf. Model.)
另一种加快速度的潜在方法是使实验室系统自动化。现有选项包括机器人材料处理系统,可以设置它来制造和测量化合物以测试 AI 模型输出。然而,目前这种能力是有限的,因为与人类化学家相比,该系统只能进行相对狭窄范围的化学反应。
AI 开发人员可以使用真实数据和模拟数据来训练他们的模型。剑桥麻省理工学院的研究人员使用这种方法创建了一个基于图的模型,可以预测分子的光学特性,例如它们的颜色。
还有一个特别明显的解决方案:人工智能工具需要开放数据。人们发表论文的方式必须不断发展,使数据更易于访问。这就是 Nature 要求作者将他们的代码和数据存放在开放存储库中的原因之一。这也是关注数据可访问性的另一个原因,超越了围绕结果复制和高调撤回的科学危机。化学家们已经在使用开放式反应数据库等设施解决这个问题。
但即便如此,也可能不足以让人工智能工具发挥其全部潜力。最好的训练集还应包括负面结果的数据,例如不产生所需物质的反应条件。数据需要以商定和一致的格式记录,而目前还没有。
化学应用要求计算机模型比最好的人类科学家更好。只有采取措施收集和共享数据,人工智能才能满足化学方面的期望。
参考内容:https://www.nature.com/articles/d41586-023-01612-x
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...