一种新的统计技术使研究人员能够安全地使用机器学习预测来测试科学假设。这张图片显示了对该技术的艺术诠释,称为预测驱动的推理,该技术由 DALL-E AI 系统生成。图片来源:迈克尔·乔丹
在过去的十年中,人工智能几乎渗透到科学的每个角落:机器学习模型已被用于预测蛋白质结构,估计因森林砍伐而消失的亚马逊雨林的比例,甚至对可能是系外行星家园的遥远星系进行分类。
但是,虽然人工智能可以用来加速科学发现——帮助研究人员对在现实世界中可能难以研究或成本高昂的现象做出预测——但它也可能使科学家误入歧途。就像聊天机器人有时会“产生幻觉”或编造一样,机器学习模型有时会呈现误导性或彻头彻尾的错误结果。
在《科学》杂志在线发表的一篇论文中,加州大学伯克利分校的研究人员提出了一种新的统计技术,可以安全地使用从机器学习模型中获得的预测来测试科学假设。
该技术称为预测驱动推理(PPI),它使用少量真实世界的数据来纠正大型通用模型的输出,例如预测蛋白质结构的AlphaFold,在特定科学问题的背景下。
“这些模型是通用的:它们可以回答很多问题,但我们不知道哪些问题回答得很好,哪些问题回答得不好 - 如果你天真地使用它们,不知道你处于哪种情况下,你会得到糟糕的答案,”研究作者迈克尔乔丹说,他是加州大学伯克利分校电气工程和计算机科学以及统计学的Pehong Chen杰出教授。借助 PPI,您可以使用模型,但可以纠正可能的错误,即使您一开始并不知道这些错误的性质。
当科学家进行实验时,他们不仅仅是在寻找一个单一的答案,而是想获得一系列合理的答案。这是通过计算“置信区间”来完成的,在最简单的情况下,可以通过多次重复实验并查看结果如何变化来找到。
在大多数科学研究中,置信区间通常是指汇总或组合统计量,而不是单个数据点。不幸的是,机器学习系统专注于单个数据点,因此无法为科学家提供他们关心的不确定性评估。例如,AlphaFold 预测了单个蛋白质的结构,但它没有为该结构提供置信度的概念,也没有提供获得参考蛋白质一般性质的置信区间的方法。
科学家们可能会想把AlphaFold的预测当作数据来计算经典的置信区间,而忽略了这些预测不是数据的事实。这种方法的问题在于,机器学习系统存在许多隐藏的偏差,可能会扭曲结果。这些偏见在一定程度上源于他们所训练的数据,这些数据通常是现有的科学研究,可能与当前研究的重点不同。
“事实上,在科学问题中,我们经常对处于已知和未知边缘的现象感兴趣,”乔丹说。“很多时候,过去没有太多数据处于这个边缘,这使得生成式人工智能模型更有可能产生幻觉,产生不切实际的输出。”
PPI 允许科学家整合 AlphaFold 等模型的预测,而无需对模型的构建方式或训练数据做出任何假设。为此,PPI 需要少量无偏见的数据,这些数据与正在研究的特定假设有关,并与与该数据相对应的机器学习预测配对。通过将这两个证据来源结合在一起,PPI能够形成有效的置信区间。
例如,研究小组将PPI技术应用于算法,这些算法可以使用卫星图像精确定位亚马逊地区的森林砍伐区域。总体而言,这些模型在森林中单独测试时是准确的;然而,当这些评估结合起来估计整个亚马逊的森林砍伐时,置信区间变得高度偏斜。这可能是因为该模型难以识别某些较新的森林砍伐模式。
借助 PPI,该团队能够使用少量人工标记的森林砍伐区域来校正置信区间的偏差。
该团队还展示了该技术如何应用于各种其他研究,包括有关蛋白质折叠,星系分类,基因表达水平,浮游生物计数以及收入与私人健康保险之间的关系的问题。
“这种方法可以应用于的问题类型确实没有限制,”乔丹说。“我们认为PPI是现代数据密集型、模型密集型和协作科学中急需的组成部分。
其他合著者包括加州大学伯克利分校的Anastasios N. Angelopoulos,Stephen Bates,Clara Fannjiang和Tijana Zrnic。
原文标题:How to use AI for discovery without leading science astray
原文链接:
https://techxplore.com/news/2023-11-ai-discovery-science-astray.html作者:Kara Manke, University of California - Berkeley
编译:LCR
相关标签: