电子说
一篇一年前的Nature论文近日在Reddit上引发热议,一位数据科学家认为这篇预测地震余震的论文在数据处理方法上存在重大缺陷,导致实验结果虚高,他向Nature去信反映意见,后者承认问题存在,但认为没有必要修正,而论文作者则态度强硬,不承认论文有问题。有人整理了事件的来龙去脉,引发热烈讨论。
近日,一篇一年前发表在《Nature》上的一篇关于使用深度学习技术预测大地震余震的文章在Reddit上引发热议。
事情的起源是,一位名叫Rajiv Shah数据科学家认为,这篇由哈佛大学和谷歌联合发表的论文在训练数据集和测试数据集划分和选择上存在重大缺陷,造成了“目标泄露”,导致预测性能结果偏高。这实际上使整个实验结果不再有效。
于是他联系了《Nature》表达了自己的对这篇文章的不同意见,然而Nature方面尽管承认他的意见有合理之处,论文在模型和算法设计上存在缺陷,但拒绝对此进行修正。两位论文作者也给出回复意见,否认了Rajiv Shah的全部意见。
一年前旧账重提:一篇Nature论文缺陷引发的争议
于是,近日Rajiv Shah在Medium上发文,将此事的整个过程讲述了一遍,并坚持自己的观点。随文附上了Nature论文、自己与Nature方面的通信往来,以及作者的回复意见等。热心网友将此文转到Reddit上,引发热烈讨论:
来看看当事人Rajiv Shah在Medium上的博客文章对于此事的梳理:(Medium原文编译)
人工智能,机器学习,预测建模和数据科学的研究在过去几年中发展迅速。随着人工智能研究和相关产业的持续增长,新一代的机器学习增强、自动化和GUI工具的诞生让越来越多的人构建预测模型。
但这样问题就来了:虽然使用预测建模工具变得更容易,但预测建模知识还不够普及,如果不小心,就很容易导致错误的结论。
不良方法会导致不准确的结果
大概一年前,我在《自然》上读到一篇文章,声称通过深度学习预测地震的余震达到了前所未有的准确性。但读过之后,我对他们的声称的结果产生了深深的怀疑。他们的方法的建模过程完全不够仔细,导致结果不再可信。
与此同时,这篇论文引发了广泛关注和认可。甚至在Tensorflow的官方说明中也提到了这篇文章,作为深度学习应用的例子。我发现这篇论文存在重大缺陷。论文中出现的数据泄漏问题会导致文中得出的准确度得分偏高,而且预测方法在模型选择上也不够关注(如果更简单的模型可以达到同样的准确度,就不必构建6层神经网络了)。
回到我之前的观点:论文中使用的方法很精巧,但在基本预测建模上的错误可能会使实验的整个结果无效。数据科学家应该在工作中及时发现并避免这些问题。我认为本文作者们完全忽略了这一点,所以我联系了作者,希望能改进文中的分析流程。虽然我们之前沟通过,但关于这篇文章的疑问,她没有回复我的邮件。
Nature回复:承认瑕疵,拒绝修正,论文作者表示没毛病
那么,我该怎么办?我的同事建议我发个Twitter就算了,但我认为应该大力提倡良好的建模习惯和理念。所以在接下来的6个月里,我一直在记录自己的结果,并与Nature方面进行了分享。
今年1月,我收到了Nature的一份回复说明,认为尽管关于数据泄漏和模型选择的严重问题使文中的实验结果不够可靠,但他们认为没有必要纠正,因为Devries等人主要关注的是将机器学习作为一种工具来获得对自然世界的洞察力,重点不是算法设计的细节。而此文的作者则做出了措辞更为严厉的回应。
我感到很失望。这是一篇重磅论文(毕竟发在Nature上啊),尽管文中的方法有缺陷,但它还是发表了,推动了对人工智能的又一波追捧。
本周,两位从事地震分析的数据科学家Arnaud Mignan和Marco Broccardo也撰文指出了在Nature那篇余震预测文章中发现了缺陷。我也把我自己的分析和可重现的代码放在了github上。
我想说清楚一点:我不是故意和Nature那篇论文的作者人品有问题。我不认为她们是有意为之,她们的目标只是展示如何将机器学习技术应用于余震预测。文章作者之一Devries是一位多才多艺的地震科学家,希望将最新的方法用于她的研究领域,并从中找到亮眼的结果。
但问题在于:这些观点和结果是基于有根本缺陷的方法得出的。仅仅说“这不是机器学习论文,而是地震论文”是解释不了的。一旦使用了预测模型,那么预测结果的质量就取决于建模质量,取得的成果就属于数据科学的成果,数据科学的结果必须严谨。
期刊方面历来对刊登对关于最新技术和方法的论文兴趣极高,但是,如果我们允许有基本问题的论文或项目取得进展,就会伤害我们所有人,对预测建模领域造成破坏。
Nature论文介绍:深度学习预测余震效果拔群
实际上,新智元在此前的报道中曾对Nature这篇文章进行过简要介绍:
谷歌和哈佛大学在Nature杂志发表的一篇论文中,研究人员展示了如何用深度学习预测余震位置,而且预测结果比现有模型更可靠。
他们训练了一个神经网络,在一个包含131000多个“主震-余震”事件的数据库中寻找模式,然后在一个包含30000对类似事件的数据库中测试其预测。
“主震-余震”事件的一个样本
深度学习网络比最有用的现有模型(称为“库仑破裂应力变化”)更可靠。在从0到1的精度范围内——1是完全准确的模型,0.5是一半准确的模型——现有库仑模型得分为0.583,而新的AI系统达到0.849。
“关于地震,你需要知道三件事情,”研究人员说:“它们什么时候发生、它们会有多强烈、它们会发生在哪里。在这项工作之前,我们有经验定律来解释它们发生的时间和规模,现在我们正在研究它们可能发生在哪。”
人工智能在这一领域的成功归功于该技术的核心优势之一:它能够发现复杂数据集中以前被忽视的模式。这在地震学中尤为重要,因为在地震学中看到数据中的关联性非常困难。地震事件涉及太多变量,从不同区域的地面构成到地震板块之间的相互作用类型,以及能量在地震波中穿过地球传播的方式。理解这一切是非常困难的。
研究人员表示,他们的深度学习模型能够通过考量一个被称为“米塞斯屈服准则”(von Mises yield criterion)的因素来做出预测,这是一种用于预测材料何时开始在压力下破裂的复杂计算。研究人员表示,这个因素常用于冶金等领域,“但在地震科学中从未流行过。”现在,随着这一新模型的发现,地质学家可以研究其关联性。
尽管这项研究取得了成功,但它还远未准备好在现实世界中应用。首先,AI模型只关注由地面永久性变化引起的余震,称为静态应力。但后续地震也可能是由于后来发生的地面隆隆声造成的,称为动态压力。现有模型也太慢而无法实时工作。这很重要,因为大多数余震发生在地震发生后的第一天,然后每过一天频率大致减半。
Rajiv的意见:训练方法缺陷导致“目标泄露”,实验结果虚高
在Rajiv致Nature的信中,指出这篇文章中存在“重大方法性错误”,使得文章结论不再严谨可靠。Rajiv主要提出了三点意见,以第一点为主。
第一,文中对模型训练和测试数据运用存在缺陷,出现了“目标泄露”(Target Leakage),论文中公布的预测精度实际上是偏高的结果(AUC=0.849)。论文中使用地震中部分数据来训练模型,然后再次使用这些数据来测试模型。这种目标泄露会导致机器学习中的结果偏高,而实际效果并没有这么好。为了避免这一错误,需要使用“分组分区”的方法,保证地震数据只会出现在训练部分或测试部分其中之一,而本文没有这样做。
第二个问题是没有使用学习曲线。
第三是上来就使用深度学习模型,而没有考虑逻辑回归、随机森林等基线方法。这可能会给读者造成误导,认为只有深度学习才能对余震预测任务取得良好效果,实际上并非如此,许多其他方法(如SVM、GAM)都可以获得与文中模型基本相当的性能。
在Nature的回复中,实际上在一定程度上承认了Rajiv意见的合理性,但拒绝对此进行纠正。
Nature方面的态度是:
尽管关于数据泄漏和模型选择的问题使文中的实验结果不够可靠,但没有必要纠正,因为本文作者Devries等人主要关注的是将机器学习作为一种工具来获得对自然世界的洞察力,算法设计的细节不是重点。
而论文作者方面给出的回复意见对这三点均予以反驳,二位作者表示:
1、Rajiv关于“数据泄露”使得模型性能虚高的说法在科学背景下不具备合理性。对地震数据训练集和测试集的分组符合机器学习的基本方法。
2、本文使用神经网络作为工具,为了获得关于余震的一些模式信息,并没有表示其他机器学习方法无用的意思。
3、整个文章的主旨就是神经网络能够成功学习简单的模式。
二位作者还在回复意见的最后部分表示,Rajiv的评论没有任何科学背景。我们是地震科学家,我们的目标是利用机器学习获得关于余震位置模式的信息,完成这个目标的是我们,而不是Rajiv的这些评论。如果Nature选择公开这些评论,我们会感到很失望。
网友热议:Nature承认有问题就该改,作者态度令人堪忧
Nature上的文章从来不缺少关注,尤其是出现重大争议的文章。虽然是一笔一年前的老账,但来龙去脉还很清楚,毫无悬念地成为Reddit上头号热帖。
从回复的热门帖子看,很多网友认为Rajiv的批评意见值得充分讨论,而Nature在承认论文中的算法存在一定问题的情况下仍然拒绝修改,没有尽到应尽的责任。至于二位作者的回复,一方面缺乏面对反对意见时的风度,而且对某些重要概念(比如数据泄露)的理解存在问题。
下面简单摘选几个:
1、我觉得论文作者的回复比批评意见本身更为“居高临下”啊。意见中提到使用更简单的方法也能得到基本相同的结果,这说明进行一些模型简化测试很有必要。尤其是作者回复的最后一段,简直是在说:我们是地震科学家,敢问您是哪位啊?然后还跟Nature讲,如果你公布了这些评论意见,我们会“很失望”的。作者凭什么这么说?为什么这些评论意见不该公布?难倒公布了不正能引发更多良性的科学讨论吗?而且评论中的意见也不是孤例,其他文章中也有提到这个问题。如果我是这篇文章的会议审稿人,我也会有类似的疑问,至少我会要求作者作一些模型简化测试。
2、我读了论文作者(Phoebe DeVrias和Brendan Meade)对Nature编辑的回应。虽然我不知道这些评论的背景,但可以肯定地说,她们面对批评意见表现得非常不成熟。
3、“我们承认在训练和测试集中都使用了来自同一地震的数据,但这并不重要,因为我们是聪明的地震科学家。” 嗯,很好很强大。
全部0条评论
快来发表一下你的评论吧 !