机器学习研究中的四大危机是什么?

电子说

1.2w人已加入

描述

近期,来自CMU和斯坦福的Zachary C. Lipton和Jacob Steinhardt两位研究员为顶会ICML举办的Machine Learning: The Great Debate发表文章,并指出现在机器学习研究中的四大危机:混淆阐述与推测、无法明确得到较好结果的原因、数学公式堆积以及语言误用。

学术界在大家的印象里一般是很严肃的,但近期AI顶会ICML在斯德哥尔摩举办了一个辩论会—Machine Learning: The Great Debates (ML-GD),专供各家学者、研究人员积极探讨领域内技术的现状、瓶颈及对社会的影响。

有AI小网红之称的Zachary C.Lipton携手斯坦福研究员Jacob Steinhardt发表了参会的论文《Troubling Trends in Machine Learning Scholarship》,并发推文,引发了热烈的讨论。

观点提出背景

机器学习(ML)研究人员正在致力于有关“数据驱动算法”知识的创建和传播。据研究,许多研究人员都渴望实现以下目标:

理论性阐述可学习内容

深入理解经验严谨的实验

构建一个有高预测精度的工作系统

虽然确定哪些知识值得探究是很主观的,但是一旦主题确定,当论文为读者服务时,它对社区最有价值,它能创造基础知识并尽可能清楚地进行阐述。

什么样的论文更适合读者呢?我们可以列出如下特征:这些论文应该

(i)提供直观感受以帮助读者理解,但应明确区别于已证明的强有力结论;   

(ii)阐述考量和排除其他假设的实证调查 ;

(iii)明确理论分析与直觉或经验之间的关系 ;

(iv)利用语言帮助读者理解,选择术语以避免误解或未经证实的内容,避免与其他定义冲突,或与其他相关但不同的概念混淆。

机器学习研究中的四大危机

尽管机器学习最近取得了一些进展,但这些“理想”状态往往与现实背离。在这篇文章中,我们将重点放在以下四种模式上,这些模式在ML学术(schoolar-ship)中似乎是最流行的:

1. 无法区分客观阐述和推测。

2. 无法确定得到较好结果的原因,例如,当实际上是因为对超参数微调而获得好效果的时候,却强调不必要修改神经网络结构。

3. 数学公式堆积:使用令人混淆的数学术语而不加以澄清,例如混淆技术与非技术概念。

4. 语言误用,例如,使用带有口语的艺术术语,或者过多的使用既定的技术术语。

虽然这些模式背后的原因是不确定的,但会导致社区的迅速扩张、评阅的人数不足,以及学术和短期成功衡量标准(如文献数量、关注度、创业机会)之间经常出现的不平衡。虽然每种模式都提供了相应的补救措施(但不建议这么做),我们还将讨论一些关于社区如何应对这些趋势的推测性建议。

有缺陷的学术研究可能会误导大众,并阻碍学术未来的研究。实际上,这些问题有许多是在人工智能的历史(更广泛地说,是在科学研究)中循环出现的。1976年,Drew Mc-Dermott[1]指责人工智能社区放弃了自律,并预言“如果我们不能批判自己,别人就会帮我们解决问题”。

类似的讨论在整个80年代、90年代和2008年都反复出现[2,3,4]。在心理学等其他领域,糟糕的实验标准削弱了人们对该学科权威的信任。当今机器学习的强劲潮流归功于迄今为止大量严谨的研究,包括理论研究[5,6,7]和实证研究[8,9,10]。通过提高清晰明了的科学思维和交流,我们可以维持社区目前所享有的信任和投资。

总结

可能有人会认为这些问题可以通过自律、自我纠正来改善。这个观点虽然是正确的,但是机器学习社区需要反复讨论如何构建合理的学术标准以实现这种自我修正。

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分