有没有违反双盲评审,这篇论文有没有录取资格?

电子说

1.3w人已加入

描述

一篇“4, 4, 3”的论文竟被录取?这届ICLR评审又出怪事。作者回复理直气壮,领域主席似乎一手遮天,三位评审据理力争,还有匿名“侦探”调查贡献……作者有没有违反双盲评审,更重要的是,这篇论文有没有录取资格?一起来看。

感谢ICLR,不仅为我们带来前沿深度学习研究成果,更为我们带来茶余饭后无尽的谈资——你猜对了,又有一出关于论文录取的好戏在OpenReiew.net上演。

说真的,剧荒的时候,请登录OpenReiew.net.

事情是这样的,一篇评分为“4,4,3”的论文 (按理说处于绝对被拒的范畴,满分是10分),最终竟被AC一人之令决定录取,围观群众纷纷表示:

既如此,还要匿名评审干嘛?!

细看rebuttal更不得了,作者和评审你来我往,简直不能更精彩:

(评审1让作者补充引用两篇现有论文,作者回复) 感谢评论,我们理解你的感受。……我们会在定稿中加上这两条引用(不是评审1提到的那两篇)。如果还剩有空间的话,我们会考虑加上你提到的那两篇论文中的一篇。

(评审1指出作者关于某一计算的理解有误,此前双方已就这一点有好过几轮争辩,这一次评审1的回复类似“参考文献[2]第69页5.22节中的定理一可以证明这一点。有关该理论的证明可参见参考文献[2]第98页附录C.3等等等等”,作者回复) 麻烦请用你自己的话说明究竟是为什么。

其他还有:

“感谢评论,但很不幸的是,三位评审员都没有理解或者忽略了我们这项工作的重点。”

“感谢你的详细评论,但我们完全无法接受。”

Sigh…

是该佩服论文作者有话直说呢,还是该感叹他们有勇无谋?

一名吃瓜群众表示,自己一篇“7, 7, 5”的论文都被拒了 (虽然没什么好奇怪的),另一个人说,他还发现一篇“4,5,6”的论文也被录取了。

不论如何,这届ICLR真是叫人愈发看不懂了……

一篇评分“4, 4, 3”然而最终竟被录取的论文

细说故事——哦,不,细说论文之前,我们先来看看这篇论文究竟写了什么。

论文的题目是《使用几何方法将目录树编码到词嵌入中》。

数据集

在这篇论文中,作者提出了一种新的方法,将树状结构的category信息隐式编码到词嵌入中,从而得到所谓的“超维球状表示” (super-dimensional ball representation),简称 n-ball embedding。

该方法具有以下两个标准:

category之间的从属关系应隐式地表示为对应的n-balls之间的包含关系;

对category关系的树结构进行精确编码。也就是说,能量损失应该为零。

作者在论文中写道,该研究的贡献如下:

提出了一种构造/训练n-balls的新几何方法,将树状结构的范畴关系编码为能量损失为零的n-balls之间的包含关系;

提出了一种新的相似度测量方法,既考虑了n-balls的位置,又考虑了n-balls的大小,与实验中的余弦相似度相比更加精确;

基于Glove创造了一个新的n-ball embedding基准数据集,从WordNet 3.0中提取目录树,可免费访问。

论文还开放了源代码和数据集:

https://github.com/gnodisnait/nball4tree.git

https://github.com/gnodisnait/bp94nball.git

到这里为止似乎没什么问题。公开代码和数据集原本是很好的举动,但这也为后面的口水战埋下了伏笔。

一场意想不到的rebuttal大战上演了。

三位审稿人“坚决拒绝”,领域主席说“可以录取” 

先来看三位评审员对论文的评价。

审稿人1

更新:注意!!! 此文包含与作者相关帐户的Github和Google Drive链接(请参阅摘要)。我认为这是投稿规则不允许的,不符合标准。为此,我在具体审稿意见中给出“自动拒绝”的意见。

------------------------------------------------

本文提出了一种方法,用于调整category对象(如单词)的现有向量嵌入,将其转换为遵循层次结构的球嵌入。每个类别在高维空间中表示为欧几里得标准球,其中心和半径可以根据数据实现自适应。接下来,基于分层结构给出对每对球的包含和排除约束。这些约束是通过算法强加上去的。实证研究部分包括观察表示与层次结构的一致性,并展示了一组单词的最近临域。

从积极的方面来说,本文解决了一个重要问题。具有一定可读性和条理。在相关研究部分,可以增补一些代表性的研究,如本意见末的[3,4]。

该论文的主要关注点是文中提出方法的原创性。使用高维球对层次结构进行编码,并将包含和排除编码作为对这些球的约束,从建模角度来看,这是一个简洁有力的想法。然而,这个方法并不新,在本意见末尾列出的[1和2的第5章]中已经构建了这种方法。

另一个主要问题是关于嵌入质量的评估。经验评估不足以评估调整后嵌入的质量。相反,定量评估更关心的是嵌入是否与给定的层级结构相一致。特别是,文中并没有足够的定量证据表明,所提出的嵌入在语义捕捉或预测任务方面的有效性。

应当注意的是,一方面,在理论上是可以实现可行解决方案与层级的一致性的(参见例[1])。3.2节的第一段似乎表述不清或存在错误。文末的索引[2]中给出了基于梯度的问题解决方案的正确表述。

最后,本文使用算法,而非用于构建嵌入的学习方法,使得该方法与ICLR会议的主题没有直接关联。

总之,综上所述,我的意见是拒绝录取。(本文在匿名化上做得很糟糕,更是应予拒稿的有力证据。)

[1] Mirzazadeh, F., Ravanbakhsh S., DingN., Schuurmans D.,  "Embeddinginference for structured multilabel prediction", NIPS 2015.

[2] Mirzazadeh, F."Solving AssociationProblems with Convex Co-embedding", PhD thesis, 2017. (Chapter 5)

[3] Vilnis, Luke, and Andrew McCallum."Word representations via gaussian embedding.", ICLR 2015.

[4] Vendrov, I., Kiros, R., Fidler, S.,Urtasun, R. "Order-embeddings of images and language." ICLR 2016.

评分:4  还可以,但不够好,拒绝

信心:5  审稿人绝对肯定以上评估是正确的,并且非常熟悉相关文献

审稿人2

评审意见:本文着重于调整预训练词嵌入,以便通过适当的n-ball封装来解决上位词/下位词关系。本文建议通过来自Wordnet等资源,为词嵌入增补信息,并使用3种几何变换来强制执行该封装。

这样做的动机目前来看并不是很清楚,实验结果主要是定性的主观表述,称通过调整可以预测和保持上位词关系。由于这项工作依赖于Wordnet的资源,词汇的覆盖范围非常有限,作者在“实验3:方法2”一节中对结果进行讨论时,不得不从标准语义相似性数据集中删去许多单词,给文中提出的方法的有用性蒙上了一层阴影。目前尚不清楚这种方法的主要贡献是什么。

除此之外,该论文难以阅读,并且文中某些部分(特别是与图3有关的部分)在将简单概念进行复杂化表述。

总的来说,我给出4分的评分,因为文中方法的适用范围有限,因为该方法依赖于Wordnet,而且没有足够的经验证据证明这种方法的有用性。

评分:4  还可以,但不够好,拒绝

信心:4  审稿人有信心,但并不能绝对肯定以上评估的正确性。

审稿人3

评审意见:本文提出了用于分类数据的N-ball嵌入。N-ball是一对质心向量,距中心的半径代表一个单词。

主要评价:

本文的缺点是缺乏与其他重要研究的实验比较。

最近提出的Poincare嵌入和Lorentz模型,在hypernymy嵌入中表现出良好的预测性能。 

实际上,WordNet的概念是在DAG中构建的,最近对结构嵌入的研究可以处理DAG数据。目前尚不清楚如何通过扩展N-ball嵌入来处理DAT结构。

没有充分描述相关工作。

目前尚不清楚为什么N-ball嵌入适用于分层结构。

评分:3  坚决拒绝

信心:4  审稿人有信心,但并不能绝对肯定以上评估的正确性

看完上述三位评审人的评价,再来看领域主席的决定。

AC:

审稿意见:作者提供了一种有趣的方法,可以将分层信息注入现有的单词向量中。这可能有助于处理需要知识库信息和文本共现计数的各种任务。

尽管审稿人指出了本文的一些缺点,但我认为这可能只是没有将符号信息/集/逻辑/KB与神经网络联系起来造成的问题,因此我建议会议接收本文。

信心:4  AC确信本文可以接收,但不完全确定。

意见:接收

对此你有什么看法?

新智元引用Reddit一位用户的评价:

Area chair decided he/she knows better.

深度学习研究者中的一股清流,还是泥石流???

具体的rebuttal在文章开始已经说过,这里就不一一描述了,总之绝对精彩,欲知详情可点击“阅读原文”。

现在,由于录取结果已定,论文的作者信息也已经公开,如此“直言不讳”的一作,究竟是何方神圣?

Tiansi Dong,波恩大学

论文的第一作者Tiansi Dong博士是德国波恩大学Bonn-Aachen信息技术国际中心(B-IT)人工智能基础研究小组的成员,主要研究领域包括人工智能、深度学习和知识图谱。

Tiansi Dong博士是一位高产的作者,2018年以来已在ICLR、AAAI、EMNLP、COLING等AI、NLP的重要会议上发表5篇论文。

数据集

Tiansi Dong的最近论文

数据集

该论文的其他几位作者Olaf Cremers、Chrisitan Bauckhage、Armin B. Cremers、Daniel Speicher和Joerg Zimmermann,是Tiansi Dong在波恩大学的同事,另外两位作者Hailong Jin和Juanzi Li则来自清华大学。

双盲评审意外盲点:Github代码库贡献用户名“暴露”论文一作

当然,关于这篇论文的评审和录取结果已经在Reddit引发了热议。

除了“4, 4, 3”还能够被录取,Reddit上的争论重点在于,论文作者公开代码库时,GitHub上传贡献者的用户名“gnodisnait”,正是一作“Tiansi Dong”反过来写的结果。

这算违背论文提交匿名机制了吗?

Reddit用户Visible_Layer评论说,

我觉得关键是作者给出了“非匿名”作者的代码链接。把文章发到arxiv上没问题,从文章里给出arxiv的链接就有问题了。

关键是,要确保“诚实”的审稿人通过论文及文中的链接资源无法获知文章的作者。

Reddit用户geraltofrivia783:

但是,从“诚实”的审稿人到“好奇”的审稿人之间,其实只隔了一个谷歌搜索而已。而审稿人是否使用谷歌搜索不应该对其给出评分产生影响。

不要误会,我完全支持双盲审稿。事实上,我最近向NAACL提交了一份意见书,我发现他们关于匿名化政策就很好。

• 他们说,如果你要将提交在arXiv上的论文重新投稿,则该文章在arXiv上的提交日期必须在NAACL摘要截止日期至少前一个月。我认为,这仍然留下了提交给NAACL论文和arXiv上论文作者存在差异的可能性。(ICLR可能也有类似的规定)

• 现在有很多匿名上传代码和数据的方法。这一点很有帮助,因为不用在匿名论文版本中添加 github/gdrive的链接了。

Visible_Layer:

所以说这篇文章才违反了匿名政策啊,毕竟有许多方法可以匿名上传代码和相关材料(几乎不用费什么事!),而作者还是上传到了自己的个人账户。

无论一项政策的“公平”程度如何,都是政策,而作者确实违反了政策。

说到这里,新智元相信你也已经看累了,就让我们用Reddit用户DeusExML的评论收尾吧。

看上去这个审稿流程简直就是人际沟通技能的一场灾难级展示!

一开始作者信誓旦旦地说Github资源库是匿名的,结果就被人石锤了,原来这个“匿名”资源库用的是作者自己的真名,之后作者是这么回复的:“你(匿名评论人)侦查工作的成果(指Github库贡献者用户名)是几个对本研究没什么署名要求的人,可能是来自本校或合作院校的硕士生,主要是帮着收集数据。”

哈哈,你看露馅了吧。虽然你们干了活,但我们根本没打算让你们署名啊!

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分