有没有违反双盲评审,这篇论文有没有录取资格？

DPVg_AI_era 2019-01-23 3069

电子说

1.2w人已加入

描述

一篇“4, 4, 3”的论文竟被录取？这届ICLR评审又出怪事。作者回复理直气壮，领域主席似乎一手遮天，三位评审据理力争，还有匿名“侦探”调查贡献……作者有没有违反双盲评审，更重要的是，这篇论文有没有录取资格？一起来看。

感谢ICLR，不仅为我们带来前沿深度学习研究成果，更为我们带来茶余饭后无尽的谈资——你猜对了，又有一出关于论文录取的好戏在OpenReiew.net上演。

说真的，剧荒的时候，请登录OpenReiew.net.

事情是这样的，一篇评分为“4，4，3”的论文 (按理说处于绝对被拒的范畴，满分是10分)，最终竟被AC一人之令决定录取，围观群众纷纷表示：

既如此，还要匿名评审干嘛？！

细看rebuttal更不得了，作者和评审你来我往，简直不能更精彩：

(评审1让作者补充引用两篇现有论文，作者回复) 感谢评论，我们理解你的感受。……我们会在定稿中加上这两条引用(不是评审1提到的那两篇)。如果还剩有空间的话，我们会考虑加上你提到的那两篇论文中的一篇。

(评审1指出作者关于某一计算的理解有误，此前双方已就这一点有好过几轮争辩，这一次评审1的回复类似“参考文献[2]第69页5.22节中的定理一可以证明这一点。有关该理论的证明可参见参考文献[2]第98页附录C.3等等等等”，作者回复) 麻烦请用你自己的话说明究竟是为什么。

其他还有：

“感谢评论，但很不幸的是，三位评审员都没有理解或者忽略了我们这项工作的重点。”

“感谢你的详细评论，但我们完全无法接受。”

Sigh…

是该佩服论文作者有话直说呢，还是该感叹他们有勇无谋？

一名吃瓜群众表示，自己一篇“7, 7, 5”的论文都被拒了 (虽然没什么好奇怪的)，另一个人说，他还发现一篇“4，5，6”的论文也被录取了。

不论如何，这届ICLR真是叫人愈发看不懂了……

一篇评分“4, 4, 3”然而最终竟被录取的论文

细说故事——哦，不，细说论文之前，我们先来看看这篇论文究竟写了什么。

论文的题目是《使用几何方法将目录树编码到词嵌入中》。

数据集

在这篇论文中，作者提出了一种新的方法，将树状结构的category信息隐式编码到词嵌入中，从而得到所谓的“超维球状表示” (super-dimensional ball representation)，简称 n-ball embedding。

该方法具有以下两个标准：

category之间的从属关系应隐式地表示为对应的n-balls之间的包含关系；

对category关系的树结构进行精确编码。也就是说，能量损失应该为零。

作者在论文中写道，该研究的贡献如下：

提出了一种构造/训练n-balls的新几何方法，将树状结构的范畴关系编码为能量损失为零的n-balls之间的包含关系;

提出了一种新的相似度测量方法，既考虑了n-balls的位置，又考虑了n-balls的大小，与实验中的余弦相似度相比更加精确；

基于Glove创造了一个新的n-ball embedding基准数据集，从WordNet 3.0中提取目录树，可免费访问。

论文还开放了源代码和数据集:

https://github.com/gnodisnait/nball4tree.git

https://github.com/gnodisnait/bp94nball.git

到这里为止似乎没什么问题。公开代码和数据集原本是很好的举动，但这也为后面的口水战埋下了伏笔。

一场意想不到的rebuttal大战上演了。

三位审稿人“坚决拒绝”，领域主席说“可以录取”

先来看三位评审员对论文的评价。

审稿人1

更新：注意!!! 此文包含与作者相关帐户的Github和Google Drive链接（请参阅摘要）。我认为这是投稿规则不允许的，不符合标准。为此，我在具体审稿意见中给出“自动拒绝”的意见。

------------------------------------------------

本文提出了一种方法，用于调整category对象（如单词）的现有向量嵌入，将其转换为遵循层次结构的球嵌入。每个类别在高维空间中表示为欧几里得标准球，其中心和半径可以根据数据实现自适应。接下来，基于分层结构给出对每对球的包含和排除约束。这些约束是通过算法强加上去的。实证研究部分包括观察表示与层次结构的一致性，并展示了一组单词的最近临域。

从积极的方面来说，本文解决了一个重要问题。具有一定可读性和条理。在相关研究部分，可以增补一些代表性的研究，如本意见末的[3,4]。

该论文的主要关注点是文中提出方法的原创性。使用高维球对层次结构进行编码，并将包含和排除编码作为对这些球的约束，从建模角度来看，这是一个简洁有力的想法。然而，这个方法并不新，在本意见末尾列出的[1和2的第5章]中已经构建了这种方法。

另一个主要问题是关于嵌入质量的评估。经验评估不足以评估调整后嵌入的质量。相反，定量评估更关心的是嵌入是否与给定的层级结构相一致。特别是，文中并没有足够的定量证据表明，所提出的嵌入在语义捕捉或预测任务方面的有效性。

应当注意的是，一方面，在理论上是可以实现可行解决方案与层级的一致性的（参见例[1]）。3.2节的第一段似乎表述不清或存在错误。文末的索引[2]中给出了基于梯度的问题解决方案的正确表述。

最后，本文使用算法，而非用于构建嵌入的学习方法，使得该方法与ICLR会议的主题没有直接关联。

总之，综上所述，我的意见是拒绝录取。（本文在匿名化上做得很糟糕，更是应予拒稿的有力证据。）

[1] Mirzazadeh, F., Ravanbakhsh S., DingN., Schuurmans D., "Embeddinginference for structured multilabel prediction", NIPS 2015.

[2] Mirzazadeh, F."Solving AssociationProblems with Convex Co-embedding", PhD thesis, 2017. (Chapter 5)

[3] Vilnis, Luke, and Andrew McCallum."Word representations via gaussian embedding.", ICLR 2015.

[4] Vendrov, I., Kiros, R., Fidler, S.,Urtasun, R. "Order-embeddings of images and language." ICLR 2016.

评分：4 还可以，但不够好，拒绝

信心：5 审稿人绝对肯定以上评估是正确的，并且非常熟悉相关文献

审稿人2

评审意见：本文着重于调整预训练词嵌入，以便通过适当的n-ball封装来解决上位词/下位词关系。本文建议通过来自Wordnet等资源，为词嵌入增补信息，并使用3种几何变换来强制执行该封装。

这样做的动机目前来看并不是很清楚，实验结果主要是定性的主观表述，称通过调整可以预测和保持上位词关系。由于这项工作依赖于Wordnet的资源，词汇的覆盖范围非常有限，作者在“实验3：方法2”一节中对结果进行讨论时，不得不从标准语义相似性数据集中删去许多单词，给文中提出的方法的有用性蒙上了一层阴影。目前尚不清楚这种方法的主要贡献是什么。

除此之外，该论文难以阅读，并且文中某些部分（特别是与图3有关的部分）在将简单概念进行复杂化表述。

总的来说，我给出4分的评分，因为文中方法的适用范围有限，因为该方法依赖于Wordnet，而且没有足够的经验证据证明这种方法的有用性。

评分：4 还可以，但不够好，拒绝

信心：4 审稿人有信心，但并不能绝对肯定以上评估的正确性。

审稿人3

评审意见：本文提出了用于分类数据的N-ball嵌入。N-ball是一对质心向量，距中心的半径代表一个单词。

主要评价：

本文的缺点是缺乏与其他重要研究的实验比较。

最近提出的Poincare嵌入和Lorentz模型，在hypernymy嵌入中表现出良好的预测性能。

实际上，WordNet的概念是在DAG中构建的，最近对结构嵌入的研究可以处理DAG数据。目前尚不清楚如何通过扩展N-ball嵌入来处理DAT结构。

没有充分描述相关工作。

目前尚不清楚为什么N-ball嵌入适用于分层结构。

评分：3 坚决拒绝

信心：4 审稿人有信心，但并不能绝对肯定以上评估的正确性

看完上述三位评审人的评价，再来看领域主席的决定。

AC：

审稿意见：作者提供了一种有趣的方法，可以将分层信息注入现有的单词向量中。这可能有助于处理需要知识库信息和文本共现计数的各种任务。

尽管审稿人指出了本文的一些缺点，但我认为这可能只是没有将符号信息/集/逻辑/KB与神经网络联系起来造成的问题，因此我建议会议接收本文。

信心：4 AC确信本文可以接收，但不完全确定。

意见：接收

对此你有什么看法？

新智元引用Reddit一位用户的评价：

Area chair decided he/she knows better.

深度学习研究者中的一股清流，还是泥石流？？？

具体的rebuttal在文章开始已经说过，这里就不一一描述了，总之绝对精彩，欲知详情可点击“阅读原文”。

现在，由于录取结果已定，论文的作者信息也已经公开，如此“直言不讳”的一作，究竟是何方神圣？

Tiansi Dong，波恩大学

论文的第一作者Tiansi Dong博士是德国波恩大学Bonn-Aachen信息技术国际中心(B-IT)人工智能基础研究小组的成员，主要研究领域包括人工智能、深度学习和知识图谱。

Tiansi Dong博士是一位高产的作者，2018年以来已在ICLR、AAAI、EMNLP、COLING等AI、NLP的重要会议上发表5篇论文。

数据集

Tiansi Dong的最近论文

数据集

该论文的其他几位作者Olaf Cremers、Chrisitan Bauckhage、Armin B. Cremers、Daniel Speicher和Joerg Zimmermann，是Tiansi Dong在波恩大学的同事，另外两位作者Hailong Jin和Juanzi Li则来自清华大学。

双盲评审意外盲点：Github代码库贡献用户名“暴露”论文一作

当然，关于这篇论文的评审和录取结果已经在Reddit引发了热议。

除了“4, 4, 3”还能够被录取，Reddit上的争论重点在于，论文作者公开代码库时，GitHub上传贡献者的用户名“gnodisnait”，正是一作“Tiansi Dong”反过来写的结果。

这算违背论文提交匿名机制了吗？

Reddit用户Visible_Layer评论说，

我觉得关键是作者给出了“非匿名”作者的代码链接。把文章发到arxiv上没问题，从文章里给出arxiv的链接就有问题了。

关键是，要确保“诚实”的审稿人通过论文及文中的链接资源无法获知文章的作者。

Reddit用户geraltofrivia783：

但是，从“诚实”的审稿人到“好奇”的审稿人之间，其实只隔了一个谷歌搜索而已。而审稿人是否使用谷歌搜索不应该对其给出评分产生影响。

不要误会，我完全支持双盲审稿。事实上，我最近向NAACL提交了一份意见书，我发现他们关于匿名化政策就很好。

• 他们说，如果你要将提交在arXiv上的论文重新投稿，则该文章在arXiv上的提交日期必须在NAACL摘要截止日期至少前一个月。我认为，这仍然留下了提交给NAACL论文和arXiv上论文作者存在差异的可能性。（ICLR可能也有类似的规定）

• 现在有很多匿名上传代码和数据的方法。这一点很有帮助，因为不用在匿名论文版本中添加 github/gdrive的链接了。

Visible_Layer：

所以说这篇文章才违反了匿名政策啊，毕竟有许多方法可以匿名上传代码和相关材料（几乎不用费什么事！），而作者还是上传到了自己的个人账户。

无论一项政策的“公平”程度如何，都是政策，而作者确实违反了政策。

说到这里，新智元相信你也已经看累了，就让我们用Reddit用户DeusExML的评论收尾吧。

看上去这个审稿流程简直就是人际沟通技能的一场灾难级展示！

一开始作者信誓旦旦地说Github资源库是匿名的，结果就被人石锤了，原来这个“匿名”资源库用的是作者自己的真名，之后作者是这么回复的：“你(匿名评论人)侦查工作的成果(指Github库贡献者用户名)是几个对本研究没什么署名要求的人，可能是来自本校或合作院校的硕士生，主要是帮着收集数据。”

哈哈，你看露馅了吧。虽然你们干了活，但我们根本没打算让你们署名啊！

打开APP阅读更多精彩内容