NAACL 2019最佳论文揭晓，谷歌BERT获最佳长论文

作者：机器之心来源：机器之心公众号

分享到：

04-11

机器之心报道

参与：路雪、张倩

NAACL 是自然语言处理领域的盛会，NAACL 2019 将于 6 月 2 日-7 日在美国明尼阿波利斯市举行。据官方统计，NAACL 2019 共收到 1955 篇论文，接收论文 424 篇，录取率仅为 22.6%。其中长论文投稿 1198 篇，短论文 757 篇。

刚刚，大会放出了本届会议的最佳论文，谷歌 BERT 论文获得最佳长论文奖项。

以下是机器之心对获奖论文的摘要介绍，其中最佳可解释 NLP 论文还未公开。

最佳专题论文（Best Thematic Paper）

What's in a Name? Reducing Bias in Bios Without Access to Protected Attributes
作者：Alexey Romanov, Maria De-Arteaga, Hanna Wallach, Jennifer Chayes, Christian Borgs, Alexandra Chouldechova, Sahin Geyik, Krishnaram Kenthapadi, Anna Rumshisky and Adam Kalai（CMU、微软研究院、领英）
论文链接：https://128.84.21.199/abs/1904.05233

摘要：越来越多的研究提出了减少机器学习系统中偏见的方法。这些方法通常依赖于对受保护属性（如人种、性别或年龄）的获取。然而，这引发了两大问题：1）受保护的属性可能无法获取或不能合法使用；2）通常需要同时考虑多个受保护属性及其交集。为了减少职业分类中的偏见，本文作者提出了一种可以抑制某人真实职业预测概率与其姓名词嵌入之间关系的方法。

该方法利用了编码在词嵌入中的社会偏见，消除了对受保护属性的需要。重要的是，该方法仅在训练时需要获取人名，部署时并不需要。作者使用一个大型的在线传记数据集评估了该方法的两种变体，发现二者都能同时减少种族和性别偏见，而且几乎不降低分类器的真正率（true positive rate）。

最佳可解释 NLP 论文

CNM: An Interpretable Complex-valued Network for Matching
作者：Qiuchi Li, Benyou Wang and Massimo Melucci
该论文暂未放出

最佳长论文

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
作者：Jacob Devlin, Ming-Wei Chang, Kenton Lee and Kristina Toutanova（谷歌 AI）
论文链接：https://arxiv.org/pdf/1810.04805.pdf

摘要：本文介绍了一种新的语言表征模型，意为来自 Transformer 的双向编码器表征（Bidirectional Encoder Representations from Transformers）。与最近的语言表征模型（Peters et al., 2018; Radford et al., 2018）不同，BERT 旨在基于所有层的左、右语境来预训练深度双向表征。因此，预训练的 BERT 表征可以仅用一个额外的输出层进行微调，进而为很多任务（如问答和语言推断任务）创建当前最优模型，无需对任务特定架构做出大量修改。

BERT 的概念很简单，但实验效果很强大。它刷新了 11 个 NLP 任务的当前最优结果，包括将 GLUE 基准提升至 80.4%（7.6% 的绝对改进）、将 MultiNLI 的准确率提高到 86.7%（5.6% 的绝对改进），以及将 SQuAD v1.1 的问答测试 F1 得分提高至 93.2 分（提高 1.5 分）——比人类表现还高出 2 分。

BERT、OpenAI GPT 和 ELMo 的预训练模型架构对比。

参考文章：

最佳短论文

Probing the Need for Visual Context in Multimodal Machine Translation
作者：Ozan Caglayan, Pranava Madhyastha, Lucia Specia and Loïc Barrault（勒芒大学、帝国理工学院）
论文链接：https://arxiv.org/abs/1903.08678

摘要：当前关于多模态机器翻译（MMT）的研究表明，视觉模态要么是非必需的，要么作用有限。本文作者假设这是因为该任务唯一可用数据集 Multi30K 使用的句子太简单、简短和重复，这些语句将源文本渲染为充分的语境。然而，通常情况下，我们认为可以将视觉和文本信息结合起来，以实现基础翻译（ground translation）。

本文通过系统的分析来探讨视觉模态对当前最佳 MMT 模型的贡献，分析时作者部分地删除了源文本语境，使模型无法接收到完整的文本。结果表明，在有限的文本语境下，模型能够利用视觉输入生成更好的翻译结果。当前的研究认为视觉模态对 MMT 模型来说并不重要，要么是因为图像特征的质量，要么是因为将它们整合进模型的方式，但本研究颠覆了这一看法。

最佳资源论文

CommonsenseQA: A Question Answering Challenge Targeting Commonsense Knowledge
作者：Alon Talmor, Jonathan Herzig, Nicholas Lourie and Jonathan Berant（以色列特拉维夫大学、艾伦人工智能研究所）
论文链接：https://arxiv.org/abs/1811.00937

摘要：人们通常利用丰富的世界知识和特定语境来回答问题。近期研究主要聚焦于基于关联文档或语境来回答问题，对基础知识几乎没有要求。为了研究使用先验知识的问答，我们提出了一个关于常识问答的新型数据集 CommonsenseQA。为了捕捉关联之外的常识，我们从 ConceptNet (Speer et al., 2017) 中抽取了多个目标概念，它们与某个源概念具备同样的语义关系。

我们让众包工人编写提及源概念的选择题，并区分每个目标概念之间的差别。这鼓励众包工人编写具备复杂语义的问题，而问答这类问题通常需要先验知识。我们通过该步骤创建了 12,247 个问题，并用大量强基线模型做实验，证明该新型数据集是有难度的。我们的最优基线基于 BERT-large (Devlin et al., 2018)，获得了 56% 的准确率，低于人类准确率（89%）。

构建 CommonsenseQA 数据集的过程示例。

表 5：所有模型的测试集准确率。

NAACL 论文接收列表：https://naacl2019.org/program/accepted/