微信扫一扫
分享到朋友圈

ICLR 2019最佳论文出炉:微软、MILA、MIT获奖

作者:机器之心 来源:机器之心 公众号
分享到:

05-06

机器之心报道

参与:路、淑婷

深度学习顶会 ICLR 2019 的两篇最佳论文现已放出,来自蒙特利尔大学、微软研究院和 MIT CSAIL 的研究者获得了最佳论文奖。其中一篇最佳论文探讨自然语言处理问题,提出利用神经元排序将对自然语言层级结构的考虑纳入网络。另一篇最佳论文探讨了模型压缩问题,提出了一个新的概念:彩票假设。

一年一度的深度学习盛会 ICLR 将于当地时间 5 月 6 日-9 日在新奥尔良举行。据统计,ICLR 2019 共收到 1591 篇论文投稿,相比去年的 996 篇增长了 60%,其中 oral 论文 24 篇,poster 论文 476 篇。


目前,ICLR 2019 的最佳论文已经发布。来自蒙特利尔大学 MILA 研究所、微软研究院的论文《Ordered Neurons: Integrating Tree Structures into Recurrent Neural Networks》和来自 MIT CSAIL 研究者的论文《The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks》夺得本届大会的最佳论文奖项。


论文:Ordered Neurons: Integrating Tree Structures into Recurrent Neural Networks


  • 作者:Yikang Shen、Shawn Tan、Alessandro Sordoni、Aaron Courville(蒙特利尔大学 MILA 研究所、微软研究院)

  • 论文地址:https://openreview.net/forum?id=B1l6qiR5F7


摘要:自然语言是层级结构的:较小的单元(如词组)被嵌套在较大的单元(如子句)内。当较大的成分结束时,嵌套在其内部的较小成分也必须是封闭的。尽管标准 架构允许不同神经元以不同时间尺度追踪信息,但它对建模句子成分层级没有明确的偏置(explicit bias)。


本文提出通过对神经元排序的方式添加此类归纳偏置;master input 向量和遗忘门确保在给定神经元更新时,紧随其后的所有神经元也都得到更新。这一新型循环架构 ordered neurons LSTM (ON-LSTM) 在四种不同任务上获得了优秀性能,分别是:语言建模、无监督解析、目标句法评估和逻辑推理。


图 2:句子成分解析树和 ON-LSTM 隐藏状态之间的对应。


表 1:在 Penn Treebank 语言建模任务上,ON-LSTM、LSTM 等模型在验证集和测试集上的模型困惑度对比。


表 2:ON-LSTM 等模型在完整 WSJ10 和 WSJ 测试集上的无标注解析 F1 结果。


表 3:ON-LSTM 和 LSTM 在每个测试案例中的整体准确率。


图 3:在逻辑数据中的短序列 (≤ 6) 上训练模型的测试准确率。



论文:The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks


  • 作者:Jonathan Frankle、Michael Carbin

  • 论文地址:https://openreview.net/forum?id=rJl-b3RcF7


摘要:神经网络技术可将网络参数量减少 90%,进而在不牺牲准确率的前提下减少存储需求、提升推断的计算性能。然而现有经验表明,剪枝生成的解析架构从一开始就很难训练,尽管解析架构同样可以提升训练性能。


我们发现,标准的剪枝技术会自然地发现子网络,这些子网络经过初始化后能够有效进行训练。基于这些结果,我们提出了「彩票假设」(lottery ticket hypothesis):密集、随机初始化的前馈网络包含子网络(「中奖彩票」),当独立训练时,这些子网络能够在相似的迭代次数内达到与原始网络相当的测试准确率。


「中奖彩票」赢得了「初始化彩票」:它们的连接具有使训练非常高效的初始权重。我们提出了一种识别中奖彩票的算法,并用一系列实验来支持彩票假设以及这些偶然初始化的重要性。我们发现在 MNIST 和 CIFAR10 数据集上,「中奖彩票」网络的大小不及全连接、卷积前馈架构的 10%-20%。而且,这种「中奖彩票」比原始网络学习速度更快,测试准确率也更高。


那么,应该如何确定「中奖彩票」呢?该研究提出了以下四个步骤:



图 5:当迭代剪枝并再次随机初始化时,Conv-2/4/6 架构的早停迭代、测试和训练准确率。每条实线是五次试验的平均结果;每条虚线是 15 次再初始化(每次试验 3 次再初始化)的平均结果。


图 6:当用 dropout 迭代剪枝和训练时,Conv-2/4/6 在早停时的测试准确率和早停迭代。虚线代表的是没用 dropout 训练的相同网络(图 5 中的实线)。Conv-2 的学习率为 0.0003,Conv-4 和 Conv-6 的学习率为 0.0002。


图 7:VGG-19 在迭代剪枝时的测试准确率(分别是 3 万次、6 万次、11.2 万次迭代)。


图 8:Resnet-18 在迭代剪枝时的测试准确率(分别是 1 万次、2 万次、3 万次迭代)。



本文为机器之心报道,转载请联系本公众号获得授权

✄------------------------------------------------

加入机器之心(全职记者 / 实习生):hr@jiqizhixin.com

投稿或寻求报道:content@jiqizhixin.com

广告 & 商务合作:bd@jiqizhixin.com

阅读38892
论文 微软 
举报0
关注机器之心微信号:almosthuman2014

用微信扫描二维码即可关注
声明

1、头条易读遵循行业规范,任何转载的稿件都会明确标注作者和来源;
2、本文内容来自“机器之心”微信公众号,文章版权归机器之心公众号所有。

评论
更多

文章来自于公众号:

机器之心

微信号:almosthuman2014

邮箱qunxueyuan#163.com(将#换成@)
微信编辑器
免责声明
www.weixinyidu.com   免责声明
版权声明:本站收录微信公众号和微信文章内容全部来自于网络,仅供个人学习、研究或者欣赏使用。版权归原作者所有。禁止一切商业用途。其中内容并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。如果您发现头条易读网站上有侵犯您的知识产权的内容,请与我们联系,我们会及时修改或删除。
本站声明:本站与腾讯微信、微信公众平台无任何关联,非腾讯微信官方网站。