选自arxiv
作者:Saining Xie、Alexander Kirillov、Ross Girshick、Kaiming He
机器之心编译
随机连接的神经网络性能居然比人工设计的网络(ResNet、ShuffleNet等)还要好?最近,FAIR何恺明等人提交了一篇论文,其模型性能让人觉得有点不可思议。
在该研究中,来自 FAIR 的研究人员谢赛宁、Alexander Kirillov 、Ross Girshick 与何恺明通过随机神经网络连接的方式探索了比此前神经架构搜索更为广泛的连接形式,并实现了很好的效果。
今天我们所说的深度学习是从认知科学的连接主义方法发展而来的,这一范式反映了一种假设,即计算网络如何连接对构建智能机器至关重要。与这一观点相互呼应,计算机视觉领域的最新模型也由链式连接转向更加精细的连接方式,如 ResNet、DenseNet,由于其连接方式更加精细,这些模型在很大程度上是有效的。
神经架构搜索(NAS)的出现推动了这一趋势的发展,已经成为联合搜索连接方式和操作的有前景的研究方向。在聚焦搜索的同时,NAS 方法隐式地依赖于一种叫做网络生成器(network generator)的重要(但很大程度上被忽视的)组件。
NAS 网络生成器定义了一系列可能的连接方式,网络根据可学习的概率分布从网络生成器中进行采样。然而,和 ResNet 和 DenseNet 中的连接方式一样,NAS 网络生成器是手工设计的,支持的连接方式空间被限制在所有可能图的一个小小的子集中。从这一角度出发,我们会问:如果我们放松这一限制并设计新的网络生成器会怎么样?
谢赛宁、何恺明等研究者通过从随机网络生成器中采样的随机连接神经网络来探索这个问题,生成器中的生成结果由人类设计的随机过程定义。为了减少研究者的偏好对生成器造成的影响,他们使用了图论中三组经典的随机图模型:Erdos-Renyi(ER)、Barabasi-Albert(BA)和 Watts-Strogatz(WS)模型。为了定义完整的网络,研究者将随机图转换成有向无环图(DAG),并应用了一个从节点到其功能角色(如同一类型的卷积)的简单映射。
结果出人意料:这些随机生成器的几个变体在 ImageNet 上产生了准确率颇具竞争力的网络。使用 WS 模型的最佳生成器生成的多个网络性能优于或可媲美全手工设计的同类网络或通过各种神经架构搜索方法找到的网络。
研究者还观察到,同一生成器生成的不同随机网络的准确率方差较低,但不同生成器生成的网络准确率差距可能较大。这些观察结果表明,网络生成器的设计非常重要。
研究者注意到,这些随机连接网络并非「prior free」,即使他们是随机的。实际上,许多强先验(strong prior)被隐式地设计到生成器中,包括选择特定的规则和分布来控制连接或不连接某些节点的概率。每个随机图模型都具有一定的概率行为,使得采样的图可能具有某些属性(例如,WS 是高度聚集的)。生成器的设计最终决定了网络上的概率分布,因此这些网络往往具有某些特性。生成器的设计是先验的基础,因此不应被忽视。
在本文中,研究者探索了与 NAS 随机搜索当前研究 [23, 41] 不同的方向。那些研究表明,随机搜索在「NAS 搜索空间」(即该研究所说的「NAS 网络生成器」)中颇具竞争力。
他们的研究结果表明,NAS 生成器设计所产生的先验往往可以生成好的模型,这与本研究的观察结果相似。与之前的工作相比,本文研究者的工作超越了现有 NAS 生成器的设计,探索了不同的随机生成器设计。
最后,本研究表明,从设计单个网络到设计网络生成器的过渡是可能实现的,类似于从设计特征到设计学习特征的网络的过渡。研究者建议设计新的网络生成器,生成用于搜索的新模型集合,而不是聚焦于使用固定生成器进行搜索。
(NAS 等中)网络生成器设计的重要性还表明,机器学习还没有实现自动化(参见 AutoML [20])——即基本的人类设计和先验从网络工程转向了网络生成器工程。
随机连接神经网络
对 NAS 的分析表明,该网络生成器是手动设计的,且根据人类知识对先验进行编码。网络生成器的设计很可能起着很大的作用,这样的话,当前的方法还无法达到「AutoML」,而且仍需要大量的人力。
为了研究网络生成器设计的重要性,只对同一 NAS 生成器比较不同的(复杂或随机的)优化器是不够的;有必要研究与 NAS 生成器非常不同的新的网络生成器。
为此,研究者开始利用随机连接神经网络。即,他们将定义网络生成器,该生成器生成带有随机图的网络,服从于不同的人类特定先验。为了最小化人类偏见(本文研究者对先验的偏见),研究者在研究中使用了三种经典的随机图模型。其生成随机连接网络的方法包含以下概念:
边缘操作。假设图是有向的,研究者定义边缘是数据流,即有向边缘将数据(张量)从一个节点发送到另一个节点。
节点操作。有向图中的节点可能有一些输入边缘和一些输出边缘。
图 2. 随机图节点设计。这是一个节点(蓝色),有三个输入端和 4 个输出端,通过可学习的正权重 w_0、w_1、w_2 的加权来完成聚合。转换器是 ReLU-convolution-BN 三元组,可简单视作卷积。转换后的数据作为 4 份副本发送出去。
图 3. 在随机图形生成器上的比较:ER、BA 和 WS 在小计算量条件下的结果。每个指标代表在 P、M 或(K、P)参数设置下的生成器的结果(x 轴)。纵轴为 ImageNet Top-1 准确率,5 个随机网络生成的结果显示为标准均值(std)。在最右侧,WS(K、P=0)没有随机性。
图 4. ER、BA 和 WS 生成随机图像的可视化。每个图表代表由指定生成器采样的一个随机图形实例。生成器即为图 3 中的配置。每个计算图的节点数为 N=32。红色/蓝色节点代表输入/输出节点,在一些情况下,会加入额外的唯一输入/输出节点(未显示)。
论文:Exploring Randomly Wired Neural Networks for Image Recognition
论文地址:https://arxiv.org/abs/1904.01569
摘要:用于图像识别的神经网络已经通过人工设计,从简单的链状模型发展到具有复杂路径的结构。ResNet 和 DenseNet 的成功很大程度上归功于它们的创新性线路设计。近日,神经架构搜索(NAS)的研究正在拓展连接和操作方式的联合优化,然而其可能的布线空间仍然受到约束——它们在搜索中仍受到手动设计的驱动。
在本论文中,我们通过随机神经网络连接的方式探索了更为广泛的连接形式。首先,我们定义了一个随机网络生成器的概念,它封装了整个网络的生成过程。这一封装提供了 NAS 和随机连接网络的统一视图。然后,我们使用三个经典随机图模型为网络生成随机连接图。结果令人惊讶:这些随机生成的网络变体在 ImageNet 图像识别基准测试中有着非常具有竞争力的准确率。这些结果表明,相比于小搜索空间,专注于设计更好的网络生成器或许可以带来更大的技术突破。
图 1. 由经典的 Watts_Strogatz(WS)生成的随机连接神经网络模型:在和 ResNet-50 使用相近算力的条件下,这三个随机生成的网络在 ImageNet 上实现了(从左至右)79.1%、79.1%、79.0% 的分类准确率,ResNet 的准确率为 77.1%。
PyTorch 实现
FAIR 提出的这些随机连接神经网络看起来十分魔性,论文一经提交就引起了人们的广泛关注,很快就有了实现——来自 MINDsLab 的 Park Seung Won 试图在 PyTorch 上实现它,并重现研究中的一些结果:
实现地址:https://github.com/seungwonpark/RandWireNN
本文为机器之心编译,转载请联系本公众号获得授权。
✄------------------------------------------------
加入机器之心(全职记者 / 实习生):hr@jiqizhixin.com
投稿或寻求报道:content@jiqizhixin.com
广告 & 商务合作:bd@jiqizhixin.com
1、头条易读遵循行业规范,任何转载的稿件都会明确标注作者和来源;
2、本文内容来自“机器之心”微信公众号,文章版权归机器之心公众号所有。