从800个GPU训练几十天到单个GPU几小时,看神经架构搜索如何退化(2)

时间：2020-05-08 21:15 来源：网络整理作者：网络浏览：次收藏挑错推荐打印

既然如今曾经不再需求从零末尾训练每个模型了，那么网络的训练和评价就会快得多。在单个 GPU 上 NAS 只需求 0.45 天的训练时间，相比之前完成了约 1000 倍的提速 [6]。优化技术的结合大大提高了基于强化学习的 NAS 的速度。

这些改良都集中在更快地评价单个架构上。但是，强化学习办法并不是最快的学习办法。能否存在一个替代性搜索进程，可以更高效地遍历搜索空间？

在基于强化学习的 NAS 进程中，需求训练多个模型以便从中找到最佳模型。那么有没有办法避免训练一切的模型，而只训练一个模型呢？

可微性

在搜索空间的 DAG 方式中，训练的网络是较大网络的子网络。那么能否可以直接训练这个更大的网络，并以某种方式了解哪些操作贡献最大呢？答案是一定的。

图 4：a) 边上的操作最后是未知的。b) 经过在每个边上放置候选操作的混合来延续释放搜索空间。c) 在双层优化进程（bilevel optimization）中，有些权重添加，而有些下降。d) 最终的架构经过在两个节点之间具有最大权重的边来构建 [8]。

假设移除控制器，并将边更改为表示一切能够的操作，则搜索空间可微分。在这个密集的架构中，一切能够的操作都在每个节点上以加权和的方式组合起来。加权和是可学习参数，使得网络可以缩放不同的操作。这意味着可以增加不利于功用的操作，扩展「良好」的操作。训练较大的网络后，剩下要做的就是察看权重并选择对应较大权重的操作。

经过对搜索空间求微分和训练更大的网络（通常称为「超级网络」），我们不再需求训练多个架构，并且可以运用标准梯度下降优化器。NAS 的可微性为未来开展开拓了许多能够性。其中一个例子是 NAS 中的可微分采样 [9]，由于每个前向传达和反向传达在搜索中需求运用的操作增加，因此该办法将搜索时间延长到只需 4 个小时。

结语

NAS 训练时间如何从多天延长到几个小时的故事前到此为止吧。在这篇文章中，我试图概述驱动 NAS 开展的最重要想法。如今，NAS 技术曾经足够高效，任何有 GPU 的人都可以运用它，你还在等什么？

【编辑引荐】

DeepMind,哈佛造出了 AI「小白鼠」:从寻食,击球窥探神经网络奥妙

神经网络之父Hinton再审视34年前的奠基性成果，欲在大脑中搜索AI办法的“存在”

在《我的世界》里搭建神经网络，运转进程明晰可见 | 开源

「英伟达呼吸机」开源：计算机架构巨匠打造，成本暴减98%，黄仁勋点赞

人工智能的另一方向：基于忆阻器的存算一体技术

(责任编辑：admin)