您好,欢迎来到12图资源库!分享精神,快乐你我!我们只是素材的搬运工!!
  • 首 页
  • 当前位置:首页 > 开发 > WEB开发 >
    从800个GPU训练几十天到单个GPU几小时,看神经架构搜索如何退化(2)
    时间:2020-05-08 21:15 来源:网络整理 作者:网络 浏览:收藏 挑错 推荐 打印

    既然如今曾经不再需求从零末尾训练每个模型了,那么网络的训练和评价就会快得多。在单个 GPU 上 NAS 只需求 0.45 天的训练时间,相比之前完成了约 1000 倍的提速 [6]。优化技术的结合大大提高了基于强化学习的 NAS 的速度。

    这些改良都集中在更快地评价单个架构上。但是,强化学习办法并不是最快的学习办法。能否存在一个替代性搜索进程,可以更高效地遍历搜索空间?

    在基于强化学习的 NAS 进程中,需求训练多个模型以便从中找到最佳模型。那么有没有办法避免训练一切的模型,而只训练一个模型呢?

    可微性

    在搜索空间的 DAG 方式中,训练的网络是较大网络的子网络。那么能否可以直接训练这个更大的网络,并以某种方式了解哪些操作贡献最大呢?答案是一定的。

    图 4:a) 边上的操作最后是未知的。b) 经过在每个边上放置候选操作的混合来延续释放搜索空间。c) 在双层优化进程(bilevel optimization)中,有些权重添加,而有些下降。d) 最终的架构经过在两个节点之间具有最大权重的边来构建 [8]。

    假设移除控制器,并将边更改为表示一切能够的操作,则搜索空间可微分。在这个密集的架构中,一切能够的操作都在每个节点上以加权和的方式组合起来。加权和是可学习参数,使得网络可以缩放不同的操作。这意味着可以增加不利于功用的操作,扩展「良好」的操作。训练较大的网络后,剩下要做的就是察看权重并选择对应较大权重的操作。

    经过对搜索空间求微分和训练更大的网络(通常称为「超级网络」),我们不再需求训练多个架构,并且可以运用标准梯度下降优化器。NAS 的可微性为未来开展开拓了许多能够性。其中一个例子是 NAS 中的可微分采样 [9],由于每个前向传达和反向传达在搜索中需求运用的操作增加,因此该办法将搜索时间延长到只需 4 个小时。

    结语

    NAS 训练时间如何从多天延长到几个小时的故事前到此为止吧。在这篇文章中,我试图概述驱动 NAS 开展的最重要想法。如今,NAS 技术曾经足够高效,任何有 GPU 的人都可以运用它,你还在等什么?

     

    【编辑引荐】

    DeepMind,哈佛造出了 AI「小白鼠」:从寻食,击球窥探神经网络奥妙

    神经网络之父Hinton再审视34年前的奠基性成果,欲在大脑中搜索AI办法的“存在”

    在《我的世界》里搭建神经网络,运转进程明晰可见 | 开源

    「英伟达呼吸机」开源:计算机架构巨匠打造,成本暴减98%,黄仁勋点赞

    人工智能的另一方向:基于忆阻器的存算一体技术

    (责任编辑:admin)