“百里挑一”：如何减速超网训练的收敛和搜索速度

时间：2020-11-26 12:16 来源：网络整理作者：网络浏览：次收藏挑错推荐打印

随着深度学习的开展，神经网络结构的设计逐渐由手工设计转变为算法自动设计。在近期的神经网络设计（Neural Architecture Search, NAS）研讨中，现有的办法存在一定缺陷，结果往往不能真正表现出众多子网络正确的排序关系。为处置这一成绩，微软亚洲研讨院的研讨员们提出了基于优先途径蒸馏的网络结构搜索办法。采用这一方式选出的网络在 ImageNet 上的分类准确率到达了80.0%，超越了现有的 EfficientNet-B0/B1 和 MobileNetV3。该论文已被 NeurIPS 2020 接纳。

从数亿数量级的神经网络结构中搜索出高功用的网络，是一个充溢应战但又令人向往的研讨义务。正如深度学习变革了传统的手工图像特征设计，神经网络结构的设计也正在逐渐由手工设计转变为算法自动设计。

面对数以亿级的网络结构，将每一个能够的结构都训练收敛，并选择其中最好的结构是不理想的。在近期的神经网络设计研讨中，一个被普遍运用的处置办法是先训练一个包含了一切能够结构的超网（hypernetwork），当测试某一个网络结构的功用时，直接承袭超网训练后的参数。这样的做法省去了重新训练的时间，大大加快了网络搜索的速度。但是，虽然预训练超网的办法可以大幅度减速网络搜索，但由于很难对一切的途径（子模型）停止充沛训练，所以其给出的结果往往不能真正表现出众多子网络正确的排序关系。

为了处置这一成绩，微软亚洲研讨院的研讨员们提出维护一个优先途径组（prioritized path board）。也就是说，在训练超网的某一条途径时，运用元网络（meta-network）从组中选出一条功用较好的子网对其停止网络蒸馏（distillation），从而提升超网的收敛水平与功用。采用这种方式选出的网络在 ImageNet 上的分类准确率到达了80.0%，超越了现有的 EfficientNet-B0/B1 和 MobileNetV3。该论文已被 NeurIPS 2020 接纳。

基于优先途径的网络蒸馏

现有的超网训练方式多种多样，研讨员们采用了复杂有效的平均采样单条途径（single-path uniform sampling strategy）作为基础，即每一次随机从超网中采一条途径停止训练。与之不同的是，在训练单条途径时，会从优先途径组中选出一条途径对其停止蒸馏，从而提升训练效果。

“百里挑一”：如何减速超网训练的收敛和搜索速度

图1：办法表示图，左侧为常规的蒸馏办法，即采用一个预训练的模型停止蒸馏，右侧为提出的基于优先途径的蒸馏办法。

优先途径组

优先途径组是由大批功用优秀的途径构成的。超网训练会对优先途径组进举静态的维护，假设采样出来的网络在效果和复杂度上均优于有限途径组中的网络，那么就会将其交流到优先途径组中。不只如此，维护这样一个优先途径组还使得超网训练完毕后可以直接从中选取最优途径，从而节省以往办法在停止网络结构搜索时运用强化学习办法或退化算法（Evolution Algorithm）的时间。在选取优先途径时，可依据公式

停止选择，其中M代表元网络，N(*, *, *)代表网络最后一层输入的特征（logits），ρ代表元网络所预测的两条途径的婚配水平。

知识蒸馏

知识蒸馏是一种被普遍运用的模型紧缩办法，经过让小型网络来模拟预训练大型网络的最后一层输入特征，可以使小型网络到达接近于大型网络的表现。研讨员们经过优先途径来停止蒸馏，从而无需提早训练一个大型神经网络。对超网停止更新的详细公式如下：

其中L_CE为正常的训练损失， L_KD为蒸馏损失，ρ仍为前面所提到的婚配水平。

元网络

由于不同的子网结构差异能够十分之大，因此研讨员们希望可以从优先途径组中选出最有助于子网训练的优先途径对其停止知识蒸馏。经过尝试，研讨员们采用了元网络的技术，将采样途径和优先途径最后一层输入的特征差输入到元网络中，由元网络判别优先途径与采样途径的婚配水平。当训练元网络时，研讨员们会在验证集上计算损失，经过婚配水平ρ停止梯度回传并更新元网络M：

实验结果

对基于优先途径蒸馏的网络结构搜索算法的测试是在 ImageNet 上停止的。实验结果如图2和表1所示。可以看出，在各种模型大小下，该办法的搜索结果均超越了此前的 EfficientNet-B0/B1 和 MobileNetV3，完成了优越的功用。不只如此，该办法搜索所需求的时长也是各种网络结构搜索算法中最短的。

图2：基于优先途径蒸馏的网络结构搜索失掉的模型在 ImageNet 上的功用

表1：基于优先途径蒸馏的网络结构搜索失掉的模型在 ImageNet 上的功用

除了图像分类义务外，研讨员们还在物体检测义务上对算法停止了测试，结果如表2所示。可以看到，该模型异样可以泛化到物体检测义务上，在各种目的下都比已有模型有近1%的提升。

表2：基于优先途径蒸馏的网络结构搜索模型在物体检测义务上的表现

基于NNI工具接口的源码完成

NNI (Neural Network Intelligence) 是当下最抢手的开源自动机器学习（AutoML）工具之一，由微软亚洲研讨院与微软（亚洲）互联网工程院领衔开发。NNI 对机器学习生命周期的各个环节都做了较为片面的支持，包括特征工程、神经网络架构搜索、超参调优和模型紧缩。

目前，微软亚洲研讨院的研讨员们已将此次提出的基于优先途径蒸馏的网络结构搜索算法经过 NNI 平台的 One-Shot 算法接口停止了完成，提供了残缺的搜索、重训练和测试代码以及模型。由于 NNI 提供了一致的接口表达网络搜索空间，所以有比照此算法与其他神经网络架构搜索结果需求的用户可选择这份代码完成做参考。代码以及更多技术细节，请参见：https://github.com/microsoft/nni。

结语 (责任编辑：admin)