微软、浙大研讨者提出剪枝框架OTO，无需微调即可取得轻量级架构

时间：2021-08-17 12:02 来源：网络整理作者：网络浏览：次收藏挑错推荐打印

来自微软、浙江大学等机构的研讨者提出了一种 one-shot DNN 剪枝框架，无需微调即可从大型神经网络中失掉轻量级架构，在保持模型高功用的同时还能清楚降低所需算力。

大型神经网络学习速度很快，功用也往往优于其他较小的模型，但它们对资源的庞大需求限制了其在理想世界的部署。

剪枝是最常见的 DNN 紧缩办法之一，旨在增加冗余结构，给 DNN 模型瘦身的同时提高其可解释性。但是，现有的剪枝办法通常是启示式的，而且只针对特定义务，还十分耗时，泛化才能也很差。

在一篇标题为《 Only Train Once: A One-Shot Neural Network Training And Pruning Framework》的论文中，来自微软、浙江大学等机构的研讨者给出了针对上述成绩的处置方案，提出了一种 one-shot DNN 剪枝框架。它可以让开发者无需微调就能从大型神经网络中失掉轻量级架构。这种办法在保持模型高功用的同时清楚降低了其所需的算力。

微软、浙大研讨者提出剪枝框架OTO，无需微调即可取得轻量级架构

论文链接：https://arxiv.org/pdf/2107.07467.pdf

该研讨的主要贡献概括如下：

One-Shot 训练和剪枝。研讨者提出了一个名为 OTO（Only-Train-Once）的 one-shot 训练和剪枝框架。它可以将一个残缺的神经网络紧缩为轻量级网络，同时保持较高的功用。OTO 大大简化了现有剪枝办法复杂的多阶段训练 pipeline，适宜各种架构和运用，因此具有通用性和有效性。

Zero-Invariant Group（ZIG）。研讨者定义了神经网络的 zero-invariant group。假设一个框架被划分为 ZIG，它就允许我们修剪 zero group，同时不影响输入，这么做的结果是 one-shot 剪枝。这种特性适用于全衔接层、残差块、多头留意力等多种盛行结构。

新的结构化稀疏优化算法。研讨者提出了 Half-Space Stochastic Projected Gradient（HSPG），这是一种处置惹起正则化成绩的结构化稀疏的办法。研讨团队在实际中展现并剖析了 HSPG 在促进 zero group 方面表现出的优势（相关于标准近端办法）。ZIG 和 HSPG 的设计是网络有关的，因此 OTO 关于很多运用来说都是通用的。

实验结果。应用本文中提出的办法，研讨者可以从头、同时训练和紧缩残缺模型，无需为了提高推理速度和增加参数而停止微调。在 VGG for CIFAR10、ResNet50 for CIFAR10/ImageNet 和 Bert for SQuAD 等基准上，该办法都完成了 SOTA 结果。

办法及实验引见

微软、浙大研讨者提出剪枝框架OTO，无需微调即可取得轻量级架构

OTO 的结构十分复杂。给定一个残缺的模型，首先将可训练的参数划分为 ZIG 集，产生了一个结构化稀疏优化成绩，经过一个新的随机优化器 (HSPG) 得出高度组稀疏的解。最后经过剪枝这些 zero group 失掉一个紧缩模型。

团队提出的 HSPG 随机优化算法是针对非润滑正则化成绩而设计的，与经典算法相比，该算法在保持相似收敛性的同时，可以更有效地增强群体稀疏性搜索。

为了评价 OTO 在未经微调的 one-shot 训练和剪枝中的功用，研讨者在 CNN 的基准紧缩义务停止了实验，包括 CIFAR10 的 VGG16，CIFAR10 的 ResNet50 和 ImagetNet (ILSVRC2012)，研讨者比较了 OTO 与其以后各个 SOTA 算法在 Top-1 精度和 Top-5 精度、剩余的 FLOPs 和相应的 baseline 参数。

微软、浙大研讨者提出剪枝框架OTO，无需微调即可取得轻量级架构