您好,欢迎来到12图资源库!分享精神,快乐你我!我们只是素材的搬运工!!
  • 首 页
  • 当前位置:首页 > 开发 > WEB开发 >
    微软、浙大研讨者提出剪枝框架OTO,无需微调即可取得轻量级架构
    时间:2021-08-17 12:02 来源:网络整理 作者:网络 浏览:收藏 挑错 推荐 打印

    微软、浙大研讨者提出剪枝框架OTO,无需微调即可取得轻量级架构

    来自微软、浙江大学等机构的研讨者提出了一种 one-shot DNN 剪枝框架,无需微调即可从大型神经网络中失掉轻量级架构,在保持模型高功用的同时还能清楚降低所需算力。

    大型神经网络学习速度很快,功用也往往优于其他较小的模型,但它们对资源的庞大需求限制了其在理想世界的部署。

    剪枝是最常见的 DNN 紧缩办法之一,旨在增加冗余结构,给 DNN 模型瘦身的同时提高其可解释性。但是,现有的剪枝办法通常是启示式的,而且只针对特定义务,还十分耗时,泛化才能也很差。

    在一篇标题为《 Only Train Once: A One-Shot Neural Network Training And Pruning Framework》的论文中,来自微软、浙江大学等机构的研讨者给出了针对上述成绩的处置方案,提出了一种 one-shot DNN 剪枝框架。它可以让开发者无需微调就能从大型神经网络中失掉轻量级架构。这种办法在保持模型高功用的同时清楚降低了其所需的算力。

    微软、浙大研讨者提出剪枝框架OTO,无需微调即可取得轻量级架构

    论文链接:https://arxiv.org/pdf/2107.07467.pdf

    该研讨的主要贡献概括如下:

    One-Shot 训练和剪枝。研讨者提出了一个名为 OTO(Only-Train-Once)的 one-shot 训练和剪枝框架。它可以将一个残缺的神经网络紧缩为轻量级网络,同时保持较高的功用。OTO 大大简化了现有剪枝办法复杂的多阶段训练 pipeline,适宜各种架构和运用,因此具有通用性和有效性。

    Zero-Invariant Group(ZIG)。研讨者定义了神经网络的 zero-invariant group。假设一个框架被划分为 ZIG,它就允许我们修剪 zero group,同时不影响输入,这么做的结果是 one-shot 剪枝。这种特性适用于全衔接层、残差块、多头留意力等多种盛行结构。

    新的结构化稀疏优化算法。研讨者提出了 Half-Space Stochastic Projected Gradient(HSPG),这是一种处置惹起正则化成绩的结构化稀疏的办法。研讨团队在实际中展现并剖析了 HSPG 在促进 zero group 方面表现出的优势(相关于标准近端办法)。ZIG 和 HSPG 的设计是网络有关的,因此 OTO 关于很多运用来说都是通用的。

    实验结果。应用本文中提出的办法,研讨者可以从头、同时训练和紧缩残缺模型,无需为了提高推理速度和增加参数而停止微调。在 VGG for CIFAR10、ResNet50 for CIFAR10/ImageNet 和 Bert for SQuAD 等基准上,该办法都完成了 SOTA 结果。

    办法及实验引见

    微软、浙大研讨者提出剪枝框架OTO,无需微调即可取得轻量级架构

    微软、浙大研讨者提出剪枝框架OTO,无需微调即可取得轻量级架构

    OTO 的结构十分复杂。给定一个残缺的模型,首先将可训练的参数划分为 ZIG 集,产生了一个结构化稀疏优化成绩,经过一个新的随机优化器 (HSPG) 得出高度组稀疏的解。最后经过剪枝这些 zero group 失掉一个紧缩模型。

    团队提出的 HSPG 随机优化算法是针对非润滑正则化成绩而设计的,与经典算法相比,该算法在保持相似收敛性的同时,可以更有效地增强群体稀疏性搜索。

    为了评价 OTO 在未经微调的 one-shot 训练和剪枝中的功用,研讨者在 CNN 的基准紧缩义务停止了实验,包括 CIFAR10 的 VGG16,CIFAR10 的 ResNet50 和 ImagetNet (ILSVRC2012),研讨者比较了 OTO 与其以后各个 SOTA 算法在 Top-1 精度和 Top-5 精度、剩余的 FLOPs 和相应的 baseline 参数。

    微软、浙大研讨者提出剪枝框架OTO,无需微调即可取得轻量级架构

    表 1:CIFAR10 中的 VGG16 及 VGG16-BN 模型表现。

    在 CIFAR10 的 VGG16 实验中,OTO 将浮点数增加了 83.7%,将参数量增加了 97.5%,功用表现令人印象深入。

    在 CIFAR10 的 ResNet50 实验中,OTO 在没有量化的状况下优于 SOTA 神经网络紧缩框架 AMC 和 ANNC,仅运用了 12.8% 的 FLOPs 和 8.8% 的参数。

    微软、浙大研讨者提出剪枝框架OTO,无需微调即可取得轻量级架构

    表 2:CIFAR10 的 ResNet50 实验。

    在 ResNet50 的 ImageNet 实验中,OTO 增加了 64.5% 的参数,完成了 65.5% 的浮点数增加,与 baseline 的 Top-1/5 精度相比只要 1.4%/0.8% 的差距 。

    微软、浙大研讨者提出剪枝框架OTO,无需微调即可取得轻量级架构

    表 3:ResNet50 的 ImageNet。

    总体而言,OTO 在一切的紧缩基准实验中取得了 SOTA 结果,展现了模型的庞大潜力。研讨者表示,未来的研讨将关注兼并量化和各种义务的运用上。

    【编辑引荐】

    用Selnium和Python构建自动化Web测试框架

    thinkphp5框架精讲基础与提升(第一季)

    Office共享外接顺序开发威望教程

    ELK7日志搜集架构图与实际

    .NET 生态现状:超一半 .NET 开发者运用 C# 8、.NET Framework 运用量增加

    (责任编辑:admin)