您好,欢迎来到12图资源库!分享精神,快乐你我!我们只是素材的搬运工!!
  • 首 页
  • 当前位置:首页 > 开发 > WEB开发 >
    美团提出基于隐式条件位置编码,功用优于ViT和DeiT
    时间:2021-03-01 12:06 来源:网络整理 作者:网络 浏览:收藏 挑错 推荐 打印

    随着 Facebook 的 DETR (ECCV 2020)[2] 和谷歌的 ViT (ICLR 2021)[3] 的提出,Transformer 在视觉范围的运用末尾迅速升温,成为当下视觉研讨的第一热点。但视觉 Transformer 受限于固定长度的位置编码,不能像 CNN 一样直接处置不同的输入尺寸,这在很大水平下限制了视觉 Transformer 的运用,由于很多视觉义务,如检测,需求在测试时静态改动输入大小。

    一种处置方案是对 ViT 中位置编码停止插值,使其顺应不同的图片大小,但这种方案需求重新 fine-tune 模型,否则结果会变差。

    最近,美团提出了一种用于视觉 Transformer 的隐式条件位置编码 CPE [1],放宽了显式位置编码给输入尺寸带来的限制,使得 Transformer 便于处置不同尺寸的输入。实验表明,运用了 CPE 的 Transformer 功用优于 ViT 和 DeiT。

    论文地址:https://arxiv.org/pdf/2102.10882.pdf

    项目地址:https://github.com/Meituan-AutoML/CPVT(行将开源)

    背景

    谷歌的 ViT 办法通常将一幅 224×224 的图片打散成 196 个 16×16 的图片块(patch),依次对其做线性编码,从而失掉一个输入序列(input sequence),使 Transformer 可以像处置字符序列一样处置图片。同时,为了保留各个图片块之间的位置信息,参加了和输入序列编码维度等长的位置编码。DeiT [4] 提高了 ViT 的训练效率,不再需求把大数据集(如 JFT-300M)作为预训练的限制,Transformer 可以直接在 ImageNet 上训练。

    关于视觉 Transformer,位置编码不可或缺

    在 ViT 和 CPVT 的实验中,我们可以发现没有位置编码的 Transformer 功用会出现清楚下降。除此之外,在 Table 1 中,可学习(learnable)的位置编码和正余弦(sin-cos)编码效果接近,2D 的相对编码(2D RPE)功用较差,但依然优于去掉位置编码的情形。

    美团提出基于隐式条件位置编码,功用优于ViT和DeiT

    美团、阿德莱德大学提出新型位置编码办法

    位置编码的设计要求

    显式的位置编码限制了输入尺寸,因此美团这项研讨思索运用隐式的依据输入而变化的变长编码办法。此外,它还需求满足以下要求:

    保持很好的功用;

    避免陈列不变性(permutation equivariance);

    易于完成。

    基于上述要求,该研讨提出了条件编码生成器 PEG(Positional Encoding Generator),来生成隐式的位置编码。

    生成隐式的条件位置编码

    在 PEG 中,将上一层 Encoder 的 1D 输入变构成 2D,再运用变换模块学习其位置信息,最后重新变形到 1D 空间,与之前的 1D 输入相加之后作为下一个 Encoder 的输入,如 Figure 2 所示。这里的变换单元(Transoformation unit)可以是 Depthwise 卷积、Depthwise Separable 卷积或其他更为复杂的模块。

    美团提出基于隐式条件位置编码,功用优于ViT和DeiT

    将 PEG 插入到模型中(如 Figure 1 中添加在第一个 Encoder 后),即可对各个 Encoder 添加位置编码信息。这种编码益处在于不需求显式指定,长度可以依输入变化而变化,因此被称为隐式的条件位置编码。

    美团提出基于隐式条件位置编码,功用优于ViT和DeiT

    实验

    ImageNet 数据集

    该研讨将添加了 PEG 的 Vision Transformer 模型命名为 CPVT(Conditional Position encodings Visual Transformer)。在 ImageNet 数据集上,相反量级的 CPVT 模型功用优于 ViT 和 DeiT。得益于隐式条件编码可以依据输入静态调整的特性,基于 224×224 输入训练好的模型可以直接处置 384×384 输入(Table 3 最后一列),无需 fine-tune 就能直接取得功用提升。相比之下,其他显式编码没有 fine-tune 则会出现功用损失。

    与其他编码方式的比照

    Table 5 给出了 CPVT-Ti 模型在不同编码策略下的表现。其中在从第 0 个到第 5 个 Encoder 各插入一个 PEG 的功用最优,Top-1 准确率到达 73.4%。CPVT 独自运用 PEG 或与可学习编码相结合也优于 DeiT-tiny 在各种编码策略下的表现。

    美团提出基于隐式条件位置编码,功用优于ViT和DeiT

    PEG 在不同位置的作用

    ViT 主干由 12 个 Encoder 组成,CPVT 比照了 PEG 位于 -1、0、3、6、10 等处的结果。实验表明,PEG 用于第一个 Encoder 之后表现最好 (idx 0)。该研讨以为,放在第一个 encoder 之后不只可以提供全局的接受域,也可以保证模型尽早地应用到位置信息。

    美团提出基于隐式条件位置编码,功用优于ViT和DeiT

    结论

    CPVT 提出的隐式位置编码是一个即插即用的通用办法。它放宽了对输入尺寸的限制,因此有望促进 Vision Transformer 在联系、检测、超分辨率等义务中的进一步运用,提升其功用。这项研讨对后续 Vision Transformer 的开展将产生积极的影响。

    【编辑引荐】

    恶意软件开发言语正从C/C++转向Go 近年来呈迸发式增长

    适宜Web开发者的十大数据库优化实际

    常用字符编码与加密算法-CTF之Web安全入门系列课程(三)

    SpringMVC+Spring+Mybatis SSM开发框架整合(附源码)

    我嘞个去,慢查询竟把系统搞崩了

    (责任编辑:admin)