美团提出基于隐式条件位置编码，功用优于ViT和DeiT

时间：2021-03-01 12:06 来源：网络整理作者：网络浏览：次收藏挑错推荐打印

随着 Facebook 的 DETR （ECCV 2020）[2] 和谷歌的 ViT （ICLR 2021）[3] 的提出，Transformer 在视觉范围的运用末尾迅速升温，成为当下视觉研讨的第一热点。但视觉 Transformer 受限于固定长度的位置编码，不能像 CNN 一样直接处置不同的输入尺寸，这在很大水平下限制了视觉 Transformer 的运用，由于很多视觉义务，如检测，需求在测试时静态改动输入大小。

一种处置方案是对 ViT 中位置编码停止插值，使其顺应不同的图片大小，但这种方案需求重新 fine-tune 模型，否则结果会变差。

最近，美团提出了一种用于视觉 Transformer 的隐式条件位置编码 CPE [1]，放宽了显式位置编码给输入尺寸带来的限制，使得 Transformer 便于处置不同尺寸的输入。实验表明，运用了 CPE 的 Transformer 功用优于 ViT 和 DeiT。

论文地址：https://arxiv.org/pdf/2102.10882.pdf

项目地址：https://github.com/Meituan-AutoML/CPVT（行将开源）

背景

谷歌的 ViT 办法通常将一幅 224×224 的图片打散成 196 个 16×16 的图片块（patch），依次对其做线性编码，从而失掉一个输入序列（input sequence），使 Transformer 可以像处置字符序列一样处置图片。同时，为了保留各个图片块之间的位置信息，参加了和输入序列编码维度等长的位置编码。DeiT [4] 提高了 ViT 的训练效率，不再需求把大数据集（如 JFT-300M）作为预训练的限制，Transformer 可以直接在 ImageNet 上训练。

关于视觉 Transformer，位置编码不可或缺

在 ViT 和 CPVT 的实验中，我们可以发现没有位置编码的 Transformer 功用会出现清楚下降。除此之外，在 Table 1 中，可学习（learnable）的位置编码和正余弦（sin-cos）编码效果接近，2D 的相对编码（2D RPE）功用较差，但依然优于去掉位置编码的情形。

美团提出基于隐式条件位置编码，功用优于ViT和DeiT

美团、阿德莱德大学提出新型位置编码办法

位置编码的设计要求

显式的位置编码限制了输入尺寸，因此美团这项研讨思索运用隐式的依据输入而变化的变长编码办法。此外，它还需求满足以下要求：

保持很好的功用；

避免陈列不变性（permutation equivariance）；

易于完成。

基于上述要求，该研讨提出了条件编码生成器 PEG（Positional Encoding Generator），来生成隐式的位置编码。

生成隐式的条件位置编码

在 PEG 中，将上一层 Encoder 的 1D 输入变构成 2D，再运用变换模块学习其位置信息，最后重新变形到 1D 空间，与之前的 1D 输入相加之后作为下一个 Encoder 的输入，如 Figure 2 所示。这里的变换单元（Transoformation unit）可以是 Depthwise 卷积、Depthwise Separable 卷积或其他更为复杂的模块。

美团提出基于隐式条件位置编码，功用优于ViT和DeiT

将 PEG 插入到模型中（如 Figure 1 中添加在第一个 Encoder 后），即可对各个 Encoder 添加位置编码信息。这种编码益处在于不需求显式指定，长度可以依输入变化而变化，因此被称为隐式的条件位置编码。

美团提出基于隐式条件位置编码，功用优于ViT和DeiT

实验

ImageNet 数据集

该研讨将添加了 PEG 的 Vision Transformer 模型命名为 CPVT（Conditional Position encodings Visual Transformer）。在 ImageNet 数据集上，相反量级的 CPVT 模型功用优于 ViT 和 DeiT。得益于隐式条件编码可以依据输入静态调整的特性，基于 224×224 输入训练好的模型可以直接处置 384×384 输入（Table 3 最后一列），无需 fine-tune 就能直接取得功用提升。相比之下，其他显式编码没有 fine-tune 则会出现功用损失。

与其他编码方式的比照

Table 5 给出了 CPVT-Ti 模型在不同编码策略下的表现。其中在从第 0 个到第 5 个 Encoder 各插入一个 PEG 的功用最优，Top-1 准确率到达 73.4%。CPVT 独自运用 PEG 或与可学习编码相结合也优于 DeiT-tiny 在各种编码策略下的表现。

美团提出基于隐式条件位置编码，功用优于ViT和DeiT