图像预处置的一个重要操作就是resize,把不同大小的图像缩放到同一尺寸,但目前用到的resize技术依然是老旧的,无法依据数据变换。Google Research提出一个可学习的resizer,只需在预处置部分略作修正,即可提升CV模型功用!
神经网络要求输入的数据的大小在每个mini-batch中是一致的,所以在做视觉义务的时分,一个重要的预处置步骤就是image resize,把它们调整到一致的大小停止训练。
通常缩放(image down-scaling)后的图像不会太大,由于假设分辨率过高会招致训练进程中模型占用的内存急剧上升,并且过高的分辨率也会招致训练速度和推理速渡过慢。虽然近年来GPU的功用逐渐提升,但标准的输入图像依然是224 × 224。
在大少数状况下,经过处置的图像的最终尺寸十分小,例如早期的deepfake生成的图片只要80 × 80的分辨率。
在人脸数据集中,由于人脸很少有是正方形的,一张图片中的像素会糜费比较多的空间,可用的图像数据就更少了。
目前最常用的图像大小调整办法包括最近邻(nearest neighbor)、双线性(bilinear)和双三次(bicubic)。这些resize办法的速度很快,可以灵敏地集成在训练和测试框架中。
但这些传统办法是在深度学习成为视觉辨认义务的主流处置方案之前几十年开展起来的,所以并不是特别适宜新时代的深度学习模型。
Google Research提出了一种新的办法,经过改良数据集中的图像在预处置阶段缩放的方式,来提高基于图像的计算机视觉训练流程的效率和准确性。
图像大小对义务训练精度的影响并没有在模型训练中遭到很大关注。为了提高效率,CV研讨人员通常将输入图像调整到相对较小的空间分辨率(例如224x224) ,并在此分辨率下停止训练和推理。
研讨人员想到,这些resizer能否限制了训练网络的义务功用呢?
经过一个复杂的实验就可以证明当这些传统的resizer被可学习的resizer替代后,可以清楚提高功用。
传统的resizer通常可以生成更好的视觉上的缩放图像,可学习的resizer对人来说能够不是特别容易看清楚。
文中提出的resizer模型架构如下图所示:
它主要包括了两个重要的特性:(1) 双线性特征调整大小(bilinear feature resizing),以及(2)跳过衔接(skip connection),该衔接可包容双线性调整大小的图像和CNN功用的组合。
第一个特性思索到以原始分辨率计算的特征与模型的分歧性。跳过衔接可以简化学习进程,由于重定大大度模型可以直接将双线性重定大小的图像传递到基线义务中。
与普通的编码器-解码器架构不同,这篇论文中所提出的体系结构允许将图像大小调整为任何目的大小和纵横比。并且可学习的resizer功用简直不依赖于双线性重定器的选择,这意味着它可以直接交流其他现成的办法。
并且这个的resizer模型相对较轻量级,不会向基线义务添加少量可训练参数,这些CNN清楚小于其他基线模型。
论文中的实验主要分为三个部分。
1、分类功用。
将运用双线性调整器训练的模型和输入调整分辨率224×224称为默许基线。结果表明,在224×224分辨率的模型中,功用最好,运用文中提出的resizer训练的网络对功用有所提升。
与默许基线相比,DenseNet-121和MobileNet-v2基线辨别显示出最大和最小的增益。关于Inception-v2、DenseNet-121和ResNet-50,提出的resizer的功用优于具有相似双线性重定器。
2、质量评价
研讨人员运用3种不同的基线模型对AVA数据集停止训练。基线模型依据ImageNet上预先训练的权重停止初始化,并在AVA数据集上停止微调。resizer权重是随机初始化的。在这组实验中,运用双三次resizer为基线办法。经过平均基本真实分数战争均预测分数之间的相关性来权衡功用,相关性的评价采用运用皮尔逊线性相关系数(PLCC)和斯皮尔曼秩相关系数(SRCC)。
与基线模型相比,存在确定性的改良。此外,关于Inception-v2和DenseNet-121型号,文中提出的resizer功用优于双三次resizer。在更高的失败率下,关于学习型resizer来说,EfficientNet似乎是一个更难有所提升的基线模型。
(责任编辑:admin)