英伟达开源「Imaginaire」：九大图像及视频分解办法

首页

当前位置：首页 > 开发 > WEB开发 >

时间：2020-10-06 08:21 来源：网络整理作者：网络浏览：次收藏挑错推荐打印

图像和视频等视觉数据的生成是机器学习和计算机视觉范围重要的研讨成绩之一。近几年，英伟达提出了 SPADE、MUNIT 等多个图像及视频分解模型。

近日，英伟达又开源了一个新的 PyTorch 库「Imaginaire」，共包含 9 种英伟达开发的图像及视频分解办法。

英伟达开源「Imaginaire」：九大图像及视频分解办法

项目地址：https://github.com/NVlabs/imaginaire

这九种办法辨别为：

有监视的图像到图像转换

1、pix2pixHD

2、SPADE/GauGAN

无监视的图像到图像转换

1、UNIT

2、MUNIT

3、FUNIT

4、COCO-FUNIT

视频到视频转换

1、vid2vid

2、fs-vid2vid

3、wc-vid2vid

pix2pixHD

「pix2pixHD」是 pix2pix 的晋级版本，具有高分辨率图像和语义处置功用，主要处置了深度图像分解编辑中的质量及分辨率成绩。

‍项目主页：https://tcwang0509.github.io/pix2pixHD/

‍论文链接：https://arxiv.org/pdf/1711.11585.pdf

在这篇论文中，来自英伟达和 UC 伯克利的研讨者提出了一种运用条件 GAN 从语义标签图上分解高分辨率照片级逼真图像的办法。此前，条件 GAN 曾经有了很普遍的运用，但生成结果均为低分辨率并与理想差异较大。因此，研讨者运用了一种新的对立损失、多尺度生成器和判别器架构来生成 2048x1024 的结果。此外，研讨者为该框架扩展了两个附加功用。首先，兼并了对象实例联系信息，完成了删除 / 添加对象和更改对象类别等操作；其次，提出了一种在相反输入下生成多种结果的办法，让运用者可以编辑对象外观。该论文被 CVPR 2018 接纳。

SPADE/GauGAN

在 GTC 2019 上，英伟达展现了一款交互运用「GauGAN」。它可以轻松地将粗糙的涂鸦变成逼真的杰作，令人蔚为大观，效果堪比真人摄影师作品。GauGAN 运用主要运用的技术，就是英伟达的 SPADE。

项目主页：https://nvlabs.github.io/SPADE/

论文地址：https://arxiv.org/pdf/1903.07291.pdf

在这篇论文中，来自 UC 伯克利、英伟达、MIT CSALL 的研讨者提出了一种空间自顺应归一化办法，在给定输入语义规划的状况下，完成了一种复杂有效的逼真图像分解层。以前的办法直接将语义规划作为输入提供应深度网络，然后经过卷积、归一化和非线性层处置深度网络。实验表明，这种办法并不是最优的，由于归一化层倾向于「洗去」语义信息。为了处置这个成绩，研讨者提出运用输入规划，经过空间自顺应的、学习的转换来调理归一化层中的激活函数。在几个具有应战性的数据集上的实验表明，与现有办法相比，该办法在视觉保真度和与输入规划的对齐方面具有优势。最后，该模型允许用户控制分解图像的语义和作风。该论文被 CVPR 2019 接纳为 Oral 论文。

UNIT

项目地址：https://github.com/NVlabs/imaginaire/tree/master/projects/unit

论文地址：https://arxiv.org/abs/1703.00848

UNIT（Unsupervised image-to-image translation）旨在经过运用来自单个域中边缘散布的图像来学习不同域中图像的结合散布。由于要到达给定的边缘散布需求一个结合散布的有限集，因此假设没有其他假定，就无法从边缘散布推断结合散布。为了处置这个成绩，研讨者提出了一个共享潜在空间的假定，并提出了一个基于耦合 GAN 的无监视图像到图像转换框架。

MUNIT

无监视图像到图像转换是计算机视觉范围一个重要而富有应战的成绩：给定源域（source domain）中的一张图像，需求在没有任何配对图像数据的状况下，学习出目的域（target domain）中其对应图像的条件散布。虽然条件散布是多模态的，但此前办法都引入了过于简化的假定，而将其作为一个确定性的一对一映射，因此无法在特定的源域图像中生成富有多样性的输入结果。

项目地址：https://github.com/NVlabs/imaginaire/tree/master/projects/munit

论文地址：https://arxiv.org/abs/1804.04732

在这篇论文中，康奈尔大学和英伟达的研讨者提出了多模态无监视图像到图像转换 MUNT 框架。研讨者假定，图像表征可以分解为一个具有域不变性（domain-invariant）的内容码（content code）和一个能描写域特有性质的作风码（style code）。为了将图像转化到另一个域中，研讨者将：1. 原图像的内容码，2. 从目的域中随机抽取的某个作风码停止重组，并剖析了 MUNT 框架，并树立了相应的实际结果。少量实验表明，将 MUNT 与其他 SOTA 办法相比具有优越性。最后，经过引入一个作风图像（style image）样例，运用者可以应用 MUNT 来控制转化的输入作风。

FUNIT

项目地址：https://github.com/NVlabs/imaginaire/tree/master/projects/funit

论文地址：https://arxiv.org/abs/1905.01723

(责任编辑：admin)