关于GAN的灵魂七问

时间：2019-04-13 21:05 来源：网络整理作者：网络浏览：次收藏挑错推荐打印

生成对立网络在过去一年仍是研讨重点，我们不只看到可以生成高分辨率(1024×1024)图像的模型，还可以看到那些以假乱真的生成图像。此外，我们还很兴奋能看到一些新的生成模型，它们能生成与 GAN 相媲美的图像，其主要代表就是流模型 Glow。

关于GAN的灵魂七问

从 DeepMind 提出的 BigGAN，到英伟达的 Style-based Generator，它们生成的图像质量都令人惊叹。虽然还有很多成绩没有处置，但图像生成曾经能骗过普通人类了。不信的话，你可以试试区分生成的图像与真实图像。

https://v.qq.com/x/page/j08127vm36n.html

看了下面 Style-based Generator 的生成效果，很清楚觉得生成对立网络在过去 2 年中曾经取得了清楚的停顿。其实，从 16 年到 18 年图像分解的质量越来越高，看论文的速度都快赶不上 GAN 的开展了：

但是在另一些方面，GAN 的提升并不是那么清楚。例如，关于如何评价 GAN 的效果，如今仍有很多分歧。由于目前图像分解基准曾经十分多了，所以反思子范围的研讨目的显得更有意义。

在这篇文章中，谷歌大脑团队的 Augustus Odena 就针对 GAN 的七大开放性成绩作出了引见。

成绩 1：如何在 GAN 和其它生成模型之间停止挑选?

成绩 2：GAN 能建模哪些散布?

成绩 3：除了图像分解外，GAN 还能用于哪些中央?

成绩 4：GAN 的全局收敛性如何?训练静态进程又是怎样的?

成绩 5：我们该如何评价 GAN 的好坏，什么时分又该运用 GAN 这种生成模型?

成绩 6：如何扩展训练 GAN 的批量大小?

成绩 7：GAN 和对立样本之间有什么关系?

Augustus 对每一个成绩都做了很详细的讨论，包括成绩背景、成绩内容以及如何处置等等。这篇文章发布在 Distill 上，机器之心简明对六大成绩做了引见，更详细的内容与相关援用文献可阅读原文。

谷歌大脑和其他很多研讨者都在努力于处置这些 GAN 的开放性研讨成绩。这篇文章也援用了近来十分多的生成对立网络研讨，因此并不能八面玲珑地描画细节，所以读者有一定的基础、对这些成绩有一定的直观了解就最好了。

成绩1：如何在 GAN 和其它生成模型之间停止挑选？

除了 GAN，另外两种生成模型如今也很盛行：流模型和自回归模型。粗略来说，流模型将一堆可逆变换运用于先验样本，以计算观测值的准确对数似然性。另一方面，自回归模型将观测值的散布分解为条件散布，并一次处置观测值的一个组件(关于图像，能够是一次处置一个像素)。最近的研讨表明，这些模型具有不同的功用特点和权衡。准确描画这些权衡并确定它们能否为模型的固有特性是一个幽默的开放性成绩。

详细来说，我们先暂时把重点放在 GAN 和流模型之间计算成本的差异上，训练 GAN 和流模型的计算成本之间似乎存在庞大差异。GLOW 模型是用 40 个 GPU 花两周训练的，以生成 256x256 的名人面部图像，其运用的参数为 2 亿。相比之下，自回归 GAN 是在相似的面部数据集上用 8 个 GPU 花 4 天训练的，以生成 1024x1024 的图像，它运用了 4600 万参数。流模型大约需求 17 倍多的 GPU 天数和 4 倍多的参数来生成像素少 16 倍的图像。

为什么流模型效率更低?有两个能够的缘由：首先，最大似然训练能够比对立训练的计算难度更大。其次，归一化流能够无法有效代表特定函数。论文《Parallel WaveNet: Fast High-Fidelity Speech Synthesis》第 6.1 节对表达性做了一些小实验，但目前我们还没看就任何对这个成绩的深化剖析。

前面曾经讨论过了 GAN 和流模型之间的权衡，那自回归模型呢?理想证明，自回归模型可以看做不可并行化的流模型(由于它们都可逆)。

因此，GAN 是并行且有效的，但不可逆;流模型是可逆且并行的，但比较低效;自回归模型是可逆且有效的，但不可并行化。

关于GAN的灵魂七问

由此引出第一个开放性成绩：

处置这个成绩的办法之一是研讨更多由多种模型混合而成的模型。这种办法曾经用于混合 GAN/流模型研讨，但它依然没有被充沛开发。

我们也不确定最大似然训练能否一定比 GAN 训练更难。确实，在 GAN 训练损失下，将 zero mass 置于训练数据点上没有被明白制止，但面对这种状况，弱小的判别器确实会比生成器做得更好。不过，看起来 GAN 确真实实际中学习低支持度的散布。

最终，我们疑心流模型每个参数的表达不如恣意解码器函数，而且这在特定假定下是可以证明的。

GAN 能建模哪些散布?

大少数 GAN 都侧重于图像分解，详细而言，研讨者会在一些标准图像数据集上训练 GAN，例如 MNIST、CIFAR-10、STL-10、CelebA 和 Imagenet 等。这些数据集也是有难易之分的，而且生成的效果也有好有坏。阅历表明，CelebA 上最先进的图像分解模型生成的图像似乎比 Imagenet 上最先进的图像分解模型生成的图像更有压服力。

与任何迷信一样，我们也希望有一个复杂的实际来解释实验察看。理想状况下，我们可以查看数据集，并执行一些计算而不实践训练生成模型，然后就可以判别「这个数据集关于 GAN 来说比较容易建模，但是关于 VAE 来说比较难」。这些都是阅历了解，不过目前在这个范围上也有一些研讨。由此引出下面这个成绩：

我们能够问「建模散布」究竟是什么意思，会有一些 GAN 并不能学习到的散布吗?会不会有一些 GAN 实际上能学习的散布，但是在给定合理的计算资源下它学习的效率并不高?关于 GAN 来说，这些成绩的答案和其他模型给出的会不会存在差别，如今很多都远没有处置。

Augustus 以为我们有两种策略来回答这些成绩：

分解数据集：我们可以研讨分解数据集来讨论究竟哪些特征会影响数据集的可学习性。例如在论文《Are GANs Created Equal? A Large-Scale Study》中，研讨者就创立了一个分解三角形的数据集。

修正现有的实际结果：我们可以应用现有的实际结果，并尝试修正假定以思索数据集的不同属性。

除了图像分解外，GAN 还能用于哪些中央?

除了图像到图像的转换和范围的自顺应等运用外，大少数 GAN 的成功运用都在图像分解中。而 GAN 在图像外的探求主要分为三个范围：

(责任编辑：admin)