wuvin
Always take risks!
Toggle navigation
wuvin
主页
实验室的搬砖生活
机器学习
公开的学术内容
公开的其他内容
About Me
归档
标签
友情链接
ZYQN
ihopenot
enigma_aw
hzwer
杨宗翰
图像生成方法及可用开源代码综述
2022-10-31 17:07:19
164
0
0
wuvin
# 图像生成 * 本质上是给出一个数据集X,然后用一个生成模型去估计这个分布 $p(X)$。估计方法有 Autoregressive models, Normalizing flows, Energy-based models, GANs, Diffusion models. * 2022年之前,主流也是质量最高的方法是用 GAN。GAN包含一个生成器,即一个 $N(0,I) \rightarrow p(X)$ 的模型,和一个判别器 $X \rightarrow a$。生成器从噪音中通过一遍神经网络推理得到所生成的图像。判别器输入一张真实/生成的图像,然后判别是否为真实图像。训练时,生成器和判别器是轮流迭代的对抗学习过程。期望情况下,最终生成器能够完美的从噪音生成正确的原始图像的分布,而判别器则刚好无法判别真伪。最常用的开源代码是Nvidia 公布的 StyleGANv2,github拥有超过1万个stars。 * ![title](https://leanote.com/api/file/getImage?fileId=6360b17eab64411709a6f1e2) * 但是GAN拥有一个天生的缺点——**基于对抗迭代的训练方法并不稳定**。近两年来,Diffusion models 快速崛起,Diffusion models也是从噪音中生成一张图像,但方法不同。简单而言(因为其实有其他更复杂的分支方法),就是训练一个去噪的神经网络,通过对图像反复去噪,最终达到生成图像的效果。训练时,只需要正向给图像添加噪声,然后就获得了用于训练去噪网络的图像数据对。目前最火爆的开源代码是 latent-diffusion,拥有4.8K stars。 * ![title](https://leanote.com/api/file/getImage?fileId=6360b2caab64411710a543e8) * ![title](https://leanote.com/api/file/getImage?fileId=6360c2f5ab64411710a54490) # StyleGANv2 * ![title](https://leanote.com/api/file/getImage?fileId=6360b444ab64411709a6f1fa) * ![title](https://leanote.com/api/file/getImage?fileId=6360b453ab64411710a543f3) * ![title](https://leanote.com/api/file/getImage?fileId=6360b45fab64411709a6f1fc) ## StyleGANv1 * 最早版本的 StyleGAN 研究如何实现可控风格化,引入了 mapping network 把一个高斯分布映射到控制信息 w的分布,然后再在生成过程中逐层加入控制信息w来实现可控生成。 * ![title](https://leanote.com/api/file/getImage?fileId=6360b4b1ab64411710a543f7) ## StyleGANv2 * 第二版的 StyleGAN 针对性的修复了第一版中生成的一些缺陷,提高了生成质量。 * ![title](https://leanote.com/api/file/getImage?fileId=6360b55fab64411710a543ff) # CLIP * CLIP 是一个多模态大模型,用于对齐语言和图像表征。 OpenAI 使用了谷歌上超过四亿张带标题的图像来训练 CLIP,使之拥有了极为惊人的泛化能力。 CLIP拥有一个文字编码器和一个图像编码器(输入图像/文字,输出一个高维向量),通过对比学习训练,使得同样语义的文字和同样语义的图像能够拥有相近的表征。 * ![title](https://leanote.com/api/file/getImage?fileId=6360b6bcab64411710a54410) * CLIP的泛化能力强大到不需要再次训练,就可以通过 "This is a xxx" 的方法实现超过76% 的 ImageNet 分类准确率,而且对于对抗数据也一样高。 * ![title](https://leanote.com/api/file/getImage?fileId=6360b771ab64411710a54415) # VQGAN-CLIP * CLIP 强大的泛化能力开启了文字控制图像生成的新纪元。 * VQGAN-CLIP 使用 CLIP 来控制图像生成,得到了不错的生成结果。VQGAN 有 2.4k 的github stars。 * ![title](https://leanote.com/api/file/getImage?fileId=6360b823ab64411709a6f219) # Latent Diffusion Models * 就是最近大火的AI 作画的后端算法。 * Latent Diffusion Models 使用在 latent space 做生成的方式有效的加速了 Diffusion Models 的训练和推理速度。 * ![title](https://leanote.com/api/file/getImage?fileId=6360b8b4ab64411710a54422) * 同样也是大力出奇迹的工作,在 CLIP 用的那个四亿张图片上训练的。使用CLIP等方式在去噪生成阶段,逐步引导生成结果。 * ![title](https://leanote.com/api/file/getImage?fileId=6360b9ccab64411709a6f225) * ![title](https://leanote.com/api/file/getImage?fileId=6360ba0aab64411710a54431)
上一篇:
CLIP-NeRF 后续工作
下一篇:
The recent rise of diffusion-based models
0
赞
164 人读过
新浪微博
微信
腾讯微博
QQ空间
人人网
提交评论
立即登录
, 发表评论.
没有帐号?
立即注册
0
条评论
More...
文档导航
没有帐号? 立即注册