wuvin
Always take risks!
Toggle navigation
wuvin
主页
实验室的搬砖生活
机器学习
公开的学术内容
公开的其他内容
About Me
归档
标签
友情链接
ZYQN
ihopenot
enigma_aw
hzwer
杨宗翰
超分网络发展综述
2021-03-31 10:37:30
2695
0
0
wuvin
# SRCNN * 15年老文章,先把图片用 bicubic interpolation 放大4倍,然后过 9x9, 1x1, 7x7 三层网络。损失函数为重建的MSE。 * ![title](https://leanote.com/api/file/getImage?fileId=6063e116ab644110240000bf) # SRGAN * PSNR 不一定能代表真实效果,MSE的loss使得图片更加模糊。 * 增加图片和Groud Truth 的 perceptual loss,以及增加一个 Discriminator 区分生成的和真实结果。 # ESRGAN * 去掉了 BN 从而减少了生成图片中的 Artifacts。 * 引入 Relativistic average GAN 中的相对损失函数判断相对的真假。 * perceptual loss 使用激活层之前的而非之后的 # KernelGAN * 使用一个 GAN 网络去学习下采样过程,而非使用 bicubic downscaling 之类的方法,这样生成的输入数据更加符合真实情况。 从而提升训练得到的超分模型在真实数据下的效果。 * ![title](https://leanote.com/api/file/getImage?fileId=606597f4ab64417533000386) # GAN-CNN Based Blind Denoiser * 降噪GAN。在真实图片中找到一些平滑区域(比如天空),然后抽取其中的噪音作为训练数据来训练一个生成噪音的 WGAN。从而实现生成带有噪音的训练数据进行训练。 # RealSR * 现实低清图片的噪音分布和下采样得到的图片噪音分布是不同的。可以视为两个Domain的数据。 * ![title](https://leanote.com/api/file/getImage?fileId=606599dcab6441773700035f) * 先用 KernelGAN 学习噪声分布,然后用 PatchGAN 结构判别器替代 ESRGAN 的判别器。拿到了 NTIRE 2020 Challenge Real-World SuperResolution 的冠军。 # PISR * ECCV2020 文章,大架构感觉和红洋那片文章挺像的。 * 第一篇成功把蒸馏用到超分上的文章,在此之前超分蒸馏都不太work。 * 本文主要技巧在于把 AutoEncoder 中间的输出增加了和 Low Resolution 图片相似度的一个 loss, 从而规范 AutoEncoder 的 Decoder 部分映射。这一步使得蒸馏成为可能。 * Teacher Decoder 结构和 学生 Decoder 一致,从而学生 Decoder 初始化值为 Teacher Decoder。 * 学生的feature后续接了一个 MLP 再去接近老师,这一步很常规。同时这个 MLP 还学了一个 attention 实现对于蒸馏的加权。 * ![title](https://leanote.com/api/file/getImage?fileId=6065aaeaab6441773700037e) # RFANet * CVPR2020 文章,主要结构为大量使用 Dense Connection 和 Concat。 * 文章使用了以下结构,也就是不仅采用了残差块,还把中间结果 Concat 起来用一个 1x1 Conv得到最后结果。这说明 SR 文章自从去掉 BN 后,深层网络训练问题依旧没有得到解决,才需要采用这样计算量巨大的 Dense Connection 来保证底层信息不丢失。 * ![title](https://leanote.com/api/file/getImage?fileId=60668f3bab64417533000582) * 还增加了一个 attention 模块提升表现。 * ![title](https://leanote.com/api/file/getImage?fileId=60669454ab64417737000569) # RFB-ESRGAN * NTIRE2020极限超分赛道的冠军 * 把 Receptive Field Block 结构用到超分上(RFB在目标检测和识别效果都不错)。 * 这是RFB,这个结构等效有很大的视野范围,flops相对较低,效果比Conv好,但是显然硬件不友好。 * ![title](https://leanote.com/api/file/getImage?fileId=6066bac4ab644177370005d8) * ![title](https://leanote.com/api/file/getImage?fileId=6066bae6ab644177370005da) * 本文简单魔改了一下,把第一步的3x3拆成了两个横纵的1x3。 * 整个GAN的大结构,RRDB 是 Residual in Residual Dense Block,也就是上面RFANet第一个图中的RB换成一个 DenseBlock。RFB-RDB就是把Denseblock里面的Conv换RFB。 * ![title](https://leanote.com/api/file/getImage?fileId=6066b2a8ab644177370005b7) # RFDN * AIM20-ESR 冠军, 和RFANet的作者是一样的 * IMDB 在超分是一个通用结构,等效于一个四层 DenseNet Concat 后借一个 group=4 的分组卷积。这个文章的SRB结构完全等价于去掉BN只有并行ID的RepVGG结构,但是**这篇文章比RepVGG早**! * ![title](https://leanote.com/api/file/getImage?fileId=6066c9d3ab644177370005f9) # comments > NTIRE2021 比赛刚在三月底结束,最终结果还在评审当中,所以过一两个月估计才能知道今年SOTA模型张啥样。 > 但是从去年 SOTA 模型来看,主要模型优势在于使用了 SRB 代替了 Conv。但是到目前为止,SR领域Normalization都不能用,所以之前折腾的不带 BN 版本的 RepVGG简化版说不定有用。所以接下来会开始复现SR论文,验证我们魔改的RepVGG简化版能不能用。 > 上面这些paper基本都是当时的 SOTA,从方法发展历程来看,先从只去拟合差,到疯狂加 Dense Connection 和去掉BN 试图保留输入图片尽量多的信息以提升效果,目前为止。 > 目前考虑把 RepVGG 改版应用到 SR 上,并且尝试压缩网络到边缘部署能超过 5fps()。
上一篇:
MobiSR
下一篇:
StyleGAN
0
赞
2695 人读过
新浪微博
微信
腾讯微博
QQ空间
人人网
提交评论
立即登录
, 发表评论.
没有帐号?
立即注册
0
条评论
More...
文档导航
没有帐号? 立即注册