wuvin
Always take risks!
Toggle navigation
wuvin
主页
实验室的搬砖生活
机器学习
公开的学术内容
公开的其他内容
About Me
归档
标签
友情链接
ZYQN
ihopenot
enigma_aw
hzwer
杨宗翰
Deep Learning-Based Video Coding: A Review and A Case Study
2021-05-10 15:17:06
1204
0
0
wuvin
# 主要内容 ## 不同的DL使用方式 ### 帧内预测 * 对于一个path仅保留左侧和上侧一个窄条的数据(上下文),剩下部分由NN推理生成。 * ![title](https://leanote.com/api/file/getImage?fileId=6098de4eab644148df0025fc) * 这部分有用 CNN 也有用 RNN 实现的。 ### 帧间预测 * 传统方法使用ME(运动估计)MC(运动补偿)实现。 * 有用GAN从前四帧生成后一帧的,也有结合双向估计的。 * 分数像素估计:真实运动估计不该是像素到像素的映射,应该是小数位置到小数位置的映射。基于此点,有使用高清图下采样作为训练数据训练网络对于运动估计的回归。 * 结合帧内预测,网络输入为帧间预测feature+当前块的上下文+帧间预测块的上下文。 ### 跨通道预测 * 通常压缩的时候会分为 Y, U, V 三个通道,人眼只对于 Y 通道更加敏感。于是有了从亮度预测色度的工作。 ### NN 替代 DCT变换 * 在通常的编码中,会先执行 DCT 变换,然后只保留大部分低频信号,不影响图像的高频部分直接 Clip 掉。 * 所以可以使用一个NN来学习这个变换,目标为在保证图像质量情况下,变换得到的编码的稀疏度尽可能高。 ### 优化解码后的视频 * 由于编码压缩,解码后的视频通常存在一定的 artifacts,通过一个 NN 来优化解码后的图像质量。 ### 采样恢复 * 为了提高压缩率,通常会对空间(整体分辨率)、时间(帧率)、像素深度(多少bit的颜色)进行采样。 * 第一类work只考虑深度学习上采样部分,即人工决定关键帧和非关键帧的下采样方式,然后训练NN恢复这个采样。 * 第二类同时考虑下采样,上下采样都是NN,通过限制下采样后的结果和人工下采样结果的差异,进行训练。 ### 编码优化 * 在视频和图片编码过程中,编码器通常对于每一个块都要选择最优的编码方式,然后告诉解码器编码方式。使用 NN 的方式来预测每一个块的最优编码方式,来加速编码速度。 * ROI(region of interest)区域预测,编码通常只需要保留重要区域失真率低,而不重要区域的失真率可以高一些。通过CNN做语义分析来提供ROI的预测。
上一篇:
DVC: An End-to-end Deep Video Compression Framework
下一篇:
Auto-GAN Distiller
0
赞
1204 人读过
新浪微博
微信
腾讯微博
QQ空间
人人网
提交评论
立即登录
, 发表评论.
没有帐号?
立即注册
0
条评论
More...
文档导航
没有帐号? 立即注册