wuvin
Always take risks!
Toggle navigation
wuvin
主页
实验室的搬砖生活
机器学习
公开的学术内容
公开的其他内容
About Me
归档
标签
友情链接
ZYQN
ihopenot
enigma_aw
hzwer
杨宗翰
20220414 Paper Reading
2022-04-14 15:46:03
180
0
0
wuvin
# PixelNerf: Neural Radiance Fields from One or Few Images * [效果展示](https://alexyu.net/pixelnerf/) * 在数据不充足时,传统nerf很难收敛得很好。 * 对于训练和渲染时的每一个点,找到在之前图像中出现的位置,然后使用一个预训练的2DCNN (ResNet34 on ImageNet)提取local特征。 * ![title](https://leanote.com/api/file/getImage?fileId=6257d529ab64412e3e05f9c2) * ![title](https://leanote.com/api/file/getImage?fileId=6257d603ab64412e4504e1aa) * 这样一个编码的时候直接告诉了在图片中的样子确实能显著提升fewshot的收敛效果,但我比较担心在复杂遮挡的情况下的效果。 * ![title](https://leanote.com/api/file/getImage?fileId=6257d801ab64412e4504e1b1) * 这个例子可以看出,在多个视图的情况下,nerf效果反而可能比pixelNerf更好,而且pixelNerf的复杂度与视图数量相关。 # GRF: Learning a General Radiance Field for 3D Representation and Rendering * 上文的同一个组后续工作, ICCV 2021。 * 这次不再直接拼接到Nerf的输入上了。先过一个流程得到对于一个3D点的Feature。这个$x_p,y_p,z_p$ 是询问点的坐标(其实我觉得该用相机与这个点的位置差,以及这里特征融合有使用 Transformer 的空间)。 * ![title](https://leanote.com/api/file/getImage?fileId=6257e04cab64412e4504e1d3) * 后面再加view direction(yysy, 这图画的真丑). * ![title](https://leanote.com/api/file/getImage?fileId=6257e197ab64412e3e05fa01) * 除了常规实验外,做了个有意思的实验。把另一个场景的输入套用进来,有种直接输入多视角图,直接输出合成视角的感觉了。(除了这个就真没别的什么亮点了) * ![title](https://leanote.com/api/file/getImage?fileId=6257e1d1ab64412e3e05fa03) * 可惜只做了一些非常 toy 的数据集。 * ![title](https://leanote.com/api/file/getImage?fileId=6257e25eab64412e4504e1e2) # Depth-supervised NeRF: Fewer Views and Faster Training for Free * ![title](https://leanote.com/api/file/getImage?fileId=6257d902ab64412e3e05f9ce) * 在数据量少的时候,Nerf会出现严重的 OverFitting 的情况。但是增加深度数据可以减轻这个情况。 * ![title](https://leanote.com/api/file/getImage?fileId=6257d94aab64412e4504e1b7) * 深度的计算方法和颜色一样,就只是把 color 替换为了 distance from cam. * ![title](https://leanote.com/api/file/getImage?fileId=6257da0aab64412e4504e1ba) * 训练时额外加一个深度L2信息 * ![title](https://leanote.com/api/file/getImage?fileId=6257da9aab64412e4504e1bf) * 实验上他们分析了生成效果,深度估计误差,以及把他们方法加到 PixelNerf 和 metaNerf 上。遗憾的是我翻了半天也没找到平衡两个loss的系数是多少以及相关实验(Code里是0.1)。深度的GT是由 COLMAP 计算得到的 SFM 信息,对于每个深度数据点还计算了额外的置信度以避免错误深度信息带来的扰动。 * ![title](https://leanote.com/api/file/getImage?fileId=6257de6dab64412e4504e1cd) * 上表展示了,如果有真的深度GT,能再有非常显著的提升。 * 上表 PixelNerf 和 MetaNerf 是 Pretrained on DTU。有 finetune 的话效果肯定还是比nerf高的。 * ![title](https://leanote.com/api/file/getImage?fileId=6257ded6ab64412e3e05f9ee) * 其实还比较好奇,有预训练的深度估计网络和带深度的 Nerf 联合finetune 的效果。 # OmniNerf: Synthesizing Panoramic Parallaxes from a Single Panorama * [效果展示](https://cyhsu14.github.io/OmniNeRF/) * 去年七月挂载 Arxiv 上,本周二在 Youtube 上挂了一个效果演示。已开源,代码基于 PixelNerf。 * 台湾清华大学的,第二作者是 DirectVoxelGo 的作者。看样子应该是中了CVPR。 * 单个带深度的全景图做新视图合成。 * ![title](https://leanote.com/api/file/getImage?fileId=6257e321ab64412e3e05fa07) * 第一步,根据已有的数据映射成3D的点云,然后在新的地方做视图合成来实现数据集的扩充。文章用了均值平滑的Trick来避免错误的透视合成。大概合成了100张图。 * ![title](https://leanote.com/api/file/getImage?fileId=6257e712ab64412e3e05fa1f) * 启发自一些深度估计的文章,本文添加了对于每个像素点周围颜色和自己的颜色差的预测(额外加一个head),来保证预测出来的结果更加平滑,这部分训练方式和颜色一致。(为啥不直接加深度) * ![title](https://leanote.com/api/file/getImage?fileId=6257e86fab64412e4504e203) * ![title](https://leanote.com/api/file/getImage?fileId=6257e8a7ab64412e4504e205) * 整体来说,novalty一般般,效果还不错。但是真的和基于点云的视图合成有很大的提升吗?为啥不直接搞个nerf同时预测深度,并且不要视角信息,反正都没有 BRDF。
上一篇:
20220428Paper Reading
下一篇:
20220325 Paper Reading
0
赞
180 人读过
新浪微博
微信
腾讯微博
QQ空间
人人网
提交评论
立即登录
, 发表评论.
没有帐号?
立即注册
0
条评论
More...
文档导航
没有帐号? 立即注册