2024-07-24 21:03:43
5
0
0
为了简单给视频加点特效,需要一个高效的深度估计算法。
Robust-CVD
- 比较老的工作(2021),但是提供非COLMAP的相机姿态估计与视频深度估计
![title](https://leanote.com/api/file/getImage?fileId=669e509cab64415d237837c9)
NVDS: Neural Video Depth Stabilizer (ICCV2023)
- 可以基于任意单图像深度估计算法,改为稳定的视频深度估计。不提供相机位姿估计。
![title](https://leanote.com/api/file/getImage?fileId=669e4ef1ab64415d237837bc)
- 速度较快,效果较好,开源。
ChronoDepth: Learning Temporally Consistent Video Depth from Video Diffusion Priors
- 对比了很多个相关工作(facebook有俩,NVDS作者有俩),这个是比较新的视频深度估计工作。
- 但是没有提供运行速度,根据基于 Video Diffusion 来看,估计不快。文章报告的是 0.87秒 / 帧。
- 准确度上呢是更高的。
![title](https://leanote.com/api/file/getImage?fileId=669e4fe4ab64415d2a771472)
2024-07-12 11:04:48
15
0
0
- conda 的 cuda-toolkit 并不包含 nvcc,所以对于需要 torch cpp_extension 的包无法安装。
conda install cuda=11.7 -c nvidia
会安装 11.7版本的cudatoolkit 与 12.4版本的 nvcc,导致环境一片混乱。
- 正确的姿势是 ``
2024-04-16 10:57:46
58
0
0
2023-11-20 13:10:00
78
0
0
2023-11-11 00:22:48
86
0
0
NOISE-FREE SCORE DISTILLATION
- 标题惊到我了。
- 文章很有意思,因为原来通过加噪解决OOD问题,本文想到为什么不直接处理OOD的数据。于是文章定义 δC=ϵϕ(Zt;y,t)−ϵϕ(Zt;∅,t),也就是直接输入Z_t得到的条件去噪方向。那么SDS就能写成 ϵϕ(Zt;∅,t)+sδC,其中 ϵϕ(Zt;∅,t) 应当做无条件去噪。但由于 Zt 本身是有OOD数据加噪得到的,所以无法直接得到被预测的噪音。文章认为 ϵϕ(Zt;∅,t) 是由 (domain correction)δD 和 (denoising direction)δN 组成。
- 下图是InDomain数据,OutOfDomain数据,预测的denoisi
2023-10-22 17:55:43
61
0
0
StableDiffusionKDiffusionPipeline
StableDiffusionAdapterPipeline
StableDiffusionSAGPipeline
StableDiffusionGLIGENPipeline
StableDiffusionModelEditingPipeline
StableDiffusionAttendAndExcitePipeline
2023-08-22 15:50:38
82
0
0
SMPL
- 一个常用基础概念,来自于15年的siggraph文章"SMPL: A Skinned Multi-Person Linear Model"
![title](https://leanote.com/api/file/getImage?fileId=64e468cdab6441793623b632)
- 一套基于参数化的人体不同体型表征和动作生成的方法。
3DMM: 3D Morphable models
- 三维可变形人脸模型,是一个通用的三维人脸模型,用固定的点数来表示人脸。它的核心思想就是人脸可以在三维空间中进行一一匹配,并且可以由其他许多幅人脸正交基加权线性相加而来。每一个三维的人脸,可以由一个数据库中的所有人脸组成的基向量空间中进行表示,而求解任意三维人脸的模型,实际上等价于求解各个基向量的系数的问题。
- 当前基于3DMM的表情模型主要有两个思路,分别是加性模型和乘性模型。加性模型就是线性模型了,将表情作为形状的一个偏移量
- 例如 NeRFace 就把3DMM编码放入了NeRF当中来做人脸。
- blendshape 是一种常用 3DMM,分别身份basis和标签
AvatarCraft: Transforming Text into Neural Human Avatars with Parameterized Shape and Pose Control
- 第一步SDS染色,第二步类似NeRFEdit的方案做Ray blending。
![title](https://leanote.com/api/file/getImage?fileId=64e46996ab6441793d24b917)
- 问题在于生成的人物都是同一个体型的,即给定一个体型,再染色。
- 效果比其他方案好一些,但只有一些
![title](https://leanote.com/api/file/getImage?fileId=64e46a9dab6441793623ce35)
- 感觉马上能看到基于VSD的版本,应该会好不少。
Instruct-Video2Avatar: Video-to-Avatar Generation with Instructions
- video + 人脸提取 + InstructPix2Pix
- 方法很简单,先提取人脸,然后 InstructPix2Pix 做一帧的转化,再套用已有的EbSynth(Exampler-based image
video style transfer)完成对视频的转换。
![title](https://leanote.com/api/file/getImage?fileId=64e57189ab6441793d39ae6f)
- 结果上略有伪影
AvatarBooth: High-Quality and Customizable 3D Human Avatar Generation
2023-08-21 14:40:33
76
0
0
Rodin
- 虽然是之前的老文章了,但专门又看了下它的 portrait inversion 部分。
- 这部分的实现很简单,就是在基础 Diffusion 部分增加 CLIP-Condition 然后finetune就行。
![title](https://leanote.com/api/file/getImage?fileId=64e30fb2ab6441793d06e1ea)
IntrinsicNeRF: Learning Intrinsic Neural Radiance Fields for Editable Novel View Synthesis
- 做了我去年年中尝试了,但没继续的idea。
- 学习基本颜色、阴影和余量。然后完成室内更精确的NeRF重建。
![title](https://leanote.com/api/file/getImage?fileId=64e46b64ab6441793623d828)
- 方案有意思的是用了类似聚类的方法合并同一类材质
![title](https://leanote.com/api/file/getImage?fileId=64e46b81ab6441793623d99e)
- 或许可以用到之后的房间生成论文里。
PoseDiffusion: Solving Pose Estimation via Diffusion-aided Bundle Adjustment
- 结合了 Diffusion的相机姿态估计。
- 需要训练一个用来处理姿态估计的diffusion model。
![title](https://leanote.com/api/file/getImage?fileId=64e46e99ab64417936240093)
- 看起来效果挺强
![title](https://leanote.com/api/file/getImage?fileId=64e46e87ab6441793623ffbe)
FreeDoM: Training-Free Energy-Guided Conditional Diffusion Model
![title](https://leanote.com/api/file/getImage?fileId=64e46efaab6441793d24fdbb)
- 使用各种预训练模型和构造 Energy Function 来控制生成。
- 如果有train在 noisy image 上的预训练模型,就可以做classier guidiance。然而多数现成的模型只在clean image上有,所以本文这么解决:
![title](https://leanote.com/api/file/getImage?fileId=64e470d5ab6441793d25168e)
- 然后本文直接用 clean im
2023-07-02 20:50:52
95
0
0
- 一些比较有意思的 cite 的 Score jacobian chaining 的工作。
3D-aware Image Generation using 2D Diffusion Models
TextDeformer: Geometry Manipulation using Text Guidance
- 把SDS的思路用在了mesh deformation,不过本文引导使用的是 CLIP。
![title](https://leanote.com/api/file/getImage?fileId=64a18ab3ab64417936809ea6)
Zero-1-to-3: Zero-shot One Image to 3D Object
- 在合成数据上训练了一个去噪模型,具有良好的泛化能力,能够给出物体新视角高质量数据(虽然三维一致性一般)。
![title](https://leanote.com/api/file/getImage?fileId=64a19143ab6441793d8194f1)
![title](https://leanote.com/api/file/getImage?fileId=64a19174ab64417936809ee4)
Sin3DM: Learning a Diffusion Model from a Single 3D Textured Shape
- 大概就是之前想做的单NeRF生成的改进版,基本思路一致——GAN换成Triplane Diffusion。
- 文章重新选择了更好的适用的数据集——普通数据难以应用、规则的材质化的效果才比较好。不再追求泛化能力,转而在局部场景上追求更好的质量。
![title](https://leanote.com/api/file/getImage?fileId=64a28337ab6441793d819b9d)
- 相比之前的直接用3D版本SinGAN的效果:
![title](https://leanote.com/api/file/getImage?fileId=64a2834fab6441793d819b9e)
- 几何提升有限,但材质生成提升较好。
- New Idea: 结合 3D seam carving效果会怎么样呢?!3D seam carving规则化给出一个场景的不同尺寸,然后用于训练这个生成模型,从而能否提高模型对于场景应用的泛化能力?
ProlificDreamer: High-Fidelity and Diverse Text-to-3D Generation with Variational Score Distillation
2023-05-09 16:07:49
60
0
0
Stochastic Neural Radiance Fields: Quantifying Uncertainty in Implicit 3D Representations
- 非常简单的原理,就是不同种子多训练几个 NeRF
![title](https://leanote.com/api/file/getImage?fileId=63dbd56fab644117109858ac)
- 效果竟然还可以,就是用的数据集shao'le'yi'xi
![title](https://leanote.com/api/file/getImage?fileId=63dbd579ab644117099a0a0c)