分类 - 机器学习

2024-04-16 10:57:46    9    0    0
2023-11-20 13:10:00    38    0    0
  • 从 Zero123 开始数吧

Zero-1-to-3: Zero-shot One Image to 3D Object

  • 通过在objaverse 上大规模训练得到具有一定泛化能力的,condition on 相机视角和参考图的 Diffusion。
  • 但并没有像 SD 那样强大的泛化能力。
  • title
  • 虽然有一些泛化能力,但后续文章指出,这泛化能力并不多
  • title
  • 似乎相比同期方法有显著提升(但后续文章来看,SJC-I在这里被严重低估了):
  • title

Magic123: One Image to High-Quality 3D Object Generation Using Both 2D and 3D Diffusion Priors

  • 指出了 Zero-1-to-3 存在的问题—— OOD的情况下表现不好。
  • title
  • 这里的2D prior 是指SDS,而3D prior 是指 Zero-1-to-3
  • title
  • 至少本文说明了,纯二维SDS只能做单视角生成的,没有Zero123说的那么差。
  • title
  • 其实相比后续文章,这篇的数值指标是最差的(相对Zero-1-to-3没啥提升),但是确实唯一一个有泛化能力保障的。(即没有自己在中小规模数据上finetune)
  • title

接下来是有趣的三篇同期、同名工作

Consistent-1-to-3: Consistent Image to 3D View Synthesis via Geometry-aware Diffusion Models

  • 这是三兄弟里最强的
  • title
  • title
  • UNet Attention 部分引入 epipolar 限制(epipolar在MVS等少视角重建真是屡试不爽)
  • title
  • title
  • 如同 Zero-123 一样,在Objaverse上训练的。需要注意的是,和Zero123一样限制在单个物体,且必须白色背景!

CONSISTENT123:ONE IMAGE TO HIGHLY CONSISTENT 3D ASSET USING CASE-AWARE DIFFUSION PRIORS

  • title
  • 质量差一些,但是,没有训练新模型!保证了泛化能力。
  • title
  • 感觉基于 Magic123的创新性少了些。
  • title

CONSISTENT123: IM

2023-11-11 00:22:48    43    0    0
  • ICLR 更新了不少文章,一个一个点评一下。

NOISE-FREE SCORE DISTILLATION

  • 标题惊到我了。
  • 文章很有意思,因为原来通过加噪解决OOD问题,本文想到为什么不直接处理OOD的数据。于是文章定义 δC=ϵϕ(Zt;y,t)ϵϕ(Zt;,t),也就是直接输入Z_t得到的条件去噪方向。那么SDS就能写成 ϵϕ(Zt;,t)+sδC,其中 ϵϕ(Zt;,t) 应当做无条件去噪。但由于 Zt 本身是有OOD数据加噪得到的,所以无法直接得到被预测的噪音。文章认为 ϵϕ(Zt;,t) 是由 (domain correction)δD 和 (denoising direction)δN 组成。
  • 下图是InDomain数据,OutOfDomain数据,预测的denoisi
2023-10-22 17:55:43    32    0    0

StableDiffusionKDiffusionPipeline

StableDiffusionAdapterPipeline

StableDiffusionSAGPipeline

StableDiffusionGLIGENPipeline

StableDiffusionModelEditingPipeline

StableDiffusionAttendAndExcitePipeline

2023-08-22 15:50:38    46    0    0

SMPL

  • 一个常用基础概念,来自于15年的siggraph文章"SMPL: A Skinned Multi-Person Linear Model"
  • title
  • 一套基于参数化的人体不同体型表征和动作生成的方法。

3DMM: 3D Morphable models

  • 三维可变形人脸模型,是一个通用的三维人脸模型,用固定的点数来表示人脸。它的核心思想就是人脸可以在三维空间中进行一一匹配,并且可以由其他许多幅人脸正交基加权线性相加而来。每一个三维的人脸,可以由一个数据库中的所有人脸组成的基向量空间中进行表示,而求解任意三维人脸的模型,实际上等价于求解各个基向量的系数的问题。
  • 当前基于3DMM的表情模型主要有两个思路,分别是加性模型和乘性模型。加性模型就是线性模型了,将表情作为形状的一个偏移量
  • 例如 NeRFace 就把3DMM编码放入了NeRF当中来做人脸。
  • blendshape 是一种常用 3DMM,分别身份basis和标签

AvatarCraft: Transforming Text into Neural Human Avatars with Parameterized Shape and Pose Control

  • 第一步SDS染色,第二步类似NeRFEdit的方案做Ray blending。
  • title
  • 问题在于生成的人物都是同一个体型的,即给定一个体型,再染色。
  • 效果比其他方案好一些,但只有一些
  • title
  • 感觉马上能看到基于VSD的版本,应该会好不少。

Instruct-Video2Avatar: Video-to-Avatar Generation with Instructions

  • video + 人脸提取 + InstructPix2Pix
  • 方法很简单,先提取人脸,然后 InstructPix2Pix 做一帧的转化,再套用已有的EbSynth(Exampler-based image
    video style transfer)完成对视频的转换。
  • title
  • 结果上略有伪影

AvatarBooth: High-Quality and Customizable 3D Human Avatar Generation

  • 质量一般,方法简
2023-08-21 14:40:33    46    0    0

BakedSDF

  • 把 NeRF Unbounded 场景转化为高质量可以实时渲染的Mesh (经测试,144FPS需要70% 3060的性能,即60FPS可以在1050等级显卡上完成)
  • 流程是:NeRF-> a surface-based volumetric representation -> Mesh -> optimize a viewdependent appearance model with spherical Gaussians.
  • 相比 Mobile-NeRF, Deep Blending 有质量提升。
  • title
  • title
  • title

Rodin

  • 虽然是之前的老文章了,但专门又看了下它的 portrait inversion 部分。
  • 这部分的实现很简单,就是在基础 Diffusion 部分增加 CLIP-Condition 然后finetune就行。
  • title

IntrinsicNeRF: Learning Intrinsic Neural Radiance Fields for Editable Novel View Synthesis

  • 做了我去年年中尝试了,但没继续的idea。
  • 学习基本颜色、阴影和余量。然后完成室内更精确的NeRF重建。
  • title
  • 方案有意思的是用了类似聚类的方法合并同一类材质
  • title
  • 或许可以用到之后的房间生成论文里。

PoseDiffusion: Solving Pose Estimation via Diffusion-aided Bundle Adjustment

  • 结合了 Diffusion的相机姿态估计。
  • 需要训练一个用来处理姿态估计的diffusion model。
  • title
  • 看起来效果挺强
  • title

FreeDoM: Training-Free Energy-Guided Conditional Diffusion Model

  • title
  • 使用各种预训练模型和构造 Energy Function 来控制生成。
  • 如果有train在 noisy image 上的预训练模型,就可以做classier guidiance。然而多数现成的模型只在clean image上有,所以本文这么解决:
  • title
  • 然后本文直接用 clean im
2023-07-02 20:50:52    65    0    0
  • 一些比较有意思的 cite 的 Score jacobian chaining 的工作。

3D-aware Image Generation using 2D Diffusion Models

  • 见到的第二篇深度估计+RGBD补全的文章了。
  • 视频效果在https://jeffreyxiang.github.io/ivid/,厉害的是不仅做了forward facing的场景,还做了360度的,整体效果不错。
  • 虽然说,这类靠深度估计+RGBD补全的,得到的效果会比较像石头的密度,但是
  • title
  • warping 操作特地训练了生成模型
  • title

TextDeformer: Geometry Manipulation using Text Guidance

  • 把SDS的思路用在了mesh deformation,不过本文引导使用的是 CLIP。
  • title

Zero-1-to-3: Zero-shot One Image to 3D Object

  • 在合成数据上训练了一个去噪模型,具有良好的泛化能力,能够给出物体新视角高质量数据(虽然三维一致性一般)。
  • title
  • title

Sin3DM: Learning a Diffusion Model from a Single 3D Textured Shape

  • 大概就是之前想做的单NeRF生成的改进版,基本思路一致——GAN换成Triplane Diffusion。
  • 文章重新选择了更好的适用的数据集——普通数据难以应用、规则的材质化的效果才比较好。不再追求泛化能力,转而在局部场景上追求更好的质量。
  • title
  • 相比之前的直接用3D版本SinGAN的效果:
  • title
  • 几何提升有限,但材质生成提升较好。
  • New Idea: 结合 3D seam carving效果会怎么样呢?!3D seam carving规则化给出一个场景的不同尺寸,然后用于训练这个生成模型,从而能否提高模型对于场景应用的泛化能力?

ProlificDreamer: High-Fidelity and Diverse Text-to-3D Generation with Variational Score Distillation

  • 最近的少有的真正改
2023-05-09 16:07:49    43    0    0

ActiveNeRF: Learning where to See with Uncertainty Estimation

  • NeRF 重建+不确定性估计 + 主动学习
  • title
  • 对于每个emittion 不再预测颜色,而是预测颜色的高斯分布均值和方差。
  • title
  • title
  • 在球面上随机N个视角,然后对每个视角评分,把最高分的几个作为新视角加入主动学习。
  • title
  • 后验分布可以这么算
  • title

Stochastic Neural Radiance Fields: Quantifying Uncertainty in Implicit 3D Representations

  • 非常简单的原理,就是不同种子多训练几个 NeRF
  • title
  • 效果竟然还可以,就是用的数据集shao'le'yi'xi
  • title
2023-05-09 16:07:43    53    0    0

Method1

  • 来自 dreamingcomputers网站 的做法:先准备一个存在的全景图,然后把全景图拆成很多个投射图,每个图象通过Image2Image做生成,然后拼接起来。

Text2Light: Zero-Shot Text-Driven HDR Panorama Generation

  • title
  • title
  • 首先学一个codebook,然后 Eqn(5) 是对于向量加点噪音,Eqn(6) 这里是找到数据集内,最接近k个样本的code。p(s) 这一块是相当于自回归的序列预测。SPE 是空间位置编码。同时对于原图的一个patch,会有另一个codebook编码.

StyleLight: HDR Panorama Generation for Lighting Estimation and Editing

  • title
  • title
  • 训练用的全景图GAN,然后LFOV到 LDR panoramas 用的 GAN inversion
2023-05-09 16:07:38    70    0    0
  • 目前常规深度估计的SOTA 是 SwinV2

HiMODE: A Hybrid Monocular Omnidirectional Depth Estimation Model

  • 室内全景图深度估计。似乎没有用到什么针对全景图的网络结构。
  • title
  • 他说是ST3D 的 SOTA 那就是吧
  • title

其他

  • Generative Scene Synthesis via Incremental View Inpainting using RGBD Diffusion Models: 用的是 ScanNetV2 (1.4T RGBD数据)。
  • NYU-Depth V2: 室内RGBD数据,大约2.8G有语义标注,其余400GB只有深度。
  • KITTI Eigen Split: KITTI的子集,大约30GB的样子。
  • NeRDi: 用的是 Dense Prediction Transformer (DPT) model (一种密集预测的ViT,来自论文Vision Transformers for Dense Prediction),在一个共有 1.4M 张图的混合数据集上训练的(包括DIW,ETH3D,Sintel,KITTI,NYU,TUM)。有开源模型存档点。
  • NeuralWindow Fully-connected CRFs for Monocular Depth Estimation: 上一篇的后续follow,没有混合数据集训练,但有NYUv2和KITTI的存档点。
  • BinsFormer: 同样是后续SOTA之一。
  • OmniFusion (CVPR2022) : 全景图单目深度估计。
  • Monocular-Depth-Estimation-Toolbox: github 开源单目估计工具箱,支持四种SOTA模型,7种训练方法,4个主流数据集。劳模!

DAG: Depth-Aware Guidance with Denoising Diffusion Probabilistic Models

  • CVPR2023 文章,代码暂时还没开源。
  • 一个与深度密切相关的2D生成模型。
  • title
  • 似乎质量还不错
  • title