分类 - 机器学习

2024-08-15 15:37:57    93    0    0

介绍

SMPL

SMPL(Skinned Multi-Person Linear model)是一个用于人体建模的计算机图形学模型,由德国马普所(Max Planck Institute)的研究人员开发。SMPL模型通过一组参数来描述人体的形状和姿态,这些参数可以分为两大类:形状参数(Shape Parameters)和姿态参数(Pose Parameters)。

形状参数(Shape Parameters)

形状参数描述了人体的静态特征,如身高、体重、肌肉定义等。这些参数通常是一个高维向量,每个元素对应人体形状的一个特定方面。SMPL模型通常使用一个10维的形状参数向量,每个元素控制人体的一个线性组合的形状变化。

姿态参数(Pose Parameters)

姿态参数描述了人体的动态特征,即人体的动作和姿态。这些参数通常是一个高维向量,每个元素对应一个关节的旋转角度。SMPL模型使用一个72维的姿态参数向量,其中:
- 前3个参数描述全局旋转(通常是根节点的旋转)。
- 接下来的69个参数描述23个关节的相对旋转(每个关节3个旋转角度)。

具体参数内容

  1. 形状参数

    • 10个线性权重,用于控制人体的形状变化。
  2. 姿态参数

    • 3个全局旋转参数。
    • 23个关节,每个关节3个旋转角度(共69个参数)。

通过调整这些参数,SMPL模型可以生成各种不同形状和姿态的人体模型。这些模型可以用于计算机图形学、动画、虚拟现实、人体运动分析等多个领域。SMPL模型的灵活性和逼真度使其成为人体建模和动画制作中的一个重要工具。

SMPLX

SMPLX(Skinned Multi-Person Linear model extended)模型的姿态参数用于描述人体的动作和姿态。这些参数通常包括以下几个方面:

  1. 全局旋转:描述整个人体的方向和位置,通常包括三个旋转角度(例如,欧拉角或四元数表示的旋转)。

  2. 关节角度:描述每个关节的旋转,包括:

    • 身体的主要关节,如脊柱、肩膀、臀部等。
    • 手指和脚部的关节,每个手指和脚趾都有多个关节。
  3. 面部表情参数:描述面部肌肉的运动,用于模拟表情变化。这些参数通常是线性的权重组合,用于控制面部形状的变化

2024-08-02 10:02:49    49    0    0

卡通图象

  • title
  • title
  • title
  • title

拟真人像

  • title
  • title

真人

  • title

物体

  • title
  • title

结论

  • 正面效果还行,但是侧面和背面预测过于抽象,整体可用率不足10%。
  • 作为LRM类型的方法,除了分辨率略高一点,整体而言不如LRM和TripoSR
2024-07-24 21:03:43    75    0    0

为了简单给视频加点特效,需要一个高效的深度估计算法。

Robust-CVD

  • 比较老的工作(2021),但是提供非COLMAP的相机姿态估计与视频深度估计
  • title

NVDS: Neural Video Depth Stabilizer (ICCV2023)

  • 可以基于任意单图像深度估计算法,改为稳定的视频深度估计。不提供相机位姿估计。
  • title
  • 速度较快,效果较好,开源。

ChronoDepth: Learning Temporally Consistent Video Depth from Video Diffusion Priors

  • 对比了很多个相关工作(facebook有俩,NVDS作者有俩),这个是比较新的视频深度估计工作。
  • 但是没有提供运行速度,根据基于 Video Diffusion 来看,估计不快。文章报告的是 0.87秒 / 帧。
  • 准确度上呢是更高的。
  • title

DepthAnythingV2

2024-07-12 11:04:48    56    0    0
  • conda 的 cuda-toolkit 并不包含 nvcc,所以对于需要 torch cpp_extension 的包无法安装。
  • conda install cuda=11.7 -c nvidia 会安装 11.7版本的cudatoolkit 与 12.4版本的 nvcc,导致环境一片混乱。
  • 正确的姿势是 ``
2024-04-16 10:57:46    105    0    0
2023-11-20 13:10:00    113    0    0
  • 从 Zero123 开始数吧

Zero-1-to-3: Zero-shot One Image to 3D Object

  • 通过在objaverse 上大规模训练得到具有一定泛化能力的,condition on 相机视角和参考图的 Diffusion。
  • 但并没有像 SD 那样强大的泛化能力。
  • title
  • 虽然有一些泛化能力,但后续文章指出,这泛化能力并不多
  • title
  • 似乎相比同期方法有显著提升(但后续文章来看,SJC-I在这里被严重低估了):
  • title

Magic123: One Image to High-Quality 3D Object Generation Using Both 2D and 3D Diffusion Priors

  • 指出了 Zero-1-to-3 存在的问题—— OOD的情况下表现不好。
  • title
  • 这里的2D prior 是指SDS,而3D prior 是指 Zero-1-to-3
  • title
  • 至少本文说明了,纯二维SDS只能做单视角生成的,没有Zero123说的那么差。
  • title
  • 其实相比后续文章,这篇的数值指标是最差的(相对Zero-1-to-3没啥提升),但是确实唯一一个有泛化能力保障的。(即没有自己在中小规模数据上finetune)
  • title

接下来是有趣的三篇同期、同名工作

Consistent-1-to-3: Consistent Image to 3D View Synthesis via Geometry-aware Diffusion Models

  • 这是三兄弟里最强的
  • title
  • title
  • UNet Attention 部分引入 epipolar 限制(epipolar在MVS等少视角重建真是屡试不爽)
  • title
  • title
  • 如同 Zero-123 一样,在Objaverse上训练的。需要注意的是,和Zero123一样限制在单个物体,且必须白色背景!

CONSISTENT123:ONE IMAGE TO HIGHLY CONSISTENT 3D ASSET USING CASE-AWARE DIFFUSION PRIORS

  • title
  • 质量差一些,但是,没有训练新模型!保证了泛化能力。
  • title
  • 感觉基于 Magic123的创新性少了些。
  • title

CONSISTENT123: IM

2023-11-11 00:22:48    128    0    0
  • ICLR 更新了不少文章,一个一个点评一下。

NOISE-FREE SCORE DISTILLATION

  • 标题惊到我了。
  • 文章很有意思,因为原来通过加噪解决OOD问题,本文想到为什么不直接处理OOD的数据。于是文章定义 δC=ϵϕ(Zt;y,t)ϵϕ(Zt;,t),也就是直接输入Z_t得到的条件去噪方向。那么SDS就能写成 ϵϕ(Zt;,t)+sδC,其中 ϵϕ(Zt;,t) 应当做无条件去噪。但由于 Zt 本身是有OOD数据加噪得到的,所以无法直接得到被预测的噪音。文章认为 ϵϕ(Zt;,t) 是由 (domain correction)δD 和 (denoising direction)δN 组成。
  • 下图是InDomain数据,OutOfDomain数据,预测的denoisi
2023-10-22 17:55:43    80    0    0

StableDiffusionKDiffusionPipeline

StableDiffusionAdapterPipeline

StableDiffusionSAGPipeline

StableDiffusionGLIGENPipeline

StableDiffusionModelEditingPipeline

StableDiffusionAttendAndExcitePipeline

2023-08-22 15:50:38    98    0    0

SMPL

  • 一个常用基础概念,来自于15年的siggraph文章"SMPL: A Skinned Multi-Person Linear Model"
  • title
  • 一套基于参数化的人体不同体型表征和动作生成的方法。

3DMM: 3D Morphable models

  • 三维可变形人脸模型,是一个通用的三维人脸模型,用固定的点数来表示人脸。它的核心思想就是人脸可以在三维空间中进行一一匹配,并且可以由其他许多幅人脸正交基加权线性相加而来。每一个三维的人脸,可以由一个数据库中的所有人脸组成的基向量空间中进行表示,而求解任意三维人脸的模型,实际上等价于求解各个基向量的系数的问题。
  • 当前基于3DMM的表情模型主要有两个思路,分别是加性模型和乘性模型。加性模型就是线性模型了,将表情作为形状的一个偏移量
  • 例如 NeRFace 就把3DMM编码放入了NeRF当中来做人脸。
  • blendshape 是一种常用 3DMM,分别身份basis和标签

AvatarCraft: Transforming Text into Neural Human Avatars with Parameterized Shape and Pose Control

  • 第一步SDS染色,第二步类似NeRFEdit的方案做Ray blending。
  • title
  • 问题在于生成的人物都是同一个体型的,即给定一个体型,再染色。
  • 效果比其他方案好一些,但只有一些
  • title
  • 感觉马上能看到基于VSD的版本,应该会好不少。

Instruct-Video2Avatar: Video-to-Avatar Generation with Instructions

  • video + 人脸提取 + InstructPix2Pix
  • 方法很简单,先提取人脸,然后 InstructPix2Pix 做一帧的转化,再套用已有的EbSynth(Exampler-based image
    video style transfer)完成对视频的转换。
  • title
  • 结果上略有伪影

AvatarBooth: High-Quality and Customizable 3D Human Avatar Generation

  • 质量一般,方法简
2023-08-21 14:40:33    104    0    0

BakedSDF

  • 把 NeRF Unbounded 场景转化为高质量可以实时渲染的Mesh (经测试,144FPS需要70% 3060的性能,即60FPS可以在1050等级显卡上完成)
  • 流程是:NeRF-> a surface-based volumetric representation -> Mesh -> optimize a viewdependent appearance model with spherical Gaussians.
  • 相比 Mobile-NeRF, Deep Blending 有质量提升。
  • title
  • title
  • title

Rodin

  • 虽然是之前的老文章了,但专门又看了下它的 portrait inversion 部分。
  • 这部分的实现很简单,就是在基础 Diffusion 部分增加 CLIP-Condition 然后finetune就行。
  • title

IntrinsicNeRF: Learning Intrinsic Neural Radiance Fields for Editable Novel View Synthesis

  • 做了我去年年中尝试了,但没继续的idea。
  • 学习基本颜色、阴影和余量。然后完成室内更精确的NeRF重建。
  • title
  • 方案有意思的是用了类似聚类的方法合并同一类材质
  • title
  • 或许可以用到之后的房间生成论文里。

PoseDiffusion: Solving Pose Estimation via Diffusion-aided Bundle Adjustment

  • 结合了 Diffusion的相机姿态估计。
  • 需要训练一个用来处理姿态估计的diffusion model。
  • title
  • 看起来效果挺强
  • title

FreeDoM: Training-Free Energy-Guided Conditional Diffusion Model

  • title
  • 使用各种预训练模型和构造 Energy Function 来控制生成。
  • 如果有train在 noisy image 上的预训练模型,就可以做classier guidiance。然而多数现成的模型只在clean image上有,所以本文这么解决:
  • title
  • 然后本文直接用 clean im