分类 - 机器学习

2023-04-23 19:33:17    653    0    0

Prompt-to-Prompt Image Editing with Cross Attention Control

  • 最早的一篇吧
  • title
  • 文章发现attention map 控制了生成的语义,通过修改attention map 可以修改对应的生成结果。
  • title
  • title
  • title
  • title

eDiff-I: Text-to-Image Diffusion Models with an Ensemble of Expert Denoisers

  • 在去噪过程中采用不同的模型。初始训练一个通用模型,然后后面再分阶段特化。文章认为去噪模型前段再根据文字生成图像结构,后段在细化提升图像的质量。
  • title
  • 一个有趣的用法:prompt切换
  • title
  • 文章提出了Paint-with-words,因为SD里面的CrossAttention是 Spatial CrossAttention 与空间位置独立,所以很方便对于attention做文章。示意图中每一行对应一个像素,每一列对应输入的一个词,只需要增加对应位置对应词的权重就可以。
  • title
  • title

Editing Implicit Assumptions in Text-to-Image Diffusion Models

  • 这篇文章比较政治正确,就是某些物体生成会带有很强的bias。那么如何去纠正这些属性(真是讲了个很正确的故事)。
  • title
  • title
  • 处理策略是:微调cross attention的text部分权重,然后使得不含有特定概念的更加接近含有特定概念的(类似于潜在的知识蒸馏)。
  • title
  • title
  • title

SVDiff: Compact Parameter Space for Diffusion Fine-Tuning

  • LoRA的竞品
  • title
  • 只更新中间对角线部分
  • title
  • 使用类似于Cut-mix来做数据增强,然后同时在Cross-Attention 层面让模型注意力增加到对应物体区域,这样还可以增加了物体之间对比的区分。
  • title
  • 结合DDIM Invert,能有更细致的编辑效果。
  • title

Training-Free Layout Control with Cross-Attention Guidance

  • 方法还是老一套,就是控制Cross-Attention,但是使用的是b
2023-04-22 19:12:46    87    0    0

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

  • 三维场景生成
  • title
  • 输入图像先通过一个Unet预测一个近似的深度+语义的分布[H,W,D+C],即D编码了这个像素对应的体积分布,C编码了这个像素对应的语义。这里[H,W]是小于图像分辨率的。
  • title
  • title
  • 这是这个组ECCV2020的工作,然后把这个映射到三维体素空间。
  • title
  • 注意这里的渲染是先在有界体素渲染了一个语义、深度空间,然后再用Decoder完成图像化。所以实际上Decoder还完成了对于天空和空白部分的填补。
  • 在这之后就是模仿LDM,但是分成三部分,一个全局向量、二维语义俯视图、三维场景体素。然后三个diffusion分别学习。
  • 这样就获得了一个可以从噪音生成场景的模型。
  • title
  • title
  • 通过控制全局向量和BEV同样实现了一些常见编辑,比如风格化、体素编辑。
  • title
  • title
  • title

总结

  • 新的处理无界场景的思路——有限体素+NN decoder。
  • 新的三维体积生成思路——先多视角RGBD+语义映射,再可微渲染微调改进。

free NeRF

  • 使用对于position encoding 的正则化和对于体积不相交的正则化实现了更好的 few-shot。
  • title
  • title
  • 既然来自于频率,那么早期频率别设置那么高就行。
  • title
  • 很好的分析了原来few-shot artifacts 的来源
  • title
  • 就是来自于本来应该在很远的地方,但是由于很近的话,也能满足条件,那么就容易学的很近。
  • 处理方法很粗暴,直接惩罚接近相机的体素。
  • title
  • 效果比regNeRF 更好,除了似乎可能多一些超参。
  • title
  • title
  • title

DITTO-NeRF: Diffusion-based Iterative Text To Omni-directional 3D Model

  • NeRF + SDS的工作,但更精细处理了生成过程,从粗糙到精细+从正面视角到更广范围的视角
  • title
  • title
  • title
  • title

GeNVS: Generative Novel View Synthesis with 3D-Aware Diffusion Models

  • 效果很惊艳,但限制很大
  • title
  • 就是训练了一个带条件的去噪模
2023-03-02 15:57:10    112    0    0

ControlNet

  • 全新的架构思路,极好的效果和较低的训练开销。
  • 任务目标,使用图片去控制diffusion的精准生成,效果极好,将SD的可控性提升了相当大的尺度。
  • 最重要的几个trick:
    1. zero convolution,初始权重和bias都是0的卷积,可以保证作为额外的参数初始的时候,不会破坏原有网络inference的结果,也就是初始化在一个合理的位置,以及梯度不为0是可以训练的。
    1. trainable copy. 把原有网络复制一遍,然后配合 zero convolution 进行训练。
    1. jointly optimization. 数据集非常大时,可以使用大规模训练,也就是先训练好额外的部分,然后把锁定的权重解锁来联合优化。
  • title
2023-01-29 10:24:57    240    0    0

短期

  • 短期主要方式为向Mesh兼容。主要体现形式为求解NeRF表征对应的最接近的Mesh表征,Mesh表征为基于三角网格与PBS材质的表征形式。Mesh转换分为两部分,第一部分为形状转换,第二部分为材质转换。
  • 形状转换部分目前有基于 Marching Cube的直接转换和先拟合SDF再Marching Cube转换的方式。直接marching cube 转换的方式由于 NeRF 本身表面部分收敛结果较为不平整,所以通常结果可用用`灾难'形容。先拟合SDF再转Mesh的方式得到表面相对平滑可接受,目前主要代表为 NeuS 和 Instant-NSR。但使用marching cube 算法得到的Mesh 在应用中最常见的问题是表面太多了,相当于一个正常平面被强行切成很多网格小面,而且表面分布非常混乱。
  • 材质转换部分目前研究工作较多,例如开源框架Pytorch3D 就非常简易的实现该功能。nvidia 的 NVDiffrast 也提供了相当便捷的Pytorch/Tensorflow 库和良好的硬件支持。
  • 特别的 NVDiffrec 把这两者都完成了。值得一提的是 Tiny CUDANN 提供了非常广泛的隐式表征加速。

长期

  • 长期方向应该是直接使用 NeRF 渲染。但主要问题是无法编辑、硬件支持性低、渲染开销高。
  • 在快速渲染方面,mobile-nerf 已经实现了小模型手机端60fps的渲染,更多的硬件支持还比较缺乏。
  • 在编辑方面只能说勉强实现了编辑,编辑便捷性和软件支持远不如Mesh,但编辑结果离真实结果还有差距。比如两个物体放在一起,很难把物体和物体之间的光效果体现出来(镜面反射、漫反射)。

相关论文

NeuS: Learning Neural Implicit Surfaces by Volume Rendering for Multi-view Reconstruction

  • 比较早的文章,现在来看最大问题是单场景训练时间接近一天。
  • 训练方式也是基于 Volume Rendering。
  • title
  • title
  • title
  • 重新定义了密度为 title
  • title
  • 训练loss很简单
  • title
  • 最终效果如下
  • title

Human Performance Modeling and

2023-01-07 21:27:00    210    0    0

Dream3D: Zero-Shot Text-to-3D Synthesis Using 3D Shape Prior and Text-to-Image Diffusion Models

  • 2D数据训练3D生成的方法。
  • 先生成了形状,再进行染色。染色效果弱于现有工作,但是模型精细度更高。
  • 有种作者不知道SDSLoss的感觉。
  • title

Rodin: A Generative Model for Sculpting 3D Digital Avatars Using Diffusion

  • 人像生成,看起来质量不错。3D数据训练3D生成的方法。
  • title
  • 生成部分采用了 Triplane 的方案。但结尾有个 Conv refinement,可能会带来3D不一致性。
  • title
  • 训练用了100K 3D avatars,3D模型由程序化生成。
  • title
  • 虽然质量不错,但是依旧回到为啥不直接用程序化生成,用AI我们到底获得了什么。

Generative Scene Synthesis via Incremental View Inpainting using RGBD Diffusion Models

  • 通过不停的 RGBD 补全来生成大场景。
  • title
  • title
  • 补全部分是个diffusion。

SDFusion: Multimodal 3D Shape Completion, Reconstruction, and Generation

  • SDF 生成。
  • title
  • 整体来说follow的是latent space diffusion.
  • title
  • title

DiffusionSDF: Conditional Generative Modeling of Signed Distance Functions

  • 本质上是向量Diffusion。最终形状生成比PVD强。
  • 把点云编码后在隐空间做diffusion,然后用SDF拟合点云还原表面。
  • title
  • title
  • title
  • title

3D-LDM: Neural Implicit 3D Shape Generation with Latent Diffusion Models

  • Latent Diffusion + SDF weight AE.
  • title
  • title

Diff

2022-12-30 10:56:43    119    0    0

数据集介绍

  • 拥有车端和路端的相机坐标和朝向
  • title
  • title
  • 标准有如下类别
  • title

相关论文

  • 以下是所有引用了本数据集的论文

Federated vehicular transformers and their federations: Privacy-preserving computing and cooperation for autonomous driving

  • 多车协同
  • title

Latency-aware collaborative perception

  • 联合感知
  • title

V2X-Sim: Multi-agent collaborative perception dataset and benchmark for autonomous driving

  • 数据集

V2X-Sim: Multi-agent collaborative perception dataset and benchmark for autonomous driving

  • 数据集

Object detection based on roadside LiDAR for cooperative driving automation: a review

  • 综述,全文无NeRF相关内容。

Where2comm: Communication-efficient collaborative perception via spatial confidence maps

  • 车路协同,强调通信效率
  • title

V2XP-ASG: Generating Adversarial Scenes for Vehicle-to-Everything Perception

  • V2X
  • title

Performance and Challenges of 3D Object Detection Methods in Complex Scenes for Autonomous Driving

  • 综述,全文无NeRF相关内容。

Object Detection Based on Roadside LiDAR for Cooperative Driving A

2022-12-19 23:20:41    62    0    0

报错如下:

  1. /bin/sh: 1: :/usr/local/cuda/bin/nvcc: not found
  2. ninja: build stopped: subcommand failed.
  • 经过检查,安装了 nvcc,且添加了 PATH 和 LD_LIBRARY_PATH 对cuda的引用。
  • 并且检查了 /usr/local/cuda/bin/nvcc 文件是64位的且不是一个链接。
  • 且检查了 CUDA_HOME 变量已配置,最后下面一句话后,发现就可以编译了
  1. export CUDA_HOME=/usr/local/cuda
  • 仔细检查发现原来 CUDA_HOME 配置错误为 :/usr/local/cuda (是的就是多了个:),配置错误原因为 /etc/.profile 里写的是 export CUDA_HOME=$CUDA_HOME:/usr/local/cuda
  • CUDA_HOME 变量不支持 : 分隔符,只能是一个固定的路径地址。
2022-12-07 14:48:15    69    0    0

NOVEL VIEW SYNTHESIS WITH DIFFUSION MODELS

  • 数据集与训练+单图像三维复原
  • title
  • title
  • title
2022-12-06 15:48:26    309    0    0

SinGRAF: Learning a 3D Generative Radiance Field for a Single Scene

  • 和我之前做 SinRGAN 的思路类似,但setting不一样。
  • 给定一组图片(100张),训练生成模型生成多种符合条件的场景。
  • title
  • 结构很简单,StyleGAN + tri-plane + patch discriminator。
  • title

RenderDiffusion: Image Diffusion for 3D Reconstruction, Inpainting and Generation

  • 去噪方式为把有噪音的图像先映射到三维空间,再渲染出来去噪。
  • title
  • 其中第一步为把 M×M×3 的2D图像通过一个Unet到 N×N×3×nf 的 triplane,然后调用 triplane 的可微渲染。
  • title
  • 效果看起来持平 PixelNeRF,低于ED3D(基于Triplane的pi-gan)
  • 数值化指标只有重建
  • title
  • 2D-3D直接用Unet也太粗糙了一点吧,或许可以试试把学好的表征的triplane用来diffuse

DiffRF: Rendering-Guided 3D Radiance Field Diffusion

  • 纯 voxel 的 diffusion,且缺少量化指标。而且point-voxel diffusion 那篇已经把这个作为baseline干过了。
  • title

LADIS: Language Disentanglement for 3D Shape Editing

  • 基于文字控制的三维编辑,但是效果不咋地,只在椅子上做了实验,我怀疑它中不了CVPR
  • title

Peekaboo: Text to Image Diffusion Models are Zero-Shot Segmentors

2022-12-04 22:23:03    120    0    0

Prompt-to-Prompt Image Editing with Cross-Attention Control

  • 完全文字驱动的图像编辑
  • title
  • 利用 attention 来对编辑区域加权
  • title
  • 看起来比别的编辑方法效果好一些
  • title

SKETCHKNITTER: VECTORIZED SKETCH GENERATION WITH DIFFUSION MODELS

  • 画简笔画
  • title
  • title

Diffusion-GAN: Training GANs with Diffusion

  • 结合GAN和 Diffusion 的优劣。分为三块: diffusion 过程、结合了diffusion 时间的discriminator、generator。
  • diffusion过程种,discriminator判断是真的图片加噪音,还是generator 去噪后的结果。
  • title
  • title

DIFFUSION PROBABILISTIC FIELDS

  • 很有意义的工作,虽然图像质量不咋地。ICLR评分 8,8,6,6.
  • 直接在域上进行diffusion, 相当于是把原来离散的diffusion变成连续的了,而且通用性更强。
  • title
  • title

View Synthesis with Sculpted Neural Points

  • 又是一个点云+NeRF 的工作,可惜作者似乎没看过Point-NeRF,没有直接的对比。
  • 方法上是先用MVS或者别的方法生成一个粗糙的深度估计,从而得到一个noisy的点云。然后经过一轮删除Outlier(例如不同视角该点距离的一致性),和一轮贪心加点(即填补当前视角的空白,同时不影响别的视角的可视化结果),得到纠正后的点云。
  • 最后给基于这个固定的点云结构进行可微渲染染色。
  • title
  • 最终重建质量和NeRF五五开,也就是低于 Point-NeRF。

SWITCH-NERF: LEARNING SCENE DECOMPOSITION WITH MIXTURE OF EXPERTS FOR LARGE-SCALE NEURAL RADIANCE FIELDS

  • 大场景 NeRF,本文提出了一种新的NeRF组合方式(比如block-NeRF就是按照地理位置