wuvin
Always take risks!
Toggle navigation
wuvin
主页
实验室的搬砖生活
机器学习
公开的学术内容
公开的其他内容
About Me
归档
标签
友情链接
ZYQN
ihopenot
enigma_aw
hzwer
杨宗翰
基于 Cross Attention 的 SD 控制
2023-04-23 19:33:17
1109
0
0
wuvin
# Prompt-to-Prompt Image Editing with Cross Attention Control * 最早的一篇吧 *  * 文章发现attention map 控制了生成的语义,通过修改attention map 可以修改对应的生成结果。 *  *  *  *  # eDiff-I: Text-to-Image Diffusion Models with an Ensemble of Expert Denoisers * 在去噪过程中采用不同的模型。初始训练一个通用模型,然后后面再分阶段特化。文章认为去噪模型前段再根据文字生成图像结构,后段在细化提升图像的质量。 *  * 一个有趣的用法:prompt切换 *  * 文章提出了Paint-with-words,因为SD里面的CrossAttention是 Spatial CrossAttention 与空间位置独立,所以很方便对于attention做文章。示意图中每一行对应一个像素,每一列对应输入的一个词,只需要增加对应位置对应词的权重就可以。 *  *  # Editing Implicit Assumptions in Text-to-Image Diffusion Models * 这篇文章比较`政治正确`,就是某些物体生成会带有很强的bias。那么如何去纠正这些属性(真是讲了个很`正确`的故事)。 *  *  * 处理策略是:微调cross attention的text部分权重,然后使得不含有特定概念的更加接近含有特定概念的(类似于潜在的知识蒸馏)。 *  *  *  # SVDiff: Compact Parameter Space for Diffusion Fine-Tuning * LoRA的竞品 *  * 只更新中间对角线部分 *  * 使用类似于Cut-mix来做数据增强,然后同时在Cross-Attention 层面让模型注意力增加到对应物体区域,这样还可以增加了物体之间对比的区分。 *  * 结合DDIM Invert,能有更细致的编辑效果。 *  # Training-Free Layout Control with Cross-Attention Guidance * 方法还是老一套,就是控制Cross-Attention,但是使用的是backward的导数,而不是直接修改的Spatial. * 定义了能量函数,使用能量函数的导数更新引导,其中A是Attention,B是bounding box区域,也就是**最大化boxding-box内部的Attention权重比例**。 *  * 和Classifier-Guidiance 类似,更新的是$Z_t$ 而不是Attention。 *  *  * 但本文额外分析了Start Token 和 End Token的特点,发现语义含量很高。 *  * 以下对比了开始和结束Token的重要性 *  *  * 实验对比证明backward很有用。 *  *  * 可视化 cat 在每一个 timestep的attention map。 *  * 一些额外的实现细节:只Guide 上采样部分的attention map,只guide前10-20个timestep(因为决定了结构)。 # PAIR-Diffusion: Object-Level Image Editing with Structure-and-Appearance Paired Diffusion Models *  * 最大的问题是,这需要新的Diffusion架构,以及重新训练。 *  * 感觉不如 ControlNet+语义图 *  *  # Sketch-Guided Text-to-Image Diffusion Models * 按照Sketch的方式来控制结构,方法不是很优雅,需要训练一个Latent edge decetor。 *  * 根据predictor来最大化边缘。(其实变相就是最大化互信息) *  * 显然效果没有超过前一个多少,同时又被ControlNet被刺了。 *  # Zero-shot Image-to-Image Translation * 这个就是 Pix2Pix-Zero,huggingface上有pipeline。 * 想法很简单,就是用对话模型描述两个东西的区别,作为编辑的方向。(我觉得平均方向一定是最好用的。) *  * 首先对于图片先求逆,然后把逆的加噪图像提取对应的attention map,然后在用旧的Attention map去控制新的attention map的区域。求逆生成噪音部分,为了保证噪音的分布符合假设,增加了额外的$L_{pair}$和$L_{KL}$ 来提升逆出来的带噪音图像的质量。 *  * 效果对于已有物体似乎还可以,实测对于需要从无到有的非常不行。 *  # Video-P2P: Video Editing with Cross-attention Control * 把P2P任务拓展到Video. *  * 在视频上要交换概念还是交换Cross-Attention。当然本文处理了一些视频专有的问题,比如DDIM Inversion需要改进、来自T2I的T2V model,需要优化一个共享的Unconditional embedding。 *  * T2I 改成 T2V 部分是修改了原有的网络架构,继承了T2I的部分参数,然后再finetune。但每个视频需要花十分钟finetune这个model。 # MultiDiffusion: Fusing Diffusion Paths for Controlled Image Generation * 主要是**解决不同尺寸的图像问题**,以及新的与cross-attention无关的 **Region Prompt Control**。 *  *  * 解决方法很naive,就是重叠区域应该同时尽可能接近两个patch的去噪方向。 *  * 这么简单的任务自然就有closeform,翻译过来就是按比例加权就行。 *  * 由于原本每个patch内部是可以有权重的!因此可以实现带语义的T2I的控制(也就是每个patch的text可以不一样)。 *  * 有一个额外的bootstrapping(其实就是生成时来一个纯色背景),来保证生成结果更加贴合bound。(**这不就是我要的嘛,一个不贴合bound的生成**) *  *  * 但这个方法似乎并不能解决全景图的分布问题,因为可能抬头和向前看起来没区别。 # DiffCollage: Parallel Generation of Large Content with Diffusion Models * 理论性更强的一篇,基于SDE的角度来看待这个问题。 * 大概为上一篇基于MSE的操作,提供了一定的理论基础。 *  * 全景图是几个竖着一条的全景图模型合成的。 *  *  * 一点有意思的小Trick,基于CLIP Embedding插值来连接首尾。 *  # Collage Diffusion * 看看如何**解决图层的问题** *  * 控制和eDiffI很像,但是使用了正向样例和负向样例,来解决图层问题(简称为CA)。 *  * 当然本文还用了Textual Inversion (TI)。SA是Spatial Attention。GH是Global image harmonization,也就是加噪音再去噪来提升整体和谐度的过程。LN: 为了处理每一个物体的Harmonization-Fidelity Tradeoff,每个物体有个参数 $t_o$ 决定了在哪个timestep开始加额外噪音(即在去噪之后再在mask范围内加一部分强度为$\sqrt{\sigma}(t-1)$的噪音。)对于每个像素,加噪音的时间取决于它所在图层的 $t_o$(当然还有一些额外的平滑)。 *  *  * 可以通过反复生成来提升质量。 *  # MasaCtrl: Tuning-Free Mutual Self-Attention Control for Consistent Image Synthesis and Editing * 通过修改SD的self-attention 实现tuning-free 的control。 *  * 主要修改了 Self-Attention *  * 文章立足点在于:1.结构信息在比较早期生成。2.两个类似的图片在self-attention部分很像。 *  * 算法核心部分如下: *  * 效果对比: *  * 和ControlNet结合一下(ControlNet翻译姿势,本文提供材质一致),就能相对高质量的跳舞了 *  * 值得让人思考,是不是数据量越大,模型的可解释性反而越好? * 观看[project page](https://ljzycmd.github.io/projects/MasaCtrl/)的视频更能理解这个控制,感觉最大化了相同的材质。 # Unleashing Text-to-Image Diffusion Models for Visual Perception * 提出了VPD: Visual Perception with Pre-trained Diffusion Models。即使用预训练的 Diffusion 的attention完成各种视觉任务(分割、预测、单目深度)。 *  * 中间特征提取出来再训练(可惜需要再训练)。 *  * 语义分割确实不错 *  * 单目深度也还行
上一篇:
RGBD 生成/预测
下一篇:
NeRF 编辑2023进展
0
赞
1109 人读过
新浪微博
微信
腾讯微博
QQ空间
人人网
提交评论
立即登录
, 发表评论.
没有帐号?
立即注册
0
条评论
More...
文档导航
没有帐号? 立即注册