DiffMatch: DIFFUSION MODEL FOR DENSE MATCHING

项目主页 代码仓库

1. 解决的问题:

最近的基于深度学习的方法均是通过学习稠密匹配关系目标中的数据项,而不对先验项进行显式建模,假设模型本身具有从大规模数据集中学习最优先验项的能力。但它们往往不能解决匹配固有的模糊性,如无纹理区域、重复模式、大位移或噪声。为此,提出了DiffMatch。基于条件扩散的框架,旨在对数据和先验项进行显式建模,以便进行密集匹配。

亮点:引入Diffusion Model来做该任务,且做消融,发现Diffusion Model比基于回归的方法要好。

2. 效果展示:

DiffMatch的生成框架有效地学习了匹配场流形,从而更好地估计匹配关系,特别是在无纹理区域、重复模式和大位移处。​

DiffMatch中逆向扩散过程的可视化:从左到右是源图像、目标图像,以及通过估计的匹配关系作为演化时间步长对源图像进行warp。也就是通过一个迭代的去噪过程,将源图像渐进地扭曲成目标图像。

3. 网络结构

由两个关键组件组成:一个条件去噪扩散模块,根据条件生成匹配字段;一个成本注入模块,将成对的源图像和目标图像之间进一步的像素级交互嵌入到扩散模块中。

其中Cost computation是

但在使用时,由于计算成本问题,只选取半径为R的区域使用即 local cost。

$F_{init}$的计算是经过NC-Net里改动来的。

此外,由于diffusion model的输入分辨率的限制(输入和输出都是确定好的),引入了超分辨率扩散模型的结构,采用级联式模型。做法为微调预训练模型,将downsampled ground-truth flow field 作为 $F_{init}$ .

4. 训练细节

5. 和其他SOTA方法的对比

5.1 定量评价

5.2 定性评价

6. Ablation

最后修改:2024 年 10 月 26 日
如果觉得我的文章对你有用,请随意赞赏