聚焦图像/视频去模糊全新挑战:Blur Decomposition/Interpolation
时间: 2023-03-21 22:08
Zhihang Zhong
研究背景
传统去模糊方法忽略了模糊中蕴藏的有益时序信息。其实模糊的形成过程可以理解为在曝光时间内清楚图片按时序平均的过程。这就启发了研究者们思考一个问题:是否可以训练一个神经网络来模拟模糊形成的逆过程从而实现取其精华,去其糟粕呢?通俗地讲就是从模糊的图片中提取出潜在的清楚视频。
这个任务可以被称作模糊分解(blur decomposition)或者模糊插帧(blur interpolation)。模糊插帧和传统去模糊任务的比较详见下图:
显然,和传统去模糊任务相比,这个任务更难了!或许大家定睛一看,会想是不是在训练过程中给对应的多帧清楚帧作为监督就行了,学习的事情就交给网络。但事情并没有这么简单。
如果是单张模糊图片作为输入的话会存在模糊分解的方向歧义性。退一步讲,即使没有方向歧义性,如何实现高效的任意时刻清晰帧抽取也不容易。东京大学的研究员分别针对这两个问题给出了他们的解答,相关工作分别收录于 ECCV 2022 和 CVPR 2023。
问题1:如何解决模糊分解的方向歧义性?
论文链接:Animation from Blur: Multi-modal Blur Decomposition with Motion Guidance. - AMiner
2.1 何谓模糊方向歧义?
2.2 解决方法-训练
Animation-from-Blur 的核心思想是,在训练的过程中明确告诉网络该往哪个方向分解。这样不但确保了训练过程的稳定性,还顺便带来了一个可控的多接口模糊分解框架。
作者定义了一种 motion guidance 来指导神经网络该往什么方向分解。该 motion guidance 是一种量化版的光流,只拥有四个粗略的方向并且不存在大小幅值。以作者定义的二阶段网络为例子,相应实验的损失函数曲线证明了拥有 motion guidance 的网络(红色曲线)能收敛得更好。
2.3 解决方法-推断
在训练阶段可以根据用于监督的高帧率清晰帧来生成用于训练的 motion guidance,那在测试阶段该怎么获得 motion guidance 呢?作者提供了以下三种接口来解决这个问题:
2. 如果输入是一个模糊视频,那么可以根据相邻帧直接估计光流从而得到对应的符合真实情况的 motion guidance。
3. 因为所定义的 motion guidance 的简洁性,用户甚至可以直接绘制一个 motion guidance 用于分解。
2.4 实验结果在解决了方向歧义问题后,从同一张模糊图片出发,Animation-from-Blur 通过不同的 motion guidance 接口出发可以产生多种物理上合理的分解结果!更多的结果包括存在相机运动的场景请参考论文网站以及原论文。
问题2:如何实现高效且稳定的任意时刻模糊插帧?
论文链接:Blur Interpolation Transformer for Real-World Motion from Blur - AMiner
3.1 没有歧义下的效率和泛化问题
如果输入是模糊的视频,根据相邻帧的相对运动信息是基本不存在 ECCV 2022 论文中所提到的方向歧义性问题的。但仍然存在的问题有两个:
1. 如何构建一个能够实现任意时刻模糊插帧(arbitrary time blur interpolation)的网络?
2. 如何解决在合成数据训练的模型难以泛化到真实数据的问题?
作者在他们 CVPR 2023 的论文中给出了解答。
3.2 解决方法-模型首先,作者提出了 BiT(Blur Interpolation Transformer)模型,可以实现比之前的方法更强更快的任意时刻模糊插帧。
该模型主要由多尺度残差 Swin Transformer 模块(Multi-scale Residual Swin Transformer Blocks, MS-RSTBs)作为骨干模块来构建网络。
1. 双端时序监督策略(Dual-end Temporal Supervision,DTS):直接使用共享特征进行曝光起始点(t=0)和终点(t=1)时刻清晰帧的恢复可以重塑共享特征,这有助于任意时刻清晰帧的恢复。可以将该策略想象成把特征从时间两端撑开以适应连续时刻插帧。
3.3 解决方法-数据
因为合成数据是利用离散清晰图像序列进行平均,生成的模糊并不连续,所以在合成数据上训练的模型泛化性有限。因此,作者团队利用分光器设计了一个新的混合相机系统来采集真实世界的模糊插帧数据库。其中一个相机为低帧率长曝光的相机,用来采集低帧率模糊视频,另外一个相机是高帧率短曝光的相机,用来采集对应的高帧率清晰视频。
3.4 实验结果
可以发现在相同数据库上训练的方法中,所提出的 BiT++ 在视觉效果上明显超过了之前的方法。
而且在数值对比上,BiT++ 能以更快的速度取得更好的效果。
结尾
本文介绍了去模糊问题在深度学习时代的新走向,即模糊分解或插帧。希望能够给予各位读者一些启发!值得一提的是,除了模糊以外,其他的一些跟时序相关的运动伪影(motion artifacts),如卷帘门畸变(rolling shutter distortion)等,也能实现相应的 image-to-video 任务。