选自arXiv
作者:SIMON NIKLAUS等
机器之心编译
参加:魔王
Ken Burns 特效是经过平移和缩放使停止图片动态化的一种特效,之前的办法需求多张输入图画,并且检测用户的图画处理技能。现在不用了,来自美国波特兰州立大学和 Adobe 的研讨人员提出了一种新结构,它能依据单张图画组成 3D Ken Burns 特效,并支撑全主动方式和用户操控摄像机的交互方式。
论文地址:https://arxiv.org/abs/1909.05483
Ken Burns 特效,是一种经过虚拟摄像机扫描和缩放使停止图片动态化的特效。增加视差是创立 3D Ken Burns 的重要因素,带来了许多难以想象的画面。手动创立此类特效很费时刻,并且需求满足的图片修改技巧。
可是,现有的主动办法需求多张不同视角的输入图画。最近,来自美国波特兰州立大学和 Adobe 的研讨人员提出了一种新结构,它能依据单张图画组成 3D Ken Burns 特效,并支撑全主动方式和用户操控摄像机的交互方式。
图 1:单张图画生成的 3D Ken Burns 特效。依据单张输入图画和用户自选标示(以裁剪窗口方式),该结构使停止输入图画动态化,并经过增加视差来组成 3D Ken Burns 特效。
示例如下:
该结构首要运用景深猜测流程,估量合适视图组成使命的景深。为了处理现有景深估量办法的局限性,如几许失真、语义失真和不精确的景深鸿沟,研讨者开发了一种语义感知神经网络用于景深猜测,辅以依据切割的景深调整流程,并运用精粹神经网络提高方针鸿沟的景深猜测精确率。
该结构依据景深估量,将输入图画映射至点云,并从对应的摄像机方位烘托点云,然后组成终究的视频帧。为了处理空泛问题(disocclusion)一起保证组成成果具有时刻和几许连接性,研讨者运用上下文感知的色彩修正和景深修正技能,填充摄像机途径极点视图中的丢掉信息,然后扩展点云的场景几许(scene geometry)。研讨者对很多图画内容进行试验后发现,该办法可以完结传神的组成成果。该研讨标明,比较已有的 3D Ken Burns 特效生成办法,这一体系不费吹灰之力即可完结更好的组成成果,。
研讨奉献
这篇论文首要介绍怎么依据单张图画,主动组成 3D Ken Burns 特效。研讨者纳入了简略的用户指定摄像机途径(可选),以希望开端视图和完毕视图进行参数化,保证用户对组成特效的操控。
依据单张图画组成传神的移动镜头作用是一个十分难的问题,它需求处理两个根底难题:1)要想依据新摄像机方位组成新视图,就需求精确恢复原始视图的场景几许;2)从猜测场景几许中组成具有时刻连接性的新视图序列需求处理空泛难题。该研讨处理了这两大难题,并供给了一个依据单张图画组成 3D Ken Burns 特效的完好体系。
首要,该体系依据输入图画估量景深图。近年来现有的景深猜测办法迅速发展,但单目景深估量仍然是难解问题。研讨者观察到,已有的景深猜测办法并不是特别合适视图组成使命。详细而言,研讨者发现要想运用这些办法进行 3D Ken Burns 特效组成需求处理三个关键问题:几许失真、语义失真和不精确的景深鸿沟。
依据此,研讨者规划了一个景深估量流程以及专门处理这些问题的练习结构。他们开发了语义感知景深估量神经网络,并在其最新创立的大规模组成数据集上进行模型练习,该数据集包括不同相片级真实感场景的真值景深。
这样,景深猜测流程和新式视图组成办法结合起来构成一个完结的体系,可完结依据单张图画的 3D Ken Burns 特效生成。该体系供给全主动的处理方案,主动确认虚拟摄像机的开端视图和完毕视图,然后最小化遮蔽物的数量。
3D Ken Burns 特效组成
该结构包括两个首要组件:景深估量流程(见图 3)和新式视图组成流程(见图 7)。
语义感知景深估量
图 3:该研讨提出的景深估量流程图示。给出一张高分辨率图画,研讨者首要依据低分辨率输入图画估量粗糙景深。
要想组成 3D Ken Burns 特效,该办法首要需求估量输入图画的景深。研讨者将景深估量分为 3 个过程:
运用低分辨率图画估量粗糙景深,一起依托 VGG-19 提取的语义信息提高泛化性。
依据 Mask R-CNN 的实例级切割成果调整景深图,保证明显方针内的景深值连接。
精粹输入图画指引的景深鸿沟,一起对低分辨率景深估量进行上采样。
图 4:景深估量中心成果。该示例展现了景深估量流程中每一步的奉献。
开端估量的景深遭受语义失真(赤色轿车)和不精确的精力鸿沟(如塔概括上的凸起)。景深调整可处理赤色轿车的语义失真问题,景深精粹可处理方针鸿沟的纤细细节问题。
上下文感知的视图组成修正技能
为依据景深估量组成 3D Ken Burns 特效,该研讨提出的办法首要将输入图画映射至点云中的点。然后沿着预先确认的摄像机途径从对应摄像机方位开端烘托点云,然后组成所得视频中的每一帧。可是,点云仅仅从输入图画看到的国际几许部分视图,因而得到的新视图烘托成果并不完好,存在遮蔽物引起的空泛。
图 7:新式视图组成办法图示。依据输入图画点云和景深图,重新的摄像机方位烘托后续新视图。
该研讨规划了一个专门的视图组成流程来处理图 7 中的要求。给出输入图画的点云及其景深估量,研讨者运用色彩修正和景深修正技能填充不完好新视图烘托成果的丢掉区域。
图 5:点云烘托图示。用初始景深估量的点云展现深度精粹的重要性,因为方针或许会在方针鸿沟处被切割开。
触及景深的图画修正技能可完结几许连接的图画修正。然后运用修正景深将修正色彩映射至现有点云中的新点,然后处理遮蔽物的问题。
要想按预先确认的摄像机途径组成 3D Ken Burns 特效,仅在开端和完毕等极点视图中履行色彩和景深修正即可。烘托扩展后的点云可坚持时刻连接性,并且可以实时完结。
图 6:视频组成成果示例,比照了两种盛行的即拿即用图画修正办法和该研讨提出的办法。因为待修正区域本质上并非矩形,因而 DeepFill 无法修正出合理的成果。EdgeConnect 的修正成果愈加合理,但不具有时刻连接性且无法坚持方针鸿沟。而该研讨提出的修正办法既具有时刻连接性,又能坚持明晰的方针鸿沟。
试验
研讨者比照了现有处理方案和新结构在组成 3D Ken Burns 特效方面的作用。他们考虑了两种商业体系:第一种是 Photo Motion 软件包,是 Adobe After Effects 的模板;第二种是移动 app Viewmee,它可使非专业用户轻松创立 3D Ken Burns 特效。
图 10:易用性研讨成果。新体系可运用户不费吹灰之力得到优异成果。
图 11 展现了两个示例,比照了新办法生成的 3D Ken Burns 特效和运用相同开端视图、完毕视图裁剪窗口得到的 2D 版别。2D 版别具有典型的缩放特效,但没有视差。而新办法包括传神的移动视差和强壮的景深猜测,因而特效成果更好。
图 11:2D Ken Burns 和 3D Ken Burns 特效比照图。留意移动视差方面的差异。
表 1(上)依据每个基准界说的不同量化目标比照不同办法的景深猜测质量。该研讨提出的办法在一切景深质量目标上均可比美当时最优的景深猜测办法。
表 1(下)列举了新办法的两种变体,便利更好地剖析景深估量网络和练习数据集的作用。详细而言,研讨者运用 DIW 数据集的一切可用练习数据练习网络架构,与依据研讨者创立的数据集练习的网络进行比照。
表 1:景深猜测质量。新办法在一切景深质量目标上均可比美当时最优的深度猜测办法。
本文为机器之心编译,转载请联络本大众号取得授权。
------------------------------------------------