为了更好地了解实际国际,AI 体系不只需求精确辨认物体,还有必要学会以三维视角了解视觉场景,比方将二维图片中的沙发、餐桌和茶几以三维建模的办法重现出来。
这对 AI 的图画了解才能提出了极高的要求,由于它有必要知道怎么判别景深,搞清楚方针坐落相片的远景仍是布景中,乃至要在必定程度上揣度出缺失部分的姿态。
Facebook AI近来在首尔国际计算机视觉大会(ICCV)上演示了他们在这个范畴的最新研讨效果,一同也在博客和 arxiv 上发布了技能简介和论文,体现冷艳,研讨效果之一还取得了 ICCV 最佳论文提名。
图 | 将视频中的沙发和椅子三维化(来历:Facebook)
为了完成这一方针,研讨人员不只开发了新的算法,还整合了多个最新研讨效果,包括用来猜测 3D 形状的 Mesh R-CNN 神经网络结构,用来提取和重建 3D 不规则模型的 C3DPO 办法,用来检测物体和生成 3D 点云的 VoteNet 技能以及配套的新式优化算法等等。
研讨团队信任,经过加强对三维物体的了解,AI 可以更严密地衔接二维和三维国际,在计算机视觉范畴扮演更重要的人物,推进 3D 打印、AR 和 VR 等技能在实际生活中的前进,将这些技能拓宽到更广泛的使命上,终究像人类相同了解三维国际。
猜测受阻挠的 3D 不规则形状
现有的根据 Mask R-CNN 的图画了解和感知体系确实很强壮,适用广泛,但它们做出的猜测主要以二维数据为根据,疏忽了实在国际凌乱的三维结构。想要在实在国际中辨认和判别不规则物体的三维数据,例如在凌乱多变的环境中辨认和扫除遮挡物,需求战胜一系列光学应战。由于技能原因,仅凭现有的工程结构(Mask R-CNN)难以担任。
为了应对这些应战,研讨人员首要经过网格猜测分支(mesh prediction branch)强化了 Mask R-CNN 的 2D 方针切割体系,随后专门创建了一个Pytorch 库 Torch3d,里边贮存了高度优化后的 3D 运算符,可以协助完成 3D 物体结构采样和猜测。
图 | 经过网格构建物体 3D 形状(来历:Facebook)
简略来说,新开发的 Mesh R-CNN 结构可以凭借现有的 Mask R-CNN 来检测和分类图画中的各种物体,之后运用网格猜测器揣度和描绘出一个物体 3D 形状,终究取得细粒度的 3D 结构数据。
在这一进程中,Facebook 还运用了 Detectron2 库。这是一个模块化物体检测库,最早由 Facebook 团队在 2018 年推出,取得过屡次更新。它将 RGB 图画视为输入值,可以检测物体和猜测 3D 形状,一同还支撑捕捉视频中的物体和动作改变。
与练习 Mask R-CNN 类似,研讨团队运用了监督学习的办法来练习 Mesh R-CNN 学习 3D 形状猜测。他们在 Pix3D 和 ShapeNet 两个数据集上评价了新结构,它成为了第一个可以在所有场景类别中检测到物体完好 3D 形状的体系,而且概括体现也高出之前结构 7%。
经过二维要害点重建三维方针
关于无法运用网格的场景,Facebook 研讨人员开发了另一种办法:捕捉 2D 要害点,再将数据输入 C3DPO 体系(Canonical 3D Pose Network),用来重建 3D 要害点模型。
2D 要害点可以经过盯梢物体特定部分的运动得到,比方人的关节和鸟的翅膀,可以供给物体几许形状或视角改变的完好轨道。这并不难完成,难的是怎么生成 3D 要害点,这关于 3D 建模来说至关重要,也是在实际中运用潜力最大的当地——更好的建模质量意味着在 VR 中生成更传神的虚拟头像。
图 | 经过二维图片要害点(上)生成三维模型(下)(来历:Facebook)
研讨团队开发的 C3DPO 模型可以重建数十万张图画的数据集,每张图片都包括数千个 2D 要害点。在给定一组 2D 要害点的前提下,该模型可以猜测现有的摄像头视角参数,而且得出标准视角下 3D 要害点的定位信息,对确认物体的相对方位至关重要。
为了战胜分化 3D 视角和形状时的不确认性——AI 需求脑补看不到的当地,存在苍茫多的可能性——研讨人员开发了一套正则化技能,包括第二个辅佐深度神经网络,可以跟着 3D 重建网络一同学习,标准模型重建进程。
Facebook 着重,由于之前根据矩阵分化的办法存在内存约束,这种重建是无法完成的。而新开发的深度网络 C3DPO 可以以小批量(minibatch)的状况运转,功率很高,对硬件的要求大大下降,使得对飞机等大型物体的三维数据捕捉和重建成为可能。
学习怎么从像素映射到物体外表
为了削减针对一般物体开发三维形状数据捕捉的监督程度,Facebook 团队开发了一种类似于主动物体切割的办法,适用于未标示图画。无需清晰猜测图画底层的 3D 结构,就可以直接将图画中的像素映射到 3D 形状模板的外表上。
这种映射不只可以协助体系更好地了解图画,还可以协助概括相同类别物体之间的联系。以人类为例,当咱们看到左边图画中高亮显现的鸟喙,就可以轻松找到右侧图画中对应的点。
(来历:Facebook)
关于 AI 来说,完成像素到物体外表的映射意味着它也可以具有这种才能,由于同类其他物体之间同享了类似的 3D 结构。假如咱们练习 AI 学习怎么正确坐在椅子上或许抓住杯子,那么在它学会之后,再换一张椅子或许一个杯子,它对物体 3D 结构的了解也可以协助其快速把握新技巧。
这些效果不只可以协助 AI 加深对传统 2D 图画和视频内容的了解,还可以用来增强 AR 和 VR 体会。
研讨团队表明,在评价不同个例之间对应联系的精确性时,新体系的体现优于旧办法两倍。更重要的是,这种学习办法可以完成从像素到物体外表的映射,并将其与外表到像素的逆向操作配对,然后构成一个从练习到查验的循环,所用的图片数据集也无需标示,因而大大下降了练习所需的监督程度。
改进 3D 体系物体检测使命
终究一个在 3D 建模使命中扮演重要人物的效果是VoteNet。这是一套为 3D 点云体系定制的高精度端到端 3D 方针检测网络,取得了 ICCV 2019 的最佳论文提名。
与传统依靠 2D 图画信号的点云体系不同,VoteNet 支撑的体系彻底根据 3D 点云,功率和精度都更胜一筹,可以从深度相机获取 3D 点云,并回来带有物体或形状标示的 3D 鸿沟框。
它以经典霍夫改换算法为根底(运用投票的办法检测物体形状),引入了一种新的投票机制,可以在物体中心邻近生成新点,然后将它们分组和汇总,生成多个 3D 盒状提案。深度神经网络在学习怎么投票之后,每组 3D 种子点(seed point)会投票决定物体中心,找到它们的方位,概括起来代表特定物体的方位,还能判别物体类别,标示它是椅子仍是桌子。
图 | VoteNet 完成办法(来历:Facebook)
研讨人员表明,开源的 VoteNet 具有简略的规划、紧凑的模型和很高的功率,是最先进的 3D 物体检测办法之一。它仅凭几许信息,无需五颜六色图画,就在 SUN GRB-D 和 ScanNet 的测验中逾越了现有办法,是捕捉场景中 3D 方针的中心东西。
从主动驾驶到生物医疗,3D 扫描技能的运用场景正在快速拓宽,因而运用计算机直接了解和分类 3D 场景物体的才能变得益发重要。这对计算机视觉研讨提出了更高的要求,但也是增强 AI 对实际场景了解才能的必要进程,有助于进一步缩小物理空间和虚拟空间的距离,推进 VR 和 AR 等技能的开展,乃至是掀起新一轮技能革命。
终究假如概括触觉感官和自然语言了解等技能,咱们有朝一日或许可以见到像人类相同了解并与实际国际互动的 AI 体系。
-End-
参阅:
https://ai.facebook.com/blog/pushing-state-of-the-art-in-3d-content-understanding/
https://ai.facebook.com/blog/-detectron2-a-pytorch-based-modular-object-detection-library-/
https://research.fb.com/publications/c3dpo-canonical-3d-pose-networks-for-non-rigid-structure-from-motion/