您好,欢迎来到12图资源库!分享精神,快乐你我!我们只是素材的搬运工!!
  • 首 页
  • 当前位置:首页 > 开发 > WEB开发 >
    继脸书开源PyTorch3D后,谷歌开源3D场景了解库
    时间:2021-03-08 21:13 来源:网络整理 作者:网络 浏览:收藏 挑错 推荐 打印

    3D 计算机视觉是一个十分重要的研讨课题,选择适宜的计算框架对处置效果将会产生很大的影响。此前,机器之心曾引见过 Facebook 开源的基于 PyTorch 框架的 3D 计算机视觉处置库 PyTorch3D,该库在 3D 建模、渲染等多方面处置操作上表现出了更好的效果。

    最近,另一个常用的深度学习框架 TensorFlow 也有了本人的高度模块化和高效处置库。它就是谷歌 AI 推出的 TensorFlow 3D(TF 3D),将 3D 深度学习才能引入到了 TensorFlow 框架中。TF 3D 库基于 TensorFlow 2 和 Keras 构建,使得更易于构建、训练和部署 3D 语义联系、3D 实例联系和 3D 目的检测模型。目前,TF 3D 库曾经开源。

    继脸书开源PyTorch3D后,谷歌开源3D场景了解库

    GitHub 项目地址:
    https://github.com/谷歌-research/谷歌-research/tree/master/tf3d

    TF 3D 提供了一系列盛行的运算、损失函数、数据处置工具、模型和目的,使得更普遍的研讨社区方便地开发、训练和部署 SOTA 3D 场景了解模型。TF 3D 还包含用于 SOTA 3D 语义联系、3D 目的检测和 3D 实例联系的训练和评价 pipeline,并支持散布式训练。该库还支持 3D 物体外形预测、点云配准和点云加密等潜在运用。

    此外,TF 3D 提供了用于训练和评价标准 3D 场景了解数据集的一致数据集规划和配置,目前支持 Waymo Open、ScanNet 和 Rio 三个数据集。不过,用户可以自在地将 NuScenes 和 Kitti 等其他盛行数据集转化为相似格式,并在预先存在或自定义创立的 pipeline 中运用它们。最后,用户可以将 TF 3D 用于多种 3D 深度学习研讨和运用,比如快速原型设计以及尝试新思绪来部署实时推理系统。

    下图(左)为 TF 3D 库中 3D 目的检测模型在 Waymo Open 数据集帧上的输入示例;下图(右)为 TF 3D 库中 3D 实例联系模型在 ScanNet 数据集场景上的输入示例。

    继脸书开源PyTorch3D后,谷歌开源3D场景了解库

    3D 稀疏卷积网络

    谷歌详细引见了 TF 3D 库中提供的高效和可配置稀疏卷积主干网络,该网络是在各种 3D 场景了解义务上取得 SOTA 结果的关键。

    在 TF 3D 库中,谷歌运用子流形稀疏卷积和池化操作,这两者被设计用于更高效地处置 3D 稀疏数据。稀疏卷积模型是大少数户外自动驾驶(如 Waymo 和 NuScenes)和室内基准(如 ScanNet)中运用的 SOTA 办法的中心。

    谷歌还运用各种 CUDA 技术来减速计算(如哈希算法、共享内存中联系 / 缓存滤波器以及位操作)。在 Waymo Open 数据集上的实验表明,这种完成的速度约是应用预先存在 TensorFlow 操作的完成的 20 倍。

    TF 3D 库中运用 3D 子流形稀疏 U-Net 架构来提取每集体素(voxel)的特征。经过令网络提取稀疏和纤细特征并结合它们以做出预测,U-Net 架构已被证明十分有效。在结构上,U-Net 网络包含三个模块:编码器、瓶颈层和解码器,它们均是由少量具有潜在池化或非池化操作的稀疏卷积块组成的。

    下图为 3D 稀疏体素 U-Net 架构:

    继脸书开源PyTorch3D后,谷歌开源3D场景了解库

    稀疏卷积网络是 TF 3D 中所提供 3D 场景了解 pipeline 的主干。并且,3D 语义联系、3D 实例联系和 3D 目的检测模型运用稀疏卷积网络来提取稀疏体素的特征,然后添加一个或多个额外的预测头(head)来推理感兴味的义务。用户可以经过改动编码器或解码器层数和每个层的卷积数,以及调整卷积滤波器大小来配置 U-Net 网络,从而探求不同主干网络配置下各种速度或准确率的权衡。

    TF 3D 支持的三个 pipeline

    目前,TF 3D 支持三个 pipeline,辨别是 3D 语义联系、3D 实例联系和 3D 目的检测。

    3D 语义联系

    3D 语义联系模型仅有一个用于预测每体素(per-voxel )语义分数的输入头,这些语义被映射回点以预测每点的语义标签。

    下图为 ScanNet 数据集中室内场景的 3D 语义联系结果:

    继脸书开源PyTorch3D后,谷歌开源3D场景了解库

    3D 实例联系

    除了预测语义之外,3D 实例联系的另一目的是将属于同一物体的体素集中分组在一同。TF 3D 中运用的 3D 实例联系算法基于谷歌之前基于深度度量学习的 2D 图像联系。模型预测每体素的实例嵌入向量和每体素的语义分数。实例嵌入向量将这些体素嵌入至一个嵌入空间,在此空间中,属于同一物体实例的体素严密靠拢,而属于不同物体的体素彼此远离。在这种状况下,输入的是点云而不是图像,并且运用了 3D 稀疏网络而不是 2D 图像网络。在推理时,贪心算法每次选择一个实例种子,并应用体素嵌入之间的距离将它们分组为片段。

    3D 目的检测

    3D 目的检测模型预测每体素大小、中心、旋转矩阵和目的语义分数。在推理时运用 box proposal 机制,将成千上万个每体素 box 预测缩减为数个准确的 box 建议;在训练时将 box 预测和分类损失运用于每体素预测。

    谷歌在预测和真值 box 角(box corner)之间的距离上运用到了 Huber 损失。由于 Huer 函数依据 box 大小、中心和旋转矩阵来估量 box 角并且它是可微的,因此该函数将自动传回这些预测的目的特性。此外,谷歌运用了一个静态的 box 分类损失,它将与真值剧烈堆叠的 box 分类为正(positive),将与真值不堆叠的 box 分类为负(negative)。

    下图为 ScanNet 数据集上的 3D 目的检测结果:

    继脸书开源PyTorch3D后,谷歌开源3D场景了解库

    【编辑引荐】

    专业开发者眼中的鸿蒙HarmonyOS:专访资深软件开发工程师张荣超

    Facebook应用10亿张社交软件图片,训练AI新算法

    Apache四个大型开源数据和数据湖系统

    IoT Analytics:三分之一的制造商方案将软件转移到云上

    AIOps工具,要开源还是闭源?

    (责任编辑:admin)