自动驾驶3D目标检测研究综述

发布时间：2023-08-05 09:00

点击下方卡片，关注“自动驾驶之心”公众号

ADAS巨卷干货，即可获取

作者：我写论文养你 | 已授权转载（源：知乎）编辑：CV_Autobot

https://zhuanlan.zhihu.com/p/506770241

Abstract

自动驾驶被认为是保护人类免受严重碰撞的最有希望的补救措施之一。因此，三维物体检测是该感知系统的核心基础，特别是在路径规划、运动预测、碰撞避免等方面。

一般来说，具有相应三维点云的立体或单目图像已经是三维目标检测的标准布局，其中点云越来越普遍，提供了精确的深度信息。尽管已有的努力，由于点云的高度稀疏和本质上的不规则性，相机视图和激光雷达鸟瞰视图之间的不对齐视图，在长距离的形态协同、遮挡和规模变化等原因，点云上的3D目标检测仍处于初级阶段。

最近，在三维物体检测方面取得了长足的进展，大量的文献正在研究解决这一视觉任务。因此，我们将全面回顾这一领域的最新进展，包括所有主要主题，包括传感器、基础知识和最新的最先进的检测方法及其优缺点。此外，我们将介绍指标并对流行的公共数据集提供定量比较。在对调查作品进行深入分析后，将对未来的工作进行明智的确定。最后，对本文进行总结。

1.Introduction

为什么是自动驾驶?

自动驾驶(AD)的兴起必将从以下几个方面惠及整个社会:

1)安全。ADis的首要目标是解决安全问题。根据美国国家公路交通安全管理局(NHTSA)的数据[1,2]，2018年，美国约有36560人死于与机动车相关的撞车事故。更重要的是，94%的严重撞车都是人为错误造成的。AD的持续发展将拯救生命，并从本质上改变汽车保险业。

2)经济效益。美国国家公路交通安全管理局(NHTSA)的一项研究显示，2010年，用于解决交通事故和治疗伤者的机动车事故花费了2420亿美元。

3)效率和方便。有了AD系统，交通流量可以在大数据的帮助下平滑，每天的通勤时间可以从根本上减少。

4)流动。自动驾驶汽车将提供新的出行选择，为残疾人创造新的就业机会。更多细节见[1-3]。

什么是三维物体检测?

三维对象检测是通过三维传感器数据检测物理对象，并对定向三维绑定框进行估计，并对特定类别进行分配。三维物体检测是三维场景感知和理解的核心。随着各种类型的3D传感器[4]的出现，数以千计的下游应用如自动驾驶、家政机器人、增强/虚拟现实等涌现出来。通常存在三种类型的三维表示，包括点云2(a)，网格2(b)，体积网格2(c)，其中点云在许多情况下是首选的表示。点云既不会像网格那样消耗大量的存储空间，也不会因为量化而丢失原始的几何信息，比如体积网格。点云接近原始激光雷达传感器数据4。

三维物体检测[6-8]取得了显著的进展，但目前仍落后于二维物体检测[9-18]。3Dobject检测旨在通过精确的几何、形状和尺度信息检测特定类别的视觉对象:3D位置、方向和占用的体积[19]，为机器提供对周围环境的更好理解，同时提出了一个困难的技术挑战。人们普遍认为，卷积神经网络成功的关键是在密集表示[20]中利用空间局部相关性的能力。然而，直接对点云应用cnn核不可避免地会导致形状信息和点排序[20]方差的丢弃。在此基础上，本文详细分析了近年来最先进的三维目标检测方法。

最后，值得注意的是，现代自动驾驶系统严重依赖深度学习。然而，深度学习方法已经被证明很容易被伪造。因此，这带来了固有的安全风险(例如。破坏、不利条件和盲点等)。最终，关于3D对象检测的敌对攻击在很大程度上还处于婴儿期。与现有文献相比，我们总结了自己的贡献如下:

1)更细粒度的新分类法调查:与[6,7]相比，我们进一步挖掘，对现有方法[6,7]进行了更细粒度的分类，便于读者直观、具体地掌握每种方法的特点。例如，基于点云的方法意味着是详尽的，但当我们根据表示学习将基于点云的方法进一步分为基于多视图的、基于体素的、基于点的和基于点体素的方法时，读者应该能够毫不费力地识别基于点云的方法的主要思想。

2)更系统的新分类学调查:如图2和图6所示，无论社会关注程度和方法本身是否有效，2018年后的疫情都经历了深刻的转变。3D感知系统经历了一个不断完善的过程，直到2018年以后提出了高性能的检测器，如PointRCNN [22]， PV-RCNN[23]，才真正建立起来。而文献[7]只涵盖了2018年之前的进展。此外，据我们所知，只有少数文献与3D点云有关，更不用说无人驾驶领域了。

3)采用更包容的新分类法进行调查:在[8]中，Guo等人将Part-A2[24]、PV-RCNN[23]、Point-GNN[25]归类为“其他方法”，没有解决问题。研究[6,7,26]对分类进行了仔细的讨论，但当涉及到多模融合时，他们只介绍了早期融合、晚期融合和深度融合的基本概念，没有明确地确定每种方法属于哪个类别。然而，我们定义了两种新的范式来适应正在进行的变化。

4)一项调查与新分类法是supplemen-tary而不是另一种选择:与existingsurvey[8],我们特别关注3 d对象detectionin自主驾驶的环境中,而不是allrelated次要的3 d点云,(例如,3 d shapeclassification,三维点云分割和跟踪,等等)。考虑到有限的空间，一个人不可能深入研究这些细节，因为所有的材料都涉及其中。相反，我们从相当基本的概念开始，提供了在我们定义的范式下自动驾驶方面3D物体检测的发展，并对公开可用的数据集进行了全面的比较，明智地提出了优缺点。

2. Sensors

自动驾驶汽车常用的传感器可分为两类：被动传感器 (Passive Sensors)和主动传感器 (Active Sensors)。

被动传感器中单目相机具有信息丰富的颜色和纹理属性、更好的路标文本视觉识别、高帧速率和可忽略不计的成本等优点，然而，它缺乏深度信息，这对于准确的位置估计至关重要。为了克服这一点，立体相机使用匹配算法来对齐左右图像中的对应关系以进行深度恢复。

主动传感器中激光雷达是一种具有透镜、激光和探测器三个基本组件的点对点发射设备，发出的光脉冲将以三维点的形式从周围环境中反射回来，形成“点云“。高稀疏性和不规则性以及缺乏纹理属性是点云的主要特征，它与图像阵列有很好的区别，激光雷达的另一个问题是部署成本高。

下面的表格是单目相机、立体相机、激光雷达和固态激光雷达的优缺点比较。

3. Fundamentals

本文以KITTI自动驾驶数据集为例，下面是3D物体检测常用的符号规定、3D边界框的不同表达形式（常用的是7参数表达形式）、和3D物体检测的示意图（激光雷达坐标）。

4. 3D Object Detection Methods

如下图所示，根据输入数据模态，3D物体检测方法可以分为基于单目/立体图像、基于点云和基于多模态融合·的方法，这里也将各种方法划分为一阶段和两阶段了。基于点云的检测方法还可以进一步细分为基于多视图、基于体素、基于点、基于点与体素四种方法。为了明确区分不同的基于多模态融合的方法，本文提出了两种新的融合策略：基于序列融合和基于并行融合的方法。

基于单目/立体图像的方法这些方法是3D中与2D目标检测最相似的方法，仅以单目/立体图像作为输入来预测3D目标实例。通常有两行:基于模板匹配的方法和基于几何属性的方法。关于前者，区域建议是这条线的基本组成部分。事实上，如何提出高质量区域，其中可能存在的对象在2D对象检测已被广泛研究[59]，不同于传统的手工分组(如，SelectiveSearch[60])和窗口评分(如，EdgeBoxes[61])的方法最近的Region Proposal Network (RPN)[13]伴随着cnn的成功。

最近，受基于点云的方法令人鼓舞的成功启发，另一种尝试是通过计算视差模拟激光雷达信号(以下称为伪激光雷达)将图像坐标重投影回三维空间，然后诉诸高性能的基于点云的方法。我们将其命名为伪激光雷达方法。

模板匹配的方法。这些方法倾向于通过详尽采样和评分3D提案作为代表性模板来执行2D/3D匹配。基于模板匹配的方法典型的例子是chen等人提出的早期和著名的3DOP[55]，它消耗一个立体图像对作为输入来估计深度，并通过将图像平面中的像素坐标重新投影回3D空间来计算点云。3DOP将提案生成的问题描述为考虑到精心设计的电位(例如，物体大小先验、地面平面和点云密度等)的马尔可夫随机场(MRF)的能量最小化。

5. Benchmark Evaluation

下面是各种3D检测算法在KITTI数据集上的3D检测性能和鸟瞰图检测性能比较。

【自动驾驶之心】全栈技术交流群

自动驾驶之心是国内首个自动驾驶开发者社区，聚焦目标检测、语义分割、关键点检测、车道线、目标跟踪、3D感知、多传感器融合、SLAM、高精地图、规划控制、AI模型部署落地等方向；

加入我们：自动驾驶之心技术交流群汇总！

自动驾驶之心【知识星球】

想要了解更多自动驾驶感知（分类、检测、分割、关键点、车道线、3D感知、多传感器融合、目标跟踪）、自动驾驶定位建图（SLAM、高精地图）、自动驾驶规划控制、领域技术方案、AI模型部署落地实战、行业动态、岗位发布，欢迎扫描下方二维码，加入自动驾驶之心知识星球，这里汇聚行业和学术界大佬，前沿技术方向尽在掌握中，期待交流！

整理不易，请点赞和在看

自动驾驶3D目标检测研究综述

3. Fundamentals

相关推荐