自动驾驶定位技术之争融合定位才是出路干货

「编者按」：高精度定位是发展自动驾驶不可或缺的底层技术之一，那么，如何才能克服目前的技术局限，确保高精度定位的连续性、完好性和高可用性呢？有人认为依靠视觉技术就能解决这个问题，有人认为雷达传感器必不可少…当前似乎仍无定论，让我们一起理性地认识下这个问题。

5月21日，千寻位置视觉算法专家李飞为“物联网专业开发者分享群”的群友，讲授了主题为“自动驾驶定位技术之争：融合定位才是出路”的线上公开课。以下内容根据李飞在公开课上的分享编辑整理。

内容简介

1、高精度定位为何需要多种传感器？

2、视觉定位简介

3、雷达定位简介

4、小结和展望

课程实录

一、高精度定位为何需要多种传感器？

自动驾驶的三大工作内容分别是感知、决策和执行。感知中很重要的一个部分就是定位，如果没有精确的定位结果，后续的决策和执行无从谈起。

试想，此刻你坐在一辆自动驾驶的汽车上，你最希望这辆车有什么特点呢？是速度快、屏幕大、座椅舒适，还是颜色漂亮？其实都不是，大家最关心的还是这辆车是否安全可靠。通俗的讲，安全就是不该发生的一定不会发生，可靠就是该发生的一定会发生。具体来说，自动驾驶中的汽车定位要达到安全可靠，需满足以下四大性能指标：

精度：测量值和真实值之间的重合度完好性：服务不可用时提出告警的能力连续性：告知客户系统正常工作的持续能力可用性：提供符合指标定位服务的百分比在高架下、高楼旁、隧道、地下车库，以及有大量树荫场景下，汽车的高精度定位结果基于融合定位技术产生。常用的车载定位传感器包括GNSS、惯导、毫米波雷达、超声波雷达、高精地图、轮速记、激光雷达、摄像头等。除了传统的惯导外，雷达定位和视觉定位是能够与GNSS进行融合定位，最具应用前景的技术方案。

二、视觉定位简介

视觉定位是指用车载摄像头拍摄环境图像，跟已知的地图元素做对比或以递推方式计算车辆位置的定位方式，可分为绝对定位和相对定位。

其中实现绝对定位的素材来源主要有三类：①地面印刷物，包括路政部门在道路地面上印刷的车道线、斑马线、导流带、地面文字、地面图标等，只要没有施工涂改或使用磨损，这种语义特征是非常稳定的；②空中语义对象，包括道路上空的道路标牌、交通标识、红绿灯等，这些装置的位置基本固定而且语义信息明确，也非常适合做定位；③街景，相对来说没有前两种方法主流。

再来看视觉相对定位，也就是现在比较流行的vSLAM（视觉同步定位和建图）和VO（视觉里程计）。这两个词常常一起出现，前者包含后者，一般讨论中都以vSLAM代替，其主要特点是提供后端的回环和优化，但车辆正常行驶时，开出去以后短时间内几乎不会再回到之前去过的地方，回环的用途并不是很大，所以视觉定位中主要使用的还是VO。

vSLAM和VO的理论基础是多视图几何，从上图中可以看出，相机从不同位置拍摄同一个物体得到的图像一定是相似而略有区别的。通过图像处理方法，可以找到两张图像中一一对应的特征点。当匹配的特征点数量足够时，通过求解单应矩阵或本质矩阵即可求得两个相机之间的旋转和平移关系，旋转和平移合称变换。当相机连续采集的数据构成一个视频序列时，求解两两帧之间的变换并组合起来即可得到一条从起始位置出发到当前位置的轨迹。由于得到的是相对轨迹，SLAM本身并不能直接完成定位任务，还需要和绝对定位做融合。可以将其他传感器的数据放到SLAM框架中作为额外约束，也可以将视觉观测或里程计的局部关系作为约束输出给其他定位框架。

视觉定位的一般流程可分为四步：摄像头采集图像、图像预处理、提取图像特征或提取语义、用多视图几何和优化方法求解位姿。视觉定位任务中的摄像头需要考虑多种硬件因素。比如，为了让视觉算法在夜间也能运行，可选用红外相机、星光相机，甚至热成像相机；为了覆盖不同的视场范围，可选用广角镜头、鱼眼镜头、全视相机等；车载摄像头有多种安装位置和多种数量配置，用于定位任务的主要是前视单目或前视双目。

图为三种不同视场角的单目车载摄像头的成像比较。

显然，视场角小时取像范围小，视场角大时取像范围大。对同样尺寸的CCD靶面，如果装载了视场角较大的镜头，那么图像中每个物体的尺寸都要小得多。所以，大视场角有利于看到更多的东西，但它不利于完成某些视觉任务。

单目摄像头还有一个显著的弊端，就是无法分辨物体的尺度。比如，之前网上流传的一个梗——道理我都懂，可是鸽子为什么这么大？

双目视觉可用于解决尺度问题，很多生物包括人类都有两只眼睛，都属于“双目系统”。左右目看到的物体略有不同，近处差别大，远处差别小，通过这种视差就可以判断物体的远近。目前很多高端车型都安装有双目相机用于高级的ADAS功能，比如斯巴鲁的双目系统、捷豹的双目系统。

我们所说的双目，特指两个相机内参一致的对称设计，相机的光心和焦距称为内参。左图是小孔成像原理的相机模型。三维世界中的点(X,Y,Z)投影到成像面z=f上，得到二维像素坐标(u,v)。更详细的公式推导，可参考计算机视觉的各种教材。

相机和某一参照物之间的旋转平移称为外参。如果是一个相机和一个机械臂的配置，求解外参的过程就是经典的手眼标定。求解两个相机之间的关系就是双目标定，在很多软件中都提供了标定工具，比如MATLAB。两个相机之间的距离称为基线，基线是双目系统最重要的参数，常见的双目基线约为8到12厘米。

介绍完摄像头硬件方面的基本知识后，再通过举例简单说明视觉定位的后续几个步骤具体是如何完成的。

先看地面印刷物定位，通过采图设备可以获取地面上所有印刷物的图像并生成矢量数据，而地面上每一个几何要素的每一个角点都已提取确切的经纬度并记录在数据库中，将二者匹配即可反推车辆当前位置姿态。这种定位方式的优点是成本低，依赖的资源少，非常适合大规模推广。

图为韩国某大学制作的RoadSLAM：对前视相机采集的图像做IPM逆透视变换后得到地面鸟瞰图，然后对地面印刷物进行分割、分类、识别和匹配，该算法中地面印刷物用于提供回环检测，轮速计用于提供轨迹递推。

图为DeepMotion深动科技运用地面印刷物定位的演示图。

再来看基于空中语义对象的定位。首先根据卫星数据提供的经纬度和航向等确定车辆的大致位置，然后根据摄像头摄取图像中检测的车道线、道路边沿线等修正车辆的横向定位，接着根据图像中检测的交通标识、道路标牌、红绿灯、广告牌等语义对象进一步修正纵向定位。

图为HereMaps的语义对象定位演示，可以看出这种定位方式和卫星定位的原理几乎是一样的：摄像头拍摄到多个语义对象，就相当于“观测”到多个卫星信号，当语义对象的数量足够且在空间中分布比较均匀时，就能获得较好的定位效果。

图为CivilMaps的语义对象定位演示。

三、雷达定位简介

雷达有很多种，目前主流用于车辆定位的是激光雷达。AGV或机器人定位导航中常用的是二维激光雷达，可将其定位原理简单理解为上方有一束激光向下照射，下方是一个镜子不断旋转将激光转为横向扫描，激光打在不同距离物体上返回时间不同，据此就可以在扫描平面上获得外围环境的轮廓。不过，在自动驾驶领域，用的最多的还是三维激光雷达。

图为三维激光雷达示意图，多束激光的发射管和接收管按不同角度排列，中间装有隔离板，按照一定的顺序交错发射避免相互干扰，光源和接收器组件旋转起来之后，即可获得对周围环境的多线扫描结果，形成一个三维坐标系中点的集合，称之为点云。

激光雷达定位可分为有图定位和无图定位两类。

有图定位分为建图和用图两个步骤：建图时将点云逐帧叠加在车辆的运行轨迹上即可获得点云地图。这里所说的轨迹，可以是高精度组合惯导系统输出的轨迹，也可以是点云SLAM输出的轨迹。

图为使用16线条激光雷达构建的某园区的点云地图。

点云直接建图很可能生成体积特别巨大的点云文件，原始点云地图并不适合大范围使用。有的团队在点云压缩方面做出了卓有成效的改进，例如CivilMaps号称可以将1TB的点云数据压缩到只有8MB。这个压缩比非常惊人，想必涉及了大量和场景相关、目标相关的工程技巧。

建立点云地图后，在该点云地图上对每一帧点云运行NDT、ICP等匹配算法就能获得当前车辆的准确位置。

再来雷达定位中的无图定位，和视觉里程计类似，将点云两两帧之间匹配并组合后可以构造一个点云里程计实现相对定位，例如开源软件Autoware里的点云定位模块。也可以提取点云的平面特征和角点特征做匹配，构建点云特征里程计实现定位，例如开源算法LOAM。

四、小结和展望

视觉定位方法已经开始逐步落地，未来的发展趋势主要是：多相机组合定位，例如前视加后视的图像同时输入SLAM；视觉处理芯片的应用逐渐普及，算法硬化到芯片中；相机参数能够实现在线标定等。

激光雷达定位的主要缺点有三个：价格昂贵、寿命短、机械式激光雷达不能过车规。目前只有某些限定场景下的特种车辆会用到激光雷达定位，例如园区摆渡车、垃圾清扫车、矿区卡车、自动快递小车等。激光雷达的发展趋势主要是：固态产品一定会取代机械旋转式产品、价格会越来越低、车上的安装数量会越来越多。

脱离各种具体的器件，一言以蔽之：所有的GNSS、惯导、视觉、激光雷达、轮速计、高精地图等都是传感器的一种；多种传感器获得不同形式的观测，用于生成不同类型和不同权重的约束，最终共同求解获得定位结果。

GNSS以较低的成本和高可靠性提供了绝对定位能力，是自动驾驶必备的定位手段。在惯导融合定位的基础上，视觉、雷达等新兴传感器提供的相对定位、补充绝对定位、安全冗余也是不可忽视的，未来自动驾驶的发展一定离不开传感器融合。

互动问答

坤：激光雷达受同频照明灯影响吗？

李飞：相同波长的话，是会受到影响的。而且如果多个激光雷达同时使用的话，也需要做一些安装上的特别设计，否则一定会互相干扰。

Cindy_希希：车和云端怎么实现连通呢？蓝牙、wifi？流量成本会不会很高？

李飞：车端和云端实现通信常用4G或者5G，蓝牙和wifi基本上是不会使用的。如果是仅仅是设备端滤波+云端优化，传输的并不是图像，所以流量成本并不会很大。如果需要传输图像，那一定要用上5G了。

Ellis：谷歌的rtkslam为啥只适合绘图？

李飞：纠正一下谷歌的这个叫Cartographer，和RTK-SLAM以及其他公司的背包一样，搭载了激光雷达、相机和IMU，也可以搭载RTK，成本较高，设计就是用于制图的。当然，其中的模块提取出来后也可以用于定位。

飞科：高精地图的更新频率是怎样的？

李飞：高精地图的众包实时更新是目前很火热的概念，有的图商号称能够以分钟级来做更新。

转载请注明：http://www.abuoumao.com/hyls/1510.html

上一篇文章：灯光对于龙鱼的作用,饲养龙鱼时,要如何选

下一篇文章：小型热带观赏鱼红灯管