智慧公路的“模”力——基于AI大模型的多模态融合建模

近年来，国家在不断推进新一代智慧公路建设，同时出台相关政策文件，指导大数据和智慧交通的建设与发展。从先后出台的文件中，都对交通大数据、交通信息化等方面提出了工作任务要求，其中明确要求加快交通运输大数据应用、建设交通运输大数据平台，增强交通运输基础信息能力，开展交通运输海量数据深层次的交互融合与挖掘应用，为政府行业管理、企业经营服务、市民出行提供支持服务。

智慧公路建设面临的挑战

目前，智慧公路建设仍需对以下几个问题进行深入的研究。

首先，数据采集车的定位问题。传统的定位技术对于卫星信号良好区域，通过cors站载波相位差分技术可以获得厘米级的定位精度。然而，在车辆行驶周边环境出现大量遮挡物体，如树木、楼宇时，卫星定位的稳定性严重不足。因此，在弱北斗环境下仍能保持采集车定位的稳定性是需要解决的关键技术之一。

其次，单纯采用激光雷达数据进行公路资产单体化的技术，受限于激光点云数据，难以实现路面资产的自动提取。而采用图像识别的算法虽然可以较为有效的识别公路资产，但是图像识别及相关计算机视觉算法，在对对象深度进行估计时，其精度和稳定性明显低于激光雷达。

基于深度学习的计算机视觉识别算法可分为对象检测和语义分割两大类。相比较而言，对象检测的成本和效率都要高于语义分割，但是对象检测只能检测出包含目标对象的矩形框，而无法有效提取对象在图片中的姿态信息，进而对准确计算道路资产在空间中的位姿造成障碍。而语义分割算法对数据和场景的依赖较大，其模型的泛化迁移能力不足。

从市场需求来看，随着基础设施建设与维护要求质量的提高，客户对数字化建设的软件服务产生了比以前更高的需求。从技术发展趋势来看，随着人工智能技术的崛起，未来十年乃至更长的时间内，自动驾驶在全球范围内都会是一个技术热点。建设智慧公路和自动驾驶所需的高精地图有着紧密的联系，它是人工智能技术的一个主要应用场景，与它相关的产业链有着巨大的经济规模，资金和人才净流入的趋势在可预见的未来会持续。

视觉领域大模型技术的发展

随着ChatGPT，SAM (Segment Anything Model，即分割一切模型)等模型的出现，大模型技术以它接近甚至达到通用人工智能的性能，已经展现出了极大的应用潜力和广阔的发展前景。针对城市道路场景三维建模的任务，以SAM为代表的大模型在无须迁移的情况下，对场景的分割、理解能力展现了广阔的应用空间。

纵观视觉领域大模型技术的发展，从Alexander Kirillov等人发表的文章《Segment anything（细分一切）》开始，向人们第一次展现了经过海量无标注数据预训练大模型，可以不经过微调地在任意来源的图像数据上做分割任务，并达到理想的性能，这就是所谓的零样本泛化。到Yunhan Yang等人利用SAM模型来执行三维点云分割任务，展示了SAM模型与之前的监督学习点云分割模型相比，不需要训练或微调的巨大优势。而目前，由Bencheng Liao等人研究的，基于环视图像和激光点云数据自动提取道路元素矢量的模型，发展了多模态融合端到端实例分割的技术路线，并且输出了可供三维建模的矢量要素。关于大规模场景的三维重建，Konstantinos Rematas等人在《Urban Radiance Fields（城市辐射场）》一文中，重点阐述了发展NeRF的技术路线，借助深度神经网络，从纯图像或者图像和点云的融合数据中构建出逼真的三维模型。也因此，Holger Caesar等人研究的用于自动驾驶的多模态数据集，成为目前最有影响力的城市道路场景图像点云融合公开数据集。另外，希望借此也能为我们自己采集和处理数据的流程，树立权威的规范。与此同时，基于ChatGPT、Llama-2等大模型展示出的、能够更好融合多模态数据的能力，指导后续能够在上述工作的基础上实现更好的城市道路场景三维矢量建模。

多模态融合建模的关键所在

公路三维建模采集车

本项目中基于AI大模型的多模态融合建模采集车，如图1所示，系统采用雷视融合等多传感器融合的方案，主要硬件包括多线激光雷达、工业相机、组合惯导、DIM等传感器。

图1 基于AI大模型的多模态融合建模采集车

弱GNSS、大尺度SLAM

三维建模技术

同步定位与地图构建(SLAM)是自动驾驶汽车所用的一种技术，可以同步执行定位和环境建图。基于SLAM技术的多传感器融合三维建模方案系统架构如图2所示，通过多传感器数据的融合，最优估计三维重建装置的姿态，进而获得精确运行轨迹，实现三维重建，其SLAM过程由时钟软同步、点云畸变矫正、地面分割、点云特征提取、位姿估计、后端优化等部分构成。

图2 基于SLAM技术的多传感器融合三维建模方案系统架构

一是时钟软同步。高精度的硬件时钟同步方案为传感器提供了统一的时钟信息，然而传感器的频率、生成数据的时刻不同，不将传感器数据的时钟统一到同一时刻，即无法实现传感器融合。本方案采用线性差值的方案，将各个传感器数据的时钟都统一到同一个传感器数据的时刻上，实现数据软同步。

二是点云畸变矫正。激光雷达的扫描频率低，当采集车运动较快时，一帧点云数据往往会出现畸变；而组合惯导的里程计数据频率较高，因此可结合里程计信息对点云数据进行矫正。假设一帧点云开始的时间戳为t，结束时的时间戳为t+1，在这个周期内可找到每个激光点数据对应的里程计信息，根据此里程计信息可将激光点转换到时间戳t对应的坐标系下。

三是地面分割。三维激光雷达传感器捕捉到的三维点云中的大多数点都来自地面,地面点云可以为点云配准提供强约束，精确提取地面点云数据是三维建模精度的关键。本方案采用基于最先进的方法——地面检测分割（SOTA），实现激光雷达同时定位和建图。

四是点云特征提取。公路采集车运行环境比较复杂，提取特征明显的点云构建地图可提高位姿估计精度。因此可提取点云中比较明显的特征点云，如类似树干、路灯等线特征和类似墙面、标牌等面特征是点云配准的关键。本方案采用深度优先搜索的聚类算法提取特征点云，保证精度的同时提高计算效率。

五是位姿估计。基于SLAM技术的多传感器融合定位方案采用凸优化（Convex Optimization）的方法实现，凸优化在机器学习、深度学习等人工智能与大数据相关的方向都有举足轻重的作用。首先构建系统损失函数，包含位姿、速度、零偏等状态的残差，然后求解各状态的雅克比矩阵，再采用高斯牛顿方法求解该优化问题。

六是后端优化。基于SLAM的三维重建后端优化方法采用因子图（factor graphs）和贝叶斯网络（Bayes networks）的方式最大化后验概率优化算法。选取位置误差、姿态误差、速度误差、加速度计漂移及陀螺随机常值漂移作为系统变量，使用帧间里程计因子、IMU预积分因子、RTK因子、闭环因子为约束因子，将三维重建问题转化为最大后验概率的优化问题，构建优化方程，实现后端优化。

基于雷视融合的

动态物体剔除

考虑到实际的采集过程中既有点云数据，又有图像数据，最终需要在两种类型的数据中都识别出来。同时利用深度学习在图像识别方面的优势，本项目用语义分割的方式对图像中的行人和车辆进行识别，得到物体在图像中的像素级的Mask和Bounding Box。同时计算当前帧雷达的位姿，将雷达数据变换到相机坐标系下，根据图像中的目标物体的Bounding Box，获得含有目标点云的视锥体空间。然后将缩小目标区域的点云送到深度学习网络中进行目标点云的精确分割和识别，同时兼顾速度和准确度，最终可以同时得到去除动态物体的点云和图像。

基于AI大模型的三维重建

AI大模型，例如SAM可以准确地检测、分类和分割二维图像中的物体，然后通过分析从多个视角拍摄的图像，来重建这些物体的三维模型。相关的技术要点有图像或视频的实例分割、深度估计、物体姿势估计、点云分割、降噪、特征提取等。利用预训练时赋予大模型的知识，大模型可以表现出很强的泛化能力和一定的通用智能。它们对来自多模态传感器的数据的理解能力能帮助多模态数据融合，从多视图甚至单视图数据中重建出逼真的三维模型。更进一步，大模型可以读取并理解人输入的文本信息，来对生成的三维模型做微调。

实验效果

基于雷视融合的SLAM三维点云效果和基于AI大模型的三维重建效果展示如图。

图3 基于雷视融合的SLAM三维点云效果

图4 基于AI大模型的三维重建效果

人工智能中的大模型技术应用在多模态融合三维建模中，既有潜在的好处，但同时也面临多种挑战。基于智慧公路建设的项目背景和研究问题，明确项目实施的关键意义，并通过深入了解大模型技术的概念，从大量预训练数据中学到充足的知识，来帮助人们挖掘更多使用多模态数据进行三维建模的潜力。不难看出，将大模型技术应用于城市道路场景的多模态建模，可以通过融合多传感器数据理解道路场景，并运用模型通过预训练得到的知识，使模型表现出接近通用人工智能的优良泛化性能。

可以说，人工智能中的大模型技术，在智慧公路建设中有着巨大的应用潜力，它们对视觉和语言的理解能力，对多模态数据的整合能力和零样本泛化能力，使它们有潜力在零样本图像、点云分割模型、神经辐射场、多模态融合提取三维矢量等工作的基础上，实现城市道路场景下逼真的三维建模。