硕士论文

Oct 30, 2024

硕士论文

选题报告内容应包括选题背景及意义、文献综述、研究内容、研究方案与技术路线、预期的成果及可能的创新点、进度计划等。

通信受限环境下多智能体协同感知方法研究

keywords:协作感知多智能体受限带宽/高效通信鲁棒/噪声环境

主要研究

对复杂环境的准确感知对于保证智能体的可靠性和安全性至关重要. 随着深度学习技术的发展,感知的可靠性得到了显著的提高,三维目标检测算法在激光雷达点云或多传感器数据上都取得了优异的性能. 然而传统的单个智能体感知方式由于视角单一,存在诸多局限性,比如容易受到遮挡的影响以及探测范围有限等问题。

多智能体协作感知是车联网通信领域的一项新兴应用，它通过让多个智能体之间共享互补信息来实现更加精确的环境感知。这种协作方式能够有效克服单一视角带来的限制，提高整体系统的感知能力和准确性。尽管最近取得了一些进展,但仍然存在一些挑战，包括受限的通信带宽,GPS定位错误,信息聚合效率低下等,在实现高效通信以及鲁棒协作感知方面仍有相当大的进步空间.

本研究利用激光点云数据集,探讨在受限带宽下多智能体在有位置噪声时的协作感知性能.

在协同感知中,通信量和感知性能间存在一个权衡,根据多智能体间传输的数据类型可以分为早、中以及晚期融合.

中期融合由于能够在感知性能和通信量间维持好的平衡而受到广泛研究, 减少中期融合通信开销的主要方法可以分为特征压缩和特征空间滤波,前者假设智能体无差别地共享所有的空间区域,后者利用置信图来突出物体位置从而获得有价值的前景信息. 本研究利用中间特征通过空间滤波与最小化信息损失减小通信量同时保持检测精度从而实现高效通信。

多车通过协作提升感知性能的重要原因是有了不同角度下提供的互补信息,如何对这些信息进行高效融合是实现鲁棒感知的基础. 同时,路边的基础设施也是自动驾驶的关键协作者,但它的安装高度和检测的点云分布会引入不一致的特征分区,给特征融合带来困难. 本研究通过使用transformer模型变体考虑智能体异构型对特征进行融合.

此外，复杂的动态环境导致难以避免的定位误差,从而导致不准确的相对变换估计和空间特征错位。这种相对姿态噪声会产生误导性特征，对协同感知的有效性产生不利影响。本研究考虑在有噪声以及真实环境数据上通过减小特征错位提升协作感知的鲁棒性。

研究生学位论文选题报告

对复杂环境的准确感知是确保智能体可靠性和安全性的关键。得益于神经网络技术及硬件计算能力的进展，目标检测、语义分割等任务的感知准确性已显著提升。高效的感知能力是支持自动驾驶、无人机搜救等多种实际应用的基础。尤其是随着车辆数量的快速增长，交通系统在安全性和灵活性方面的需求日益增加，提高感知的鲁棒性对于突破智能驾驶的效率和自动化水平的瓶颈至关重要。

然而在感知领域仍面临不少挑战。单个智能体难以达到高级别自动驾驶所需的精准感知标准，存在若干难以克服的局限和挑战。例如，其他车辆或障碍物的遮挡限制了智能体的视线范围，使其只能获取局部环境信息；同时，单个智能体在远距离物体的感知上也存在明显不足，这限制了其对周边环境进行全面理解的能力，进而影响到智能体的可靠性和安全性。

近年来，车与车通信（Vehicles to Vehicles,V2V）及车联万物（Vehicles to Everything,V2X）通信在无人机协同规划、仓储物流等多个领域迅速发展。这些技术通过促进车辆之间的信息交流，不仅提高了交通效率，还增强了安全性。特别是协作感知技术，因其能够补充单个智能体的感知局限，提供更为全面的环境理解，而逐渐成为学术研究的热点。通过共享传感器数据，多个智能体可以共同构建一个更加完整、准确的周围环境模型，这对于提升自动驾驶的安全性和可靠性具有重要意义。

协作感知是一个多智能体系统，通过利用V2V或V2X通信技术，不同的互联自动驾驶汽车（CAV）可以共享其感知信息，从而为同一目标物体提供多个视点以相互补偿。在个体感知场景中，自我智能体（ego agent）由于遮挡和远处区域的稀疏点云，只能检测到附近物体的一部分。而在协作感知场景中，考虑场景中的N个智能体，每个智能体都具备感知、通信和检测的能力。通过分布式的相互协作，目标是使每个智能体都能获得更好的3D检测能力。自我智能体通过接收其他智能体的信息，可以扩大视野，不仅能够检测远距离和被遮挡的物体，还能提高密集区域的检测精度。

在多智能体协同研究的早期阶段，一些工作集中在构建协同感知系统以评估该技术的可行性。例如，Multivehicle Cooperative Driving Using Cooperative Perception: Design and Experimental Validation 设计了一种多模态的协同感知系统，能够为驾驶员提供全方位的视图，从而提升交通安全。A Cooperative Vehicle-Infrastructure Based Urban Driving Environment Perception Method Using a D-S Theory-Based Credibility Map 提出了一种基于车辆与基础设施合作的驾驶环境信息采集模式，并利用基于D-S理论的可信度图来融合感知信息，提高了系统的可靠性和准确性。

然而，由于缺乏大型的公共数据集，协作感知一直没有得到有效的发展。虽然目前已有很多成熟的自动驾驶数据集，如KITTI 、nu Scenes、Waymo 等，但这些数据集中侧重个体感知，无法满足协同感知的需求。随着深度学习的发展和大规模协作感知数据集的公开发布,协作感知从传统的构建系统进行放真到基于深度学习的特征处理方式,模型的有效性得到进一步证明并吸引了更多的研究。具体来说,OPV2V: An Open Benchmark Dataset and Fusion Pipeline for Perception with Vehicle-to-Vehicle Communication提出了第一个用于车辆感知的大规模模拟数据集, 使用CARLA作为模拟器来收集数据并集成OpenCDA和SUMO提供V2V通信与协同驾驶功能构建了包含70多个场景和11464帧激光雷达数据，并提出注意力中间融合方法来融合多个车辆的信息，这为基于深度学习的协作感知系统发展奠定了基础。V2X-ViT: Vehicle-to-Everything Cooperative Perception with Vision Transformer中收集了一个新的大规模数据集,这个数据集考虑了异构的路边基础设施,在高处位置配备传感器的基础设施具有更广阔的视野和潜在的更少的遮挡,所以能提供更好的感知辅助。此外V2V4Real提出了第一个用于V2V感知的大规模真实世界多模态数据集,弥补了真实环境数据缺乏的问题。基于这些有效的协同感知数据集，研究者们更加深入地探索和验证了不同的协作感知算法并为实际应用打下了坚实基础。

协同感知解决方案都有一个共同的核心思想，即多个智能体共同对环境提供一个整体的观察。然而在引入多智能体通信后，实时的高通信消耗成为了无线通信难以承受的问题，因此必须解决性能与带宽之间的权衡。为了应对这一挑战，研究者们正在探索多种解决方案，如优化数据传输协议、采用高效的数据压缩技术等，以期在降低通信成本的同时，保证高精度的多智能体协作感知。按照传输数据的类型,可以将协同感知方法分为三类，早期协作，中间协作以及晚期协作。早期协作通过与通信范围内其他智能体共享原始数据，比如点云或者图片，自我智能体会根据聚合得到的数据进行预测，这类方法会保留完备的传感器测量所得，但需要高额的带宽因此难以实时操作。相对的，晚期协作为自我智能体传递检测结果，比如碰撞盒的坐标和类别，自我智能体通过非极大值抑制等方法对齐共享的检测结果，这类方法能极大减小通信量，但却高度依赖车联网中每个智能体的检测性能。而中期协作在中间特征空间中进行协作，它将传输每个个体模型产生的中间特征给自我智能体，后者对特征进行融合并输入给检测头网络得到最终结果。由于中期融合能够最好地维持感知精度与通信带宽的平衡从而受到广泛关注。在这个环节中，对中间特征如何进行选择与传递至关重要。

最初，使用中间协作的方法遵循贪婪的通信机制，在智能体间传递高纬度的中间特征，尽可能获得更多的数据，这也会极大地浪费带宽。比如Adaptive Feature Fusion for Cooperative Perception using LiDAR Point Clouds提出了空间自适应特征融合，将3D CNN和自适应特征融合用于协同感知。为了填补这一空白，一些研究建立了动态通信机制，通过动态计算智能体的需求以确定传递时机和传递对象，比如Who2com: Collaborative Perception via Learnable Handshake Communication提出一种多级握手通信机制并利用深度学习解决通信带宽限制问题。when2com中提出一个通信框架,通过学习信息接收者和发送者来构建沟通组,并决定何时进行通信。

另外有许多研究专注中间协作中的特征选择与压缩方法。具体来说Learning distilled collaboration graph for multi-agent perception采用教师-学生模型通过蒸馏地方式减少模型权重并减小中间特征图通道数。where2comm中首次利用一种反应感知信息空间异质性的置信图来选择关键感知信息，这使得可以动态调整参与通信的空间区域来处理变化的通信带宽，FPV-RCNN采用一个检测头来生成候选框，并且只选择候选框中的特征点，通过特征点的补充信息减少了传递特征的冗余。上述的工作表明，一个良好设计通信机制能够在保持相当的感知能力下极大地减小通信量，提升协作效率与实时性。

尽管这些工作通过信息过滤减少了通信量，但缺少一种无监督损失函数为模型训练提供指导。减少通信量的同时需要确保信息重建后的有效性。一些工作考虑了特征压缩并重建后的信息损失，比如CRCNet中利用对比学习增强信息增益并通过最小化融合特征对之间的互信息冗余，这通过自监督学习了互补性的特征。

在接收到其他智能体传输的特征后，自我智能体可以利用不同的策略来聚合特征。特征融合模块在中间协作中至关重要。可以将现有的特征融合方法分为传统的、基于图的和基于注意力的融合。传统融合方法往往简单地将来自多个智能体的特征线性求和、串联或者求最大值等。这类方法忽略了不同智能体间潜在的关系以及特征在空间和通道上的重要性，优点是简单计算量小。

图神经网络( Graph NNs，GNNs )具有传播和聚合邻居消息的能力，最近的工作表明了GNNs在感知和自动驾驶方面的有效性。V2VNet中首次使用空间感知的GNN对智能体间特征进行建模，在特征融合阶段，采用平均操作聚合特征，并使用卷积门控循环单元更新节点状态。GNN（Graph Neural Networks，图神经网络）的固有特性使其非常适合对智能体间的关系进行建模。GNN 能够捕捉节点（即智能体）之间的复杂交互关系，通过消息传递机制在图结构上进行信息聚合，从而有效地表示和处理多智能体系统中的协作问题。但GNN的训练容易出现过拟合和长距离依赖等问题。

除了图学习，注意力机制已经成为探索特征关系的强大方法，目前在协作感知的融合阶段使用广泛，它的核心思想是让模型在处理信息时能够集中关注最相关或最重要的部分。注意力机制可以根据数据域分类为通道注意力、空间注意力以及通道和空间注意力。OPV2V提出了AttFusion，并首先在精确的空间位置使用自注意力操作。其引入了单头自注意力融合模块，与传统方法和基于图的方法相比，在性能和推理速度之间取得了平衡。除了使用注意力的方法，也有在Transformer的一些变形上处理特征融合的方法，Transformer 首先被提出用于机器翻译，其中堆叠了多头自注意力和前馈层，以捕获单词之间的长距离交互。Dosovitskiy et al . 通过将图像块视为视觉单词并直接应用自注意力机制，提出了一种用于图像识别的视觉转换器( ViT )用于处理图像等二维数据。比如，COOPERNAUT使用基于自注意力的Point Transformer允许所有点云间交互来聚合特征。CoBEVT设计了一个融合的轴向注意力模块，执行稀疏的全局交互和局部窗口注意力提升融合性能。而在异构感知器上，HM-ViT设计了用于多模态数据协同感知框架，能够提取智能体间和智能体内部的异构交互关系。上面的工作表明，在协同感知中使用注意力机制或Transformer模块变体从不同尺度上聚合来自不同智能体的特征，并考虑空间和智能体维度上的异质性，能有效提升协同感知精度。

协同感知需要融合来自不同地点和不同时间的车辆和基础设施的数据，因此实现准确的数据对齐对于成功的协作具有重要意义。然而，现实世界中的GPS定位噪声和智能体的异步传感器测量会引入定位误差，导致聚合过程中的数据错位，并显著降低协同感知的性能。例如，V2VNet表明协作感知输出结果非常容易受到姿态噪声的影响。许多方法试图设计鲁棒的网络来校正误差影响。第一类方法主要涉及提出鲁棒的网络架构和引入特定模块来学习姿态的影响，如V2VNet、MASH、V2X-ViT和FeaCo 。然而，这些方法需要额外的位姿监督信号。第二类是利用粗略的观测值作为先验知识来调整物体的姿态。比如CoAlign中提出了一种智能体-物体位姿图建模和优化方法，通过促进相对位姿的一致性来校正多个智能体之间的相对位姿。

此外，在常见的多智能体协作场景中，比如自动驾驶中，基础设施和智能车的传感器测量值具有差异较大的特征。基础设施的LiDAR往往安装在较高的位置，遮挡较少，视角不一。此外，由于维护频率、硬件质量等原因，传感器可能存在不同程度的传感器噪声。在V2X-ViT中基于Transformer设计了应对V2X中车辆和基础设施异构型差异的的融合模块，可以构建智能体间的异构图并基于节点与边类型学习异构智能体间不同关系。这说明在融合模块中考虑来自不同类型的智能体的特征之间的异构交互有助于提升协同感知性能。

本研究专注多智能体协同在有限的通信带宽下的感知性能，其中协同感知在特征融合阶段遇到的挑战包括GPS定位误差、特征聚合效率低等。研究基于深度学习的中间协作方式，使用激光雷达点云作为数据集并将3D目标检测作为任务，使用仿真数据集OPV2V，车-基础设施协同数据集V2XSet与真实环境数据集V2V4Real共三个数据集，并使用平均精度(Average Precision,AP)在IOU=0.5和0.7时的值作为评价指标。本研究将设计一种多智能体协同感知框架，将整个过程分为信息交换与特征处理，特征压缩与通信，特征融合与检测五个阶段，其中侧重于特征压缩与通信和特征融合两个阶段，可以将它们视为无监督特征表征与过滤选择和不同视点特征的对齐融合两个任务。相比于目前的相关工作，本研究预期将在更小通信量的情况下保持相当的检测精度，同时在模拟的仿真数据、存在位姿错误的数据、存在异构智能体的数据以及真实环境数据集下进行协同检测，将添加不同级别的位姿噪声测试模块的鲁棒性。在通信阶段，考虑通过使用基于码点的压缩方式，并基于互信息的损失函数监督特征重建，在特征融合阶段，使用基于transformer的方式，在多尺度下关注智能体类型、特征空间上的重要性，预期在实验的三个数据集上检测精度能保持以及优于目前的相关工作。

研究进度计划如下，2024.11.15—2024.12.25 阅读相关文献并总结协同感知背景与遇到的重要问题

2024.12.25—2025.1.5 复现相关工作代码，并关注代码中重要的模块

2025.1.20—2025.2.10 根据综述将协同感知工作分为几个重要部分，并针对不同部分设计相应模块

2025.2.25—2025.3.10 实现其中一个模块相应代码

2025.3.15—2025.3.20 做实验测试模块有效性

2025.4.1—2025.4.20 不断调试模块参数重复实验并撰写论文研究背景与相关工作

2025.5.1—2025.5.15 继续补充论文相关工作

2025.6.10—2025.8.10 针对前期总结的重要模块进行改进提升感知精度

2025.8.15—2025.9.10 撰写论文方法部分，期间画模型图

2025.9.20—2025.10.20 撰写论文结果与图表部分

2025.11.1—2025.11.25 整理论文并修改可能的文字错误