论文Idea

Jan 7, 2024

论文Idea

平时写论文的时候有些想法把这些记录下来. 学习Pytorh和深度学习资料.目前找到的比较好的

ZeroToMastery的pytorch学习资料,有对应的题和答案,质量不错.
李宏毅的深度学习课程(建议至少从2021年的看),也有每章对应作业.
微软的深度学习以及生成式人工智能课程,高质量,前沿.
fast.ai的课程Practical Deep Learning for Coders - Practical Deep Learning (fast.ai).内容比较多,关于diffusion models介绍也多.
还有Deep Leaning上吴恩达的一些short course,比较实用和前沿(比如Gradio和wandb).

现在生成式人工智能课程内容比较多,llm的内容也比较多,但大多数人没那个训练资源,成本不小.

OPV2V

范围感知CNN,损失函数更改,多尺度attention fusion.

现实世界存在的问题:1)单车目标检测存在的检测问题

2)通信时周围车定位问题

3)通信时带宽问题

三个主要问题通信延迟,数据传输可靠性,定位错误

通过特殊模块(或称为辅助模块)处理通信和点云(特征)互补信息提升可靠性.模块轻量,传递的特征数据少(使用注意力机制).

低延迟和高可靠性是V2V通信面临的两个常见挑战。例如，在碰撞前感知场景中，最大延迟仅为 20 ms，数据传输可靠性必须大于 99%

发射机和接收机之间的障碍物（车辆、建筑物等）会导致信号功率波动，从而造成丢包.

通过特殊模块(或称为辅助模块)处理通信和点云(特征),利用互补信息提升可靠性.融合模块轻量,传递的特征数据少(使用注意力机制).
强调在真实环境(存在延迟或通信错误情况下)
提出特征融合模块?
传递的特征根据与ego车辆的距离加权(注意力)?

根据周围车距离进行注意力特征加权,提出去噪模块(optional)作为通信过程中对数据产生的可能噪声的移除.

multiscale range-aware attention

利用较新又好用的attention或者transformer机制进行融合

调研swin-transformer

cnn-transformer?

理想达到的效果,在真实环境(或符合真实环境)下表现优于其他模型(数据集OPV2V,V2V4REAL,V2XSet)

agent置信度?agent confidence?

Range-aware配合单车 localization error减小下提升协同感知能力.

new: Target-aware fuse,设置融合函数更新融合模块权重

点云需要使用对近处和远处物体有不同探测能力的检测网络 centerpoint raanet

自动驾驶

目标检测感知

协同感知

motivation

单车occlusion,limited field-of-view

利用车对车技术(或车对infra) 多辆cav同时通信并共享捕获到的传感器信息

使用多头

2.26

对于多智能体的范围感知的协同融合方法

使用了位置编码, 结合局部注意力和全局注意力促进特征融合,提升协同感知能力.

局部注意力使用空间信息以及位置信息编码

全局注意力通道,代理维度上的信息聚集

在融合之前使用一个类似去噪增强的模块,方法类似(CoBEVT,CVT等) 尝试使用轻量类似transformer模块提升性能

消融实验

噪声下 wild_setting

三个关键问题解决pose error(robust to localization error),通信机制,特征融合部分.

局部部分融合coordinate与raan

车之间加一个confidence或者加一个ego的权重

融合车内和车间

通信部分加个损失函数改进通信图的生成?

结果

我们在理想环境下在三个数据集上进行3D点云目标检测结果进行比较.其中,未进行协作融合作为基线表示只使用一个代理的观察,还包括使用最少数据的晚期融合和使用原始传感器数据的早期融合.为了综合的评价,我们选取了SOTA的方法在多个数据集上实验.在理想环境下,我们的方法超过了早期融合的检测结果,也展现了对之前SOTA方法的优越性.具体来说,AP@50/70在OPV2V的测试集上提升了1.5%/1.5%.相比于其他方法,CoRange利用简单的思想和方法得到了更大的检测性能改进.

Robust to pose error

loc_err/head_err	AP@0.5	AP@0.7
0/0(ideal scene)	0.920	0.865
0.1/0	0.916	0.848
0.2/0	0.913	0.804
0.3/0	0.9	0.704
0.4/0	0.89	055
0.5/0	0.86	0.416
0/0.1	0.919	0.860
0/0.2	0.92	0.842
0/0.3	0.917	0.8125
0/0.4	0.911	0.772
0/0.5	0.90	0.729
0.2/0.2	0.91	0.77
0.4/0.4	0.846	0.50

选一些方法(最多)在三个数据集上做实验(理想环境下) 0.5/0.7
再选择一些方法(选一些比较robust的)在三个数据集上做个0.2/0.2的噪声环境下实验,并比较不同噪声等级下的变化(loc/heading)
结果可视化, 多个数据集下与其他方法对比即可注意力可视化?
在三个数据集下不同部分消融实验.在default city ,culver,V2XSet上测试即可
再选择几个方法三个数据集不同通信量结果比较(如何改变通信量)

目前问题缺少在V2XSet上实验数据,包括自己的模型和其他的模型.

在Opencood上也缺少部分其他方法的结果

Communication Volume

compression ratio

Ablation Study

各个组件

一些超参数设置

一些组件中的方法

Robust to pose error

暂不考虑time delay

Communication Mechanism

具体来说,对于多代理通信机制,使用范围信息监督ego代理关注范围内更近的物体,其他代理关注范围内更远的物体,因为在近处包含的点云数量要比远处多很多,ego代理需要环境内更远的信息.在选择哪些特征进行传递时,通过调整后的ego特征构造的请求图生成通信矩阵,根据通信矩阵选择传递的特征以减少冗余特征并提供互补信息

Feature Enhance(local and agent-wise attention enhance)

提出一个局部和代理间的注意力增强模块.针对特征表达力不足的问题,结合范围感知的卷积模型,局部注意力模块对于特征图上不同位置的赋予不同的权重,对于跨代理的交互,在代理间通道和空间汇集信息,同时增加相对距离编码信息捕获距离感知的语义信息.通过这个特征增强阶段同时得到了不同层次的特征有助于后续融合

针对特征融合时不全面的问题,忽视范围信息的问题,我们使用局部和代理间模块生成不同颗粒度的特征用于灵活的调整不同代理以及不同空间的特征,同时考虑了特征在不同空间位置以及不同距离的代理的权重

Feature fusion

为了融合不同颗粒度的特征,结合不同特征对于最终输出的不同贡献,我们使用适应性层次融合模块调整局部和跨代理特征结合多样的表征以得到有效的融合结果.

contributions

我们提出了CoRange,基于范围感知的多代理协作感知框架.这个框架在通信机制和特征增强以及融合上与其他方法有独特的差异并取得了在带宽和检测性能上合理的平衡,并在大量的实验上表明了它比之前的SOTA模型的的竞争性.

摘要

用点云进行3D目标检测在自动驾驶领域应用广泛,它通过输出目标物体的碰撞框进行感知。自动驾驶汽车的现代感知系统对遮挡物非常敏感，而且缺乏远距离感知能力。通过车辆协同感知能使CAV与场景中其他汽车进行数据通信(共享信息)并进行特征融合,使得被遮挡的点云通过其他CAV被车辆感知到，与单个智能体相比,大大提升自动驾驶的可靠性和安全性.

现有的自动驾驶系统大多基于单车的有限检测,受到稀疏，受遮挡点云的影响较大

协作感知的精确度主要受到两方面的影响,一个是单车localization error,另一方面是进行特征融合时的策略,有效的特征融合模型能改进特征选择和信息聚合从而提高感知可靠性。

我们提出了基于范围感知注意力特征融合模块,包括对于单车进行目标检测时的范围感知以及与场景中其他车辆进行特征融合时的注意力模块,范围感知注意力能改善对于远近物体的特征提取，而特征融合模块综合利用了单车局部信息和场景内通信车的特征。

(除噪模块)

在数据集OPV2V和V2XSet以及V2V4上进行实验,验证了性能。

介绍

使用LiDAR点云的3D目标检测目前取得了长足发展,然而受制于LiDAR点云的一些缺点:离激光雷达的点云非常稀疏,在真实世界中周围物体容易受到遮挡导致几乎没有点云生成,也因此单智能体的感知能力有限

由于深度学习的发展,神经网络能够高效处理大量数据.点云数据能提供通常图像数据不具备的深度信息.准确的目标检测是实现自动驾驶的重要基础(The precise perception system, such as 3D object detection, forms the fundamental foundation for subsequent motion planning and control in intelligent vehicles. This underscores the significant influence it holds over the safety of driving in intelligent vehicles.),但由于距离较远的点云数据更加稀疏,导致感知到较远距离下的物体更难,此外,在现实复杂的环境下会频繁出现周围物体遮挡的情况导致检测准确度下降

利用车队车或车与infras协同感知使得ego车辆与一定通信范围的CAV共享信息,通过互相传递信息并在车上进一步处理，最后在ego车辆上输出感知结果碰撞框.根据共享数据的时间以及类型,可以将协同感知大致分为三种类型:1)早期融合:互相通信的车辆之间传递传感器的原始数据,在ego车辆上聚集信息并进行处理感知,2)中期融合:各个CAV处理自身捕获到的点云数据得到特征图并共享给ego车辆.3)后期融合:各辆CAV输出对周围环境的目标检测结果并共享给ego车辆进行最后碰撞框的调整.另外也有研究结合了不同阶段的融合从而更加充分地利用获取地传感器数据.

最近的最新研究[10]、[15]表明，中间融合是检测精度和带宽要求之间的最佳权衡。本文也关注 V2V 协同感知通信过程中的中间融合。Learning for Vehicle-to-Vehicle Cooperative Perception under Lossy Communication

随着这一领域的逐渐发展,一些模拟以及来自真实世界的数据集因此产生。

参考一些论文的abs和intro

Learning for Vehicle-to-Vehicle Cooperative Perception under Lossy Communication

abs

Deep learning has been widely used in intelligent vehicle driving perception systems, such as 3D object detection.

深度学习广泛应用于智能车辆驾驶感知系统,比如3D 目标检测.

One promising technique is Cooperative Perception, which leverages Vehicle-to-Vehicle (V2V) communication to share deep learning-based features among vehicles.

协作感知技术是有前景的技术,利用了车队车通信在车间之间共享基于深度学习得到的特征

However, most cooperative perception algorithms assume ideal communication and do not consider the impact of Lossy Communication (LC), which is very common in the real world, on feature sharing. In this paper, we explore the effects of LC on Cooperative Perception and propose a novel approach to mitigate these effects.

然而大多数协同感知算法假设通信是理想的,没有考虑过现实环境的有损通信对于特征共享的影响.本文探讨了有损通信对合作感知的影响,提出了LC-感知修复模块和具有车内注意力和不确定性感知的车间注意模块.

Our approach includes an LC-aware Repair Network (LCRN) and a V2V Attention Module (V2VAM) with intra-vehicle attention and uncertainty-aware inter-vehicle attention.

我们利用公共OPV2V数据集证明了方法的有效性.我们的结果表明方法改善了协同感知的准确性

We demonstrate the effectiveness of our approach on the public OPV2V dataset (a digital-twin simulated dataset) using point cloud-based 3D object detection. Our results show that our approach improves detection performance under lossy V2V communication.

特别地,我们提出的方法在ap上相比现有SOTA实现了显著的提升,证明了我们提出方法的能力,能够有效提升单车基于点云的目标检测结果同时增强与其他CAV之间的interaction,弥补了特征(互补了特征?)。

Specifically, our proposed method achieves a significant improvement in Average Precision compared to the state-of-the-art cooperative perception algorithms, which proves the capability of our approach to effectively mitigate the negative impact of LC and enhance the interaction between the ego vehicle and other vehicles. The code is available at: https://github.com/jinlong17/V2VLC.

intro

在复杂的真实世界中如何准确感知周围物体对于现代智能车的研究十分重要.准确感知系统比如3D目标检测是下一代运动规划的控制的基础,这对智能车辆的驾驶安全影响巨大.

HOW to perceive the surrounding objects precisely in complex real-world scenarios is critical for modern intelligent vehicle research. The accurate perception system (e.g., 3D object detection) is the fundamental base for the next motion planning and control of the intelligent vehicles, which implies tremendous impacts on the driving safety of intelligent vehicles

由于目前单个智能车辆的感知能力有限,CAV的协同感知引起了研究界和工业界的广泛关注,与单个智能车辆的感知相比,现有研究表明协同感知能显著提升感知性能.

Because of the perception limitation of the current individual intelligent vehicle [7]–[9], the cooperative perception of Connected Automated Vehicles (CAV) recently attracted much attention in this research community.

Compared to the perception of individual intelligent vehicles, recent studies [10]–[12] show that cooperative perception of CAV can significantly improve the perception performance by leveraging Vehicleto-Vehicle (V2V) communication technology for information sharing

在V2V之间共享信息是协同感知的重要一项技术,可用于在复杂交通环境中观察到更大范围和被遮挡的汽车、行人等。有三种在V2V中共享信息的方式:1)早期融合共享原始传感器数据 2)中期融合共享基于深度学习网络输出的中间特征 3) 晚期融合共享检测结果. 最近的研究表明中期融合能表现出良好的检测准确度,同时带宽占用保持在合理范围。这篇文章主要关注V2V通信过程的中期特征融合

Information sharing through V2V communication is an important technology for CAV cooperative perception, which is utilized to observe a wider range and perceive more occluded objects in the complex traffic environment [13], [14]. There are three ways for information sharing during V2V communication:(1) sharing raw sensor data as early fusion, (2) sharing intermediate features of the deep learning based detection networks as intermediate fusion, (3) sharing detection results as late fusion. Recent state-of-the-art studies [10], [15] show that intermediate fusion is the best trade-off between detection accuracy and bandwidth requirement.

针对V2V协同感知提出了许多融合方法,然而它们都假设是理想环境. 有研究协同感知只考虑通信延迟的,

在城市交通场景中,V2V通信容易受到一系列因素而导致有损通信.迄今为止，还没有任何研究探讨了有损通信（LC）对复杂真实世界驾驶环境中 V2V 协同感知的影响。在城市交通场景中，V2V 通信很容易受到一系列因素的影响而导致有损通信，例如障碍物（如建筑物和车辆）的多路径效应[17]、快速行驶的车辆带来的多普勒频移[18]、其他通信网络产生的干扰。

有损通信导致的共享中间特征不完整或不准确会影响 V2V 协同感知的效果和效率。如果不能解决合作感知中的低电平问题，就会导致感知性能下降、碰撞风险增加和交通效率降低。

这篇文章首先研究了有损通信的负面影响,然后提出了一种新型的LC感知特征融合方法来解决这个问题.具体来说,提出的方法包括LCRN来恢复由于有损通信分享的共享的特征以及一个专门设计的V2V注意力模块,加强ego vehicle与其他车辆之间的关联.

V2VM包括ego vehicle的车内注意力,车间的不确定性感知attention.本文在基于合作感知的数据集进行验证.本文贡献总结如下:

我们首次提出了在有损通信下的V2V协同感知(基于点云的3D目标检测),主要关注检测性能.

这篇文章提出新兴的中间LC感知特征融合方法来减少有损通信下的副作用,通过LC感知修复网络并通过专门设计的V2V注意力模块平衡ego vehicle和其他vehicle的关联.

我们在公共的协同感知数据集上评价了提出的的方法.

文章剩下的组织如下,第二节简要回顾了与本研究相关的文献，第三节详细介绍了所提出的有损通信下的 V2V 协同感知方法，第四节提供了两种场景下的实验和分析：第五部分给出了最终结论。

This paper first studies the negative effect of lossy communication in the V2V cooperative perception and then proposes a novel intermediate LC-aware feature fusion method to address the issue. Specifically, the proposed method includes an LC-aware Repair Network (LCRN) to recover the incomplete shared features by lossy communication and a specially designed V2V Attention Module (V2VAM) to enhance the interaction between the ego vehicle and other vehicles. The V2VAM includes the intra-vehicle attention of ego vehicle and uncertainty-aware inter-vehicle attention. It is challenging to collect the authentic CAV perception data with lossy communication in real-world driving, and considering the advantage of the digital twin in many application [21][26], this paper evaluates the proposed method in a digital-twin CARLA simulator [16] based public cooperative perception dataset OPV2V [10]. The contributions of this paper are summarized as follows.

Adaptive Feature Fusion for Cooperative Perception using LiDAR Point Clouds

abs

合作感知使得网联车(CAV)与其他周围的其他CAV进行交互以增强对周围物体的感知从而提高自动驾驶的安全性和可靠性. 这可以弥补传统安东尼车感知的局限性,比如盲点、低分辨率和天气影响. 合作感知中间融合方法的有效特征融合模型剋改进特征选择和信息聚合,进一步提高感知精度.

我们提出了具有可训练特征选择模块的自适应特征融合模块,其中我们提出的spatial-wise 自适应特征融合比其他OSTA在OPV2V上表现更好,

此外,以往研究只测试了车辆探测的合作感知,然而行人在交通事故中受重伤的可能性更大,使用了CODD数据集评估了合作感知在车辆和行人检测方面的性能,在CODD数据集上我们家狗比其他SOTA模型实现更高的AP,实验表明与传统的单一车辆感知过程相比,合作感知也提高了行人检测的准确性.

Introduction

近年来，利用激光雷达传感器进行三维物体探测在自动驾驶汽车（AV）中变得越来越重要[5, 10, 20, 28, 31]，因为它可以提供更多有关感兴趣物体的空间信息，包括其位置、大小和方向。

激光雷达可以生成包含精确深度信息的点云数据，受外部光照条件的影响较小。但是，远离激光雷达的点云非常稀疏，这就增加了探测更远物体的难度。

被遮挡的物体会生成更少的点云,对于更小物体增加了检测难度.

合作感知使得网联车和路侧装置能够在通信范围内使用车载通信系统共享感知信息.感知信息可包括GPS和各种传感器数据,包括雷达和就摄像头和激光雷达数据,协同感知有助于弥补当前视觉感知技术的局限,比如有限的分辨率,天气影响和盲点等.

根据 CAV 之间共享的数据类型，现有文献中发现了三种数据融合方法：1) 早期融合[4] 聚合来自其他 CAV 的原始输入传感器数据；2) 中间融合[3, 16, 22, 27] 聚合来自其他 CAV 的经过处理的特征图；3) 晚期融合[9, 30] 聚合来自其他 CAV 的物体检测预测输出。最近的研究一再证明，**与早期和晚期融合方法相比，中间特征融合是最有效的融合方法。我们假设，通过实施有效的特征选择和融合模块，降低计算成本，可以进一步改进中间融合方法，以实现实时感知和更高的精度。**我们假设，通过实施有效的特征选择和融合模块，降低计算成本，可以进一步改进中间融合方法，以实现实时感知和更高的准确性。

V2V通信使得车辆之间能投通过有低带宽和受限的通信范围的无线网络进行通信,因此,高效的特征提取和数据传播以及数据融合对于协同感知是必不可少的.

由于Point_Pillar骨干网络结构相对简单,其将点云处理为二维的pillar并且检测精度相对较高,因此适用于点云编码,采用二维卷积CNN的特征提取模块进一步从编码点云中提取特征,由于对网络模型的准确性和效率都有考量,基于此,提出了几种带有可训练的神经网络的特征融合模型,自适应地从CAV中选择特征.

贡献:这个工作地贡献如下:1)我们使用了一个轻量的中间融合协同感知架构;2)我们将 3D CNN 和自适应特征融合用于协同感知，并提出了三种可训练的协同感知特征融合模型

3)在公开数据集上验证了提出方法的性能还使用CODD数据集处理车和人的识别任务.

4)使用不同CAVs数量观察对协同感知的影响.

在 OPV2V Default CARLA Towns 的车辆检测任务和 OPV2V Culver City 的领域适应任务中，我们的 S-AdaFusion 模型优于所有现有模型。我们还在 CODD 数据集的车辆和行人检测任务中验证了我们的模型。我们的模型比所有其他最先进的（SOTA）模型获得了更高的平均精度（AP）。我们的实验还证明，与传统的感知过程相比，利用激光雷达点云进行合作感知可以提高行人检测的准确性。

这篇文章组织如下.第 2 节介绍了合作感知和特征融合模型方面的相关工作。第 3 节和第 4 节分别介绍了我们提出的合作感知框架和特征融合模型。第 5 节介绍了实验结果。第 6 节是本文的结论部分，并列举了未来的工作。

Background and related work

我们首先介绍了合作感知的形式描述和相关的特征集成方法作为背景概念。然后，我们讨论了相关工作，以突出与我们的研究贡献相关的研究空白。

Cooperative Perception

合作感知问题的形式可描述如下。我们将原始输入数据（摄像头数据和激光雷达数据）记为 I = {I1, I2, ., In} ，来自周围一组 CAV 的数据为 V = {v1, v2, ., vn}。针对输入数据提取的相应中间特征集表示为 F = {F1, F2, ., Fn}，其中物体检测器的预测输出集表示为 O = {O1, O2, ., On}。在传统单车视觉感知过程中,一辆自动驾驶车辆vi其他传感器接受从原始数据Ii然后对这些数据进行处理,提取特征图Fi,用于计算模型预测物体输出Oi. 在协同感知中,额外的数据融合步骤用于汇聚来自其他车辆的数据用于提升感知精度.

研究者提出(demonstrated)三种数据融合方法(早期,中期,晚期)根据在数据时数据的类型.

CAVs在早期绕那个和传播原始传感器数据I会造成最高的数据传输成本. 后期融合共享并汇总来自其他CAV的预测结果O,这减轻了传输负担,但是目标检测的表现高度依赖其他CAV的预测结果以及对于预测的后处理.

通过优化单车三维物体检测器和后处理方法，可以提高早期和晚期融合的协同感知性能

中间融合时提升处理中间特征表示的折衷方案,因此**,准确、优化地整合和处理从不同位置获取的信息，对于有效地进行特征融合以实现准确的目标检测至关重要**。

Marvasti 等人将3DLidar点云warp成鸟瞰图并在每个自动驾驶车中使用2D CNN来提取中间特征,来自其他CAV的特征图投影到ego vehicle的坐标系统中.然后这些信息与ego vehicle的特征图进行汇集,在 [16] 中，只使用了两个 CAV，并且求和使得重叠部分的权重较大，而在实际场景中，CAV 的数量各不相同。我们计算的是重叠处的平均值。Chen 等人[3]提出了特征级融合方案，并选择重叠处的最大值来代表中间特征。其结果是.

上面提到的是利用简短运算比如求和和最大、平均等计算,这些运算可以处理重叠部分信息,并且计算成本较小,然而由于缺乏信息选择和数据这些选择的特征并不一定是必要的(最好的).

在V2VNet中,GNN来表示基于地理坐标的 CAV 地图，以促进数据融合。GNN能从多辆车辆接受信息并于车的内部状态计算一个新的中间表示.Xu 等人[27]提出了 AttFuse，并利用自我注意模型[21]来融合中间特征图。V2X-Vit[26]和 CoBEVT[25]利用transformers进行中间特征融合的合作感知。

我们三所的特征融合可以搞笑利用来自CAV的特征图.

Feature Learning and Feature Fusion

注意力机制已在解决计算机视觉任务中证明了其实用性[8, 18, 21, 23]。通过在神经网络中加入一个小模块，该模型可以利用通道和/或空间信息，增强提取的表征。

在过去的三维物体检测中，人们也探索过摄像头和激光雷达的特征学习和特征融合。Yoo 等人[29]提出了一种自适应门控融合网络，用于结合激光雷达和图像特征。

Liu 等人[15]和 Liang 等人[11]提出了一种 BEV 融合方法，该方法将相机拍摄的图像和激光雷达生成的点云的中间特征投射到 BEV 中，并沿通道轴串联两个特征图。Liu 等人[15]利用卷积编码器生成基于 BEV 特征图的精细融合图。Liang 等人[11]提出了一种动态融合模块，并应用信道关注来自适应性地选择特征。

在协同感知中，通过特征信道将中间特征图串联起来，会随着 CAV 数量的增加而大大增加计算成本。因此，与其合并特征图并创建一个额外的大型特征提取网络，不如将带有几何和地理信息的特征图汇总在一起，这样会更有效。

CORE: Cooperative Reconstruction for Multi-Agent Perception

abs

这篇文章提出了CORE,一个概念简单,高效且通信效率的多agent协同感知模型,它从合作重构的新角度解决了问题,基于以下两个关键想法:合作代理共同提供对环境更全面的观察 2) 整体观察作为一种有价值的监督,明确指导模型学习在合作基础上如何重建理想的观察

CORE通过三个主要组件实现这个想法,为每个agent创建一个compressor，以创建更紧凑的特征表示，从而实现高效广播. 一个用于跨agent信息聚合的轻量级贴心协作组件,重构模块，根据汇总的特征表征重构观测结果.

这种学习-重构的理念与任务无关,可以提供清晰合理的监督,激发更有效的写作,最终促进感知任务的完成.

我们在公开数据集OPV2V,一个大型的多智能体感知数据集上验证了CORE,并使用了两种任务,3D目标检测和语义分割.

结果表明达到了最先进的性能并且有更高的通信效率.

intro

感知-识别并解释sensory感官信息对于智能车感知周围环境是关键的能力,由于深度学习的不断进步,个体感知在许多任务中都取得了显著成就,比如检测,分割和跟踪.

即使有广大前景,由于单个智能体受限的视线能见度,它也存在很多问题.,并面临安全问题的挑战.

更有说服力的范式是协作感知. 即一组智能体表现得像一个团体通过互相交换信息以此使用它们结合的感知经验来感知.沿着这一方向，最近已在努力提供数据集和合作解决方案

这些解决方案都认为多个智能体共同提供对环境的整体观察.但是这里存在一个性能和带宽平衡问题需要解决,因此,一些研究使用了自适应通信架构来为每个agent减少带宽,其他研究关注了多智能体协作策略. 比如早期协作汇聚原始对于协作只能提的原始观察.晚期融合直接每辆车预测得到的结果。

流行的中间写作融合易于压缩中间特征表示. 即使这些方法在许多领域都有应用,从自动驾驶到搜索和救援,一个关键问题没有得到解答.

信息交换和汇总后，每个agent的理想感官状态应该是怎样的？信息交换和汇总后，每个agent的理想感官状态应该是怎样的？

我们的主要见解是，如果多个代理一起确实能对场景进行更完整的观察，那么通过吸收其他代理的信息，代理就能重建其部分原始观察中缺失的部分。

本文从合作重建的角度提出了新的方法,主要观点是如果多个agent通过接受agent的信息,共同对场景进行更完整的观察,那么一个agent就能重建其部分原始观察中缺失的部分.

通过学习重构,模型能学习到高效的与任务无关的特征表示,此外,这种学习-重构的思想与最近在掩码数据建模上的发展有自然关联,使我们的模型能够从获得的更多损坏输入中恢复完整的观察结果.

有这种能力后就能允许智能体交换空间的系数特征减少传输开销.

给定一组智能体和其鸟瞰图,CORE通过三个关键模块

论文修改

在实时应用中训练和部署 CoRange 框架的具体计算要求是什么？
作者能否提供有关超参数调整过程的更多细节，以及 CoRange 中不同模型和组件所使用的具体数值？
加文献

虽然总体语言专业，术语使用准确，但有些部分过于冗长。建议简化语言，避免重复描述。尤其是非关键性的细节，可考虑减少或移至附录。
尽管方法部分已经相当详细，但一些技术细节可能仍不清楚。例如，在介绍特征提取、通信机制和融合模块时，提供伪代码来说明关键步骤可能会有所帮助。
论文中的所有技术假设是否合理？例如，假设所有合作车辆都能准确共享位置信息，所有传感器数据都可靠且无噪音。如果这些假设过于理想化，可能会影响该方法的实际应用。此外，还要评估模型的计算复杂度，特别是在处理大规模数据集和多车辆协作场景时的效率。如果计算复杂度过高，可能会导致实时性较差，从而影响实际应用。
论文中的创新是仅仅停留在表面上（如简单的算法组合或参数调整），还是真正深入问题的本质，提出全新的解决方案或方法？

在引言中，关于通信和计算资源消耗以及现有方法抗噪声能力差的论述过于曲折，使人难以清晰地把握作者的研究动机。
在图 3 中，CMG 模块的输入包括 Ego 代理和代理 j。然而，在子图（a）中，CMG 模块的输入只显示了代理 j，这就造成了歧义。此外，在子图（b）中，fgen(-) 操作的图示并不完整，缺少了论文中描述的检测头和最大值操作，因此很难理解这些组件在哪里发挥作用。
在第 5 页，作者声称：“我们假定，随着与自我代理的距离增加，感知权重也会增加，从而推断出离自我代理较远的位置具有更大的重要性”。然而，实验部分并没有提供任何视觉结果来支持这一论断。
所提出的范围感知通信机制可以自适应地生成范围感知通信图，从而减少冗余数据，使自我代理能够专注于探测远处或被遮挡的目标。不过，实验部分没有提供任何直观结果来证明其特征选择能力。

可视化一节添加attention weight map可视化权重,特征选择矩阵

模型介绍和训练细节部分增加对参数调整和模型具体参数说明

推理速度以及训练、测试的计算要求(复杂度?) cobevt 参数量+FPS

在介绍和相关工作中加文献

flops and params

model	flops/macs(G)	params(MB)	fps
fcooper	138.01	7.271	79.66
where2comm	134.0	8.057	56.84
cobevt	222	11	20
attentive	49.376	6.584	117.84
v2x-vit	271.421	14.172	11.73
v2vnet	348.273	15.205	25.38
corange(Ours)	179.497	20.657	36.21

论文debate

审稿意见回复 - SXQ-BLOG - 博客园 (cnblogs.com)

gmd-2018-220-AR2.pdf (copernicus.org)

A template for responding to peer reviewer comments (editage.com)