Utopi
a

2024-12

(一)

(二)

(三)

(四)

(五)

(六)

(七)

(八)

(九)

(十)

拟开展的研究:面向自动驾驶的多模态感知与预测世界模型

多传感器融合难

激光雷达的"拖尾"、"吸点"、"鬼影"、"高反膨胀"和视觉信息冲突,难以深度融合。

感知系统时空关联差

假阳性与多传感器时空不对齐通常交给下游任务处理。 难产生连续平滑的感知结果

预测未充分利用感知信息

预测系统接收简化的矢量感知结果,损失大量信息。 现有研究关注地图与交通代理,忽视其他环境信息。

关键问题:多传感器、感知系统与预测系统之间割裂,没有深度融合

BEVWorld:通过统一 BEV 潜在空间实现自动驾驶的多模式世界模型

世界模型因其预测潜在未来场景的能力而在自动驾驶中受到越来越多的关注。在本文中,我们介绍了 BEVWorld,一种将多模态传感器输入标记化为统一紧凑的鸟瞰图 (BEV) 潜在空间以进行环境建模的新方法。世界模型由两部分组成:多模态分词器和潜在 BEV 序列扩散模型。多模态分词器首先对多模态信息进行编码,解码器能够通过自监督方式的光线投射渲染,将潜在的 BEV 分词重建为 LiDAR 和图像观测。然后,潜在 BEV 序列扩散模型以动作标记为条件预测未来场景。实验证明了 BEVWorld 在自动驾驶任务中的有效性,展示了其生成未来场景的能力,并有利于感知和运动预测等下游任务。

CVPR 2024 | 自动驾驶世界模型四维时空预训练

自动驾驶的场景理解任务涉及到对场景的感知和预测未来变化等多个层面,这些层面不仅包括空间上的三维结构,还包含时间维度上的动态变化。这种复杂的场景理解要求模型能够捕捉和理解四维时空的内在关联,从而做出准确的决策。由于自然场景的随机性、环境的局部可观测性以及各种下游任务的多样性,学习四维时空表示是极具挑战性的。预训练在从大量数据中获取通用表示方面发挥着关键作用,能够构建一个具备通用知识的基础模型。然而,有关自动驾驶中四维时空的预训练研究仍然相对较少。

自动驾驶系统的设计和实现需要面对和处理各种不确定性,这些不确定性主要分为两类:Aleatoric不确定性和Epistemic不确定性。Aleatoric不确定性源自于世界的固有随机性,例如行人的突然移动或车辆的意外行为。Epistemic不确定性则源于对环境不完全的认知,例如由于遮挡或传感器限制导致的信息缺失。为了有效应对这些不确定性,自动驾驶系统必须能够利用过去的经验来预测未来可能的状态,并对不可见的区域进行推测。本工作通过四维时空预训练的世界模型来解决这一挑战,旨在提升自动驾驶系统在感知、预测和规划任务中的性能。

2.1时序概率模型

为了赋予模型四维时空建模的能力,我们首先引入两个潜在变量(h1:T,s1:T),其中ht表示历史信息变量,包含了到时间步t的所有历史信息,st表示随机状态变量,是模型预测未来状态的关键。ht通过历史信息h1:t−1和随机状态s1:t−1进行更新。为了预测未来状态,我们遵循循环状态空间模型(Recurrent State-Space Model,RSSM),构建后验状态分布q(st∣o≤t,a<t)和先验状态分布p(st∣ht−1,st−1)。目标是匹配先验分布(基于历史信息和随机状态的预期结果)与后验分布(从观察到的多视角图像和动作中导出的结果)。

考虑到BEV特征的维度很高,我们将其转换为一维向量xt,然后从(ht,at−1,xt)中抽样高斯分布以生成后验状态分布: p(st∣ht−1,st−1)∽N(μθ(ht,a^t−1),σθ(ht,a^t−1)I), 其中st被参数化为带有对角协方差的正态分布,初始分布设置为s1∽N(0,I)。(μϕ,σϕ)是参数化后验状态分布的多层感知机。

在没有观察到图像的情况下,模型根据历史信息和预测的动作得出先验状态分布: p(st∣ht−1,st−1)∽N(μθ(ht,a^t−1),σθ(ht,a^t−1)I), 其中(μθ,σθ)参数化先验状态分布。𝜋𝜃是用于预测动作 a^t−1的策略网络,基于历史信息ht−1和随机状态st−1。

2.1.1 动态信息传递

在自动驾驶的场景理解中,考虑物体的运动对于准确预测未来状态至关重要。为了捕捉这种动态信息,我们提出通过引入运动参数来建模物体的运动,从而在动态信息传播过程中实现运动感知。我们引入了运动感知层归一化(MLN)。运动属性包括速度v和相对时间间隔Δt。(v,Δt)被展平并通过两个线性层(ξ1,ξ2)转换为仿射向量γ和β:γ=ξ1(v,Δt),β=ξ2(v,Δt)。 然后执行仿射变换以得到运动感知的潜在随机状态,表示为st=γ⋅LN(st)+β。随着车辆的运动,确定性历史状态ht可以建立动态记忆库h1:t。通过与动态记忆库进行交叉注意机制计算,可以得到确定性历史状态ht。 确定性历史状态为ht+1=fθ(ht,st)。

2.1.2 空间信息传递

在自动驾驶的场景理解中,除了动态变化信息,空间结构信息同样重要。由于连续的场景帧通常只包含微小的变化,而场景的主要内容往往是由静态物体组成的,如道路、树木和交通标志,因此在处理这些信息时,直接将输入图像转换为一维向量可能会导致关键空间结构信息的丢失。我们从1到T帧中随机选择一帧o′,并使用其BEV特征b′构建一个描述空间感知结构的潜在静态表示b^=zθ(b′)。我们将空间感知的静态表示b^与动态变化的运动表示st结合起来,得到了周围场景的综合表示。

2.2 预训练辅助任务

对周围环境的全面理解对自动驾驶视至关重要的。我们提出将物理世界建模为三维占据栅格结构来描述车辆周围的环境。三维占据栅格解码器被设置为y^t=lθ(mθ(h~t,st),b^),其中mθ是将一维特征扩展到BEV维度的网络,lθ是用于预测占据栅格的三维卷积网络。这种四维占据栅格预训练不仅能够捕捉到场景的静态结构,还能够理解场景随时间的动态变化,为自动驾驶系统提供了更加丰富和动态的环境理解。

2.3 任务提示机制

虽然通过世界模型设计的预训练任务可以学习四维时空表示,但不同的下游任务关注的信息是不同的。为了缓解这个问题,受少样本图像识别的语义提示和多任务学习中的视觉示例引导提示的启发,引入了“任务提示”机制,为不同的任务提供特定的提示,以引导它们提取任务相关的特征。由于不同任务之间存在语义关联,我们利用大语言模型gφ(⋅)(例如BERT,CLIP)构建这些任务提示。例如,针对三维占据栅格重建任务的任务提示,其关注更多的是当前场景,设置为“任务是预测当前场景的三维占据栅格”。我们将提示ptext输入到gφ(⋅)中以获取提示编码gφ(ptext)。随后将其扩展到BEV的维度,表示为qφ(gφ(ptext)),将其与学到的时空特征集成在一起。

2.4 预训练目标函数

DriveWorld的预训练目标包括最小化后验状态分布与先验状态分布之间的差异(即Kullback-Leibler(KL)散度),以及最小化与过去和未来三维占据栅格(即交叉熵损失(CE))和动作(即L1损失)相关的损失。我们采用模型在T个时间步内观察输入,然后预测未来的三维占据栅格和L个步骤的动作。