我自己的原文哦~ https://blog.51cto.com/whaosoft/13280022
#VLA 主流方案全解析
旨在让智能体在物理世界中通过感知、决策和行动来实现目标,而视觉 - 语言 - 动作(VLA)模型作为其中的关键技术,近年来备受关注。VLA 模型能够处理视觉、语言和动作信息,使智能体理解人类指令并在环境中执行相应任务。本文将结合相关论文及当前在线内容,对主流的 VLA 方案进行总结,包括其开源项目、核心思想、结论共识以及未来发展方向,希望能为关注领域的读者提供有价值的参考。
一、VLA 方案总览(一)基于经典 Transformer 结构方案
- 代表性开源项目:ALOHA(ACT)系列、RT-1、HPT等。
- 核心思想:利用强化学习轨迹与序列建模问题结构的自然对齐性,采用 Transformer 模型进行建模。这种方法通过对状态 - 动作 - 奖励序列的建模,有效提升了模型在复杂环境中的决策能力。例如,在机器人控制任务中,模型可以根据过去的状态和动作序列,预测未来的最优动作,从而更好地适应复杂环境中的变化。
(二)基于预训练 LLM/VLM 方案
- 代表性开源项目:RT - 2、OpenVLA 等。
- 核心思想:将 VLA 任务视为一个序列到序列的生成问题,利用预训练的语言模型(LLM)或视觉语言模型(VLM)来处理视觉和语言信息,并生成相应的动作。以 RT - 2 为例,它通过共同微调,使模型适应互联网规模的视觉问答数据和机器人数据,从而增强模型的泛化能力和涌现能力。该模型在处理复杂任务时,能够借助预训练模型对语言和视觉信息的理解,更准确地生成合适的动作指令,为机器人在复杂任务中的执行提供了有力支持。
(三)基于扩散模型方案
- 代表性开源项目:Diffusion Policy、RDT - 1B 等。
- 核心思想:将机器人策略建模为去噪扩散概率模型(DDPM),通过逐步去噪的过程生成动作。Diffusion Policy 通过创新技术,如后退视域控制、视觉条件和时间序列扩散变压器,在多模态动作分布、高维动作空间和训练稳定性方面表现出色。在面对高维动作空间和复杂的动作分布时,该模型能够有效地生成稳定且多样化的动作,为机器人在复杂环境中的动作生成提供了新的思路和方法。
(四)LLM + 扩散模型方案
- 代表性开源项目:Octoπ0 等。
- 核心思想:结合 LLM 和扩散模型的优势,LLM 用于压缩多模态表征,扩散模型作为动作专家精细化输出动作轨迹。Octoπ0 利用这种组合,在不同机器人和任务中实现了正向转移和泛化,提高了模型在复杂任务中的性能和适应性。例如,在多模态信息处理中,LLM 可以对视觉和语言信息进行初步的理解和整合,然后扩散模型根据这些信息生成精确的动作轨迹,使机器人能够更好地完成任务。
(五)视频生成 + 逆运动学方案
- 代表性开源项目:UniPiRo、BoDreamer、UniSim、GR - 1/GR - 2 等。
- 核心思想:先根据首帧和指令生成运动视频,再通过逆运动学得到对应的动作。这种方法通过视频生成模型预测未来状态,然后利用逆运动学将预测的状态转换为可执行的动作,提高了动作生成的可解释性和准确性。以 UniPiRo 为例,它根据给定的初始帧和指令生成运动视频,该视频展示了机器人在未来一段时间内的预期运动轨迹,然后通过逆运动学将视频中的状态转换为具体的关节动作,使机器人能够按照预期轨迹运动,在机器人控制任务中具有重要意义。
(六)显示端到端 VLA 方案
- 代表性开源项目:众多端到端 VLA 模型,如部分基于 Transformer 的模型等。
- 核心思想:将视觉语言信息压缩成联合的表征,再映射到动作空间生成动作。这些模型通过直接处理多模态信息,减少了中间环节的信息损失,提高了模型的效率和准确性。在实际应用中,模型可以直接从视觉和语言输入中提取关键信息,快速生成相应的动作。例如,模型在接收到 “将蓝色杯子从桌子上拿起并放到厨房的架子上” 的指令和对应的视觉场景后,能够直接对视觉中的物体进行识别、定位,结合语言指令理解任务目标,然后生成一系列精确的动作指令,如控制机械臂移动到杯子上方、调整夹爪姿态、抓取杯子、移动到架子位置并放置杯子等,整个过程无需复杂的中间转换,有效提高了机器人的响应速度和执行准确性。
(七)隐式端到端 VLA 方案
- 代表性开源项目:如利用人类视频训练世界模型的相关项目(如 SWIM 等)。
- 核心思想:利用当前的视频扩散模型预测未来状态,再通过逆运动学生成动作,同时注重提高模型的可解释性。例如,SWIM 通过使用人类视频训练世界模型,并结合视觉可供性地图推断目标姿势,实现了知识从人类数据到机器人控制的有效转移。该模型从人类视频中学习到人类在不同场景下的行为模式,然后利用这些知识预测机器人在相似场景下应采取的动作,为机器人在复杂环境中的决策提供了更可靠的依据。
(八)分层端到端 VLA 方案
- 代表性开源项目:结合了高层任务规划和低层控制策略的分层模型(如一些包含 LLM 作为高层规划器的项目)。
- 核心思想:充分利用大小模型的特点,高层任务规划器将复杂任务分解为子任务,低层控制策略执行子任务,以提升模型的泛化性和执行效率。这种分层结构使模型能够更好地处理长时域任务,提高了机器人在复杂任务中的执行能力和适应性。例如,在执行 “整理房间” 这样的长时域任务时,高层规划器可以将任务分解为 “捡起物品”“移动到指定位置”“放置物品” 等子任务,低层控制策略则负责具体执行这些子任务,使机器人能够有条不紊地完成整个任务。
二、方案对比与结论共识(一)模型架构与信息融合
- 在模型架构方面,不同方案探索了多种融合视觉和语言输入的方法。例如,基于经典 Transformer 结构的方案通过特定的网络结构设计来整合多模态信息;基于预训练 LLM/VLM 的方案则借助预训练模型的强大表征能力进行信息融合。
- 结论共识是,合适的架构设计对于实现高效的视觉 - 语言 - 动作交互至关重要。不同架构在处理多模态信息时有其优势和局限性,如某些架构在处理长序列信息时表现较好,而另一些在模型参数效率上更具优势。例如,Transformer 架构在处理长序列数据时能够有效捕捉信息之间的依赖关系,但可能需要较大的计算资源;而一些基于卷积神经网络的架构在参数效率上可能更高,但在处理长序列信息时可能存在一定困难。
(二)动作类型与训练目标
- 动作类型上,多数低层级控制策略预测末端执行器的位姿,但不同方案在动作表示和处理方式上存在差异。例如,一些方案采用离散动作表示,而另一些则采用连续动作表示。
- 训练目标方面,包括行为克隆(BC)、强化学习等多种方式。不同训练目标对模型的性能和泛化能力有不同影响,例如 BC 在模仿学习中广泛应用,但其在不同动作类型下的实现方式和效果有所不同。以 RT - 1 为例,它采用离散动作表示,通过行为克隆的方式进行训练,在一些简单任务中表现出较好的性能,但在处理需要连续动作的复杂任务时可能存在一定局限性。
- 总体而言,选择合适的动作类型和训练目标需要综合考虑任务需求、模型性能和数据可用性等因素,以实现高效的动作生成和优化。例如,在需要精确控制动作的任务中,连续动作表示可能更合适;而在数据量有限的情况下,行为克隆等基于已有数据的训练方式可能更具优势。
(三)LLM 与非 LLM 方案
- LLM - 基于方案(如 RT - 2 等)在指令理解和复杂任务处理上具有优势,能够更好地解析用户意图。然而,其训练成本高且部署速度可能较慢,在动态环境中可能面临推理延迟的问题。例如,RT - 2 在理解复杂语言指令方面表现出色,但由于其模型规模较大,训练过程需要大量的计算资源和时间,并且在实时性要求较高的动态环境中,可能因为推理速度较慢而影响机器人的响应及时性。
- 非 LLM 方案(如一些早期的基于经典 Transformer 结构的方案)虽然在指令理解能力上相对较弱,但在特定场景下,如对实时性要求较高的任务中,可能因其简单高效的特点而表现出色。例如,一些基于经典 Transformer 结构的模型在处理简单指令和实时性要求高的任务时,能够快速生成动作,保证机器人的高效运行。
- 未来的发展可能需要在两者之间寻求平衡,或者探索新的方法来充分发挥它们的优势,克服各自的局限性。例如将 LLM 与非 LLM 模型进行协同工作,利用 LLM 进行高层任务规划和指令解析,非 LLM 模型负责底层动作执行和实时控制,实现更强大、高效和智能的 VLA 系统。
(四)RT 系列模型的发展与影响
- RT - 1 作为开创性的 “Robotic Transformer” 模型,激发了一系列后续工作。其后续模型如 RT - 2、RTX 等在数据集规模、模型架构和性能上不断改进。
- RT - 1 模型特点与贡献:RT - 1 是首个用于机器人的 Transformer 模型,其输入包括头部视角历史长度 T = 6 的 300x300 的图像以及语言指令。它采用了 FiLM conditioned EfficientNet - B3 作为图像 Encoder,直接融合视觉和语言信息(VL),将每张图经过处理得到 9x9x512 的 VL 融合后的 token,再通过 tokenlearner 将每张图的 81 个 token 变为 8 个 token,最终得到 8*6 = 48 个 token。Language Encoder 使用 Universal Sentence Encoder 得到 512 维向量。Decoder/Policy Head 采用 decoder - only Transformer,包含 8 个自注意力层,模型参数达 19M,输出为 11D 的离散动作空间,涵盖手臂、基座的扭矩、夹爪位置、旋转等信息。
- RT - 2 的改进与创新:RT - 2 基于 ViT 和 LLM,引入了共同微调的训练方式,使其能适应互联网规模的视觉问答数据和机器人数据。它在 RT - 1 的基础上,进一步提升了模型的泛化能力和涌现能力,为机器人在更复杂任务中的执行提供了支持。
- RTX 的优化与提升:RTX 模型重新使用了 RT - 1 和 RT - 2 模型,并利用新引入的开源大型数据集 Open X - Embodiment(OXE)进行训练。OXE 数据集包含 160,266 个任务、527 个技能和 22 个实施例,规模比以前的数据集大得多。因此,RTX 模型(包括 RT - 1 - X 和 RT - 2 - X)在性能上超越了其原始版本,展现了数据集规模对模型性能提升的重要性。
- 结论共识是,随着数据集的扩大和模型架构的优化,RT 系列模型在实际应用中的性能逐步提升,展示了基于 Transformer 架构在领域的潜力。同时,也为其他 VLA 模型的发展提供了重要的参考和借鉴。例如,其他模型可以借鉴 RT 系列模型在数据利用、架构设计等方面的经验,不断改进自身性能,推动 VLA 技术的发展。
三、未来方向(一)数据稀缺问题
- 目前,获取足够的真实世界机器人数据仍然是一个重大挑战,收集过程耗时且资源密集。例如,在实际环境中收集机器人操作数据需要大量的人力、物力和时间投入,而且不同环境和任务下的数据多样性难以保证。
- 未来的方向包括开发更高效的数据收集方法,如利用自动化数据收集技术(如 RoboGen、AutoRT 等),以及通过模拟环境生成更多样化的数据来缓解数据稀缺问题。RoboGen 可以通过生成式模拟范式提出有趣的技能,模拟相应环境并选择最优学习方法来训练策略获取数据;AutoRT 则能作为机器人编排器,由 LLMs 驱动生成任务,筛选后利用自主策略或人工远程操作收集和评估数据。同时,改进数据标注技术和提高数据质量也是关键,例如采用更先进的标注工具和算法,确保数据的准确性和一致性,从而为模型训练提供更优质的数据。
(二)运动规划能力提升
- 当前运动规划模块在处理复杂环境中的任务时,往往缺乏足够的灵活性和精确性,限制了机器人与工具交互、在复杂环境中导航和执行高精度操作的能力。例如,在复杂的操作任务中,机器人可能难以精确地抓取和放置物体,或者在狭窄空间中导航时容易出现碰撞等问题。
- 未来需要开发更强大的运动规划算法,结合深度学习和传统规划方法的优势,提高机器人在复杂环境中的运动规划能力。例如,通过强化学习优化运动轨迹生成,使机器人能够根据环境反馈不断调整动作,找到最优的运动路径;引入基于模型的预测控制方法,提高动作的准确性和稳定性,确保机器人在执行任务时能够精确控制动作的力度、方向和速度等参数。
(三)实时响应性增强
- 许多机器人应用对实时决策和动作执行有严格要求,但现有 VLA 模型在处理复杂任务时可能面临延迟问题。例如,在一些需要快速响应的场景中,如工业生产线上的机器人操作或自动驾驶中的决策,模型的推理延迟可能导致生产效率降低或安全风险增加。
- 未来研究需优化模型架构与算法提升计算效率、缩减推理时间,确保机器人在实时性场景快速响应。比如探索高效架构、减少计算层与参数,或用并行计算技术加速。硬件层面优化计算资源分配利用也重要,研发专用加速器,优化软硬件协同,使资源高效服务模型推理,让机器人在实时性要求高的场景稳定准确运行,像智能仓储物流中快速分拣运输货物,救援场景中迅速决策行动。
(四)多模态信息融合优化
- 虽然在多模态信息融合方面已经取得了一定进展,但实现视觉、语言和动作信息的最优融合仍然是一个挑战。目前的模型在融合不同模态信息时,可能存在信息丢失、模态间对齐不准确等问题。例如,在处理包含复杂场景和模糊指令的任务时,模型可能无法准确地将视觉信息与语言指令进行匹配,从而导致动作执行的不准确。
- 未来需要进一步研究多模态表示学习、融合技术和任务特定适应方法,以提高模型对多模态信息的理解和处理能力。例如,探索更有效的跨模态注意力机制,使模型能够更加关注不同模态信息之间的关联部分,从而更好地整合信息;开发新的多模态特征融合方法,将视觉、语言和动作的特征进行更有效的融合,提高特征的表达能力;针对不同任务的特点,设计专门的适应方法,使模型能够根据任务需求灵活调整信息融合策略,从而做出更准确的决策。
(五)泛化能力提升
- 一个真正通用的机器人系统应能够在不同的、未见过的场景中理解和执行自然语言指令,但目前模型在面对新场景、新任务和新对象时的泛化能力仍有待提高。例如,在一个新的家庭环境中,机器人可能无法理解与之前训练场景稍有不同的指令,或者在处理新类型的任务时表现不佳。
- 未来的研究方向包括开发更具适应性和可扩展性的 VLA 架构,通过元学习、域适应等技术提高模型在不同场景下的泛化能力。元学习可以让模型学习如何快速适应新任务,从少量的样本中获取有效的学习策略;域适应技术则有助于模型在不同领域或场景之间迁移知识,减少对大量特定场景数据的依赖。使机器人能够快速适应新环境和任务需求,实现更广泛的应用,例如在不同的工业场景、家庭环境或户外环境中都能准确执行任务。
(六)长时域任务执行改进
- 对于像 “清洁房间” 这样的长时域任务,当前的高层任务规划器虽然取得了一定进展,但在处理复杂任务序列和应对环境变化时仍存在不足。例如,在执行清洁房间任务时,可能会遇到意外情况,如物品位置变动或新物品出现,当前规划器可能难以实时调整任务计划。
- 未来需要设计更高效的规划器,赋予机器人更强的感知能力和更丰富的常识知识,以更好地规划和执行长时域任务。例如,结合强化学习和基于搜索的规划方法,强化学习可以让机器人在执行任务过程中根据环境反馈不断优化动作选择,基于搜索的规划方法则能在遇到复杂情况时快速探索不同的解决方案;引入语义理解和知识图谱技术,使机器人能够理解任务的语义信息,利用知识图谱中的常识知识更好地应对各种情况,从而更好地完成复杂的长时域任务。
(七)基础模型探索与优化
- 目前对于 VLA 在机器人任务中的基础模型探索仍处于初级阶段,面临着不同机器人形态、环境和任务的多样性挑战,以及孤立数据集和评估设置的问题。不同类型的机器人在结构、运动方式和感知能力上存在差异,现有的基础模型难以直接适应各种情况。同时,数据集的多样性和评估标准的不统一也限制了模型的发展。
- 未来需要利用互联网规模的具身数据集和先进的多模态模型,构建更强大、通用的基础 VLA 模型。互联网上丰富的多模态数据可以为模型提供更广泛的知识和信息,有助于提高模型的泛化能力。同时,建立统一的评估标准和基准,促进模型的比较和改进,使研究者能够更准确地评估模型的性能,推动 VLA 技术在机器人领域的广泛应用。
(八)多智能体系统协作发展
- 在大规模机器人部署场景中,多智能体协作面临着通信、任务分配和异构性等挑战,尽管多智能体系统具有潜在优势,但目前尚未充分发挥。例如,在多机器人协同执行任务时,机器人之间可能存在通信延迟或信息不一致的问题,导致任务执行效率低下;不同类型的机器人在能力和功能上存在差异,如何合理分配任务是一个难题。
- 未来的研究需要聚焦于开发有效的多智能体协作算法和通信协议,提高智能体之间的协同效率和任务分配的合理性。同时,研究如何处理异构智能体之间的差异,实现更高效的分布式感知、协作故障恢复和自主舰队维护,以充分发挥多智能体系统在复杂任务中的优势。
(九)安全与伦理考量
- 随着机器人在现实世界中的应用越来越广泛,安全问题至关重要,确保机器人系统的安全性需要在开发和部署过程中综合考虑多种因素。在机器人与人类共同工作或生活的场景中,如工厂、医院、家庭等,机器人的任何错误动作都可能对人类造成伤害。例如,在工业生产中,机器人可能因故障或错误指令而发生碰撞,对操作人员造成身体伤害;在家庭环境中,服务机器人可能因误解指令而损坏物品或对家庭成员造成意外。
- 未来需要将现实世界的常识和复杂推理融入机器人系统,建立强大的安全机制、风险评估框架和人机交互协议,以保障机器人在各种场景下的安全运行。例如,通过知识图谱等技术为机器人注入常识知识,使其能够理解行为的后果并避免危险操作;建立实时风险评估系统,对机器人的动作进行风险预测,及时采取措施避免事故发生。同时,随着机器人决策过程的日益复杂,提高模型决策的可解释性和透明度,对于增强机器人的安全性和可信度至关重要。此外,还需要关注机器人应用带来的伦理和社会影响,制定相应的规范和准则,确保机器人技术的合理、负责任发展。例如,在就业方面,机器人的广泛应用可能导致部分工作岗位被替代,需要制定相关政策来应对这一变化;在隐私保护方面,机器人在收集和处理数据过程中需要遵循严格的隐私法规,保障用户的个人信息安全。
四、总结
本文详细总结了中 VLA 的主流方案,包括基于经典 Transformer 结构、预训练 LLM/VLM、扩散模型、LLM + 扩散模型、视频生成 + 逆运动学以及不同类型的端到端方案。通过对各方案的开源项目和核心思想的介绍,对比了它们在模型架构、动作类型、训练目标等方面的特点,得出了相应的结论共识。同时,探讨了 VLA 面临的数据稀缺、运动规划、实时响应、多模态融合、泛化能力、长时域任务执行、基础模型、多智能体协作以及安全伦理等挑战,并展望了未来的发展方向。随着技术的不断进步,相信 VLA 将在领域取得更大的突破,为机器人的智能化发展提供更强大的支持,推动其在众多领域的广泛应用,如制造业中的自动化生产、医疗领域中的手术辅助、家庭服务中的日常任务协助等,从而极大地提高生产效率、改善生活质量并拓展人类的活动范围。但在发展过程中,也需要充分考虑各种潜在问题,确保技术的健康、可持续发展。
#Ultra-AV
新基准!威斯康星大学开源:统一自动驾驶纵向轨迹数据集
自动驾驶车辆在交通运输领域展现出巨大潜力,而理解其纵向驾驶行为是实现安全高效自动驾驶的关键。现有的开源AV轨迹数据集在数据精炼、可靠性和完整性方面存在不足,从而限制了有效的性能度量分析和模型开发。
本研究针对这些挑战,构建了一个(Ultra-AV),用于分析自动驾驶汽车的微观纵向驾驶行为。该数据集整合了来自14 个的数据,涵盖多种自动驾驶汽车类型、测试场景和实验环境。我们提出了一种数据处理框架,以获得高质量的纵向轨迹数据和跟驰轨迹数据。最后,本研究通过对安全性、通行效率、稳定性和可持续性等多个性能维度的评估,以及对跟驰模型变量之间关系的分析,验证了数据的有效性。我们的工作不仅为研究人员提供了标准化的数据和指标,用于分析自动驾驶汽车的纵向行为,还为数据采集和模型开发提供了指导方法**。
介绍
理解自动驾驶汽车的纵向驾驶行为对于确保其安全性和优化交通流至关重要。然而,现有的开源自动驾驶汽车轨迹数据集缺乏精细的数据清理和标准化,导致:
- 数据质量不均,影响模型开发和性能评估。
- 缺乏完整性和可靠性,难以进行跨数据集研究。
- 分析效率低,影响AV安全测试和仿真研究。
本研究提出了一种统一的自动驾驶汽车纵向轨迹数据集(Ultra-AV),有以下特点:
- 大规模数据集: 数据总量 2.6GB,涵盖 14 个不同的自动驾驶数据源,涉及 30 多种测试和实验场景,包含 超过 1000 万个数据点,相当于 280 小时以上的行驶数据。
- 标准化数据格式: 统一不同数据源的数据格式,使其适用于跨数据集研究。
- 数据处理框架: 提供一种高效的数据处理方法,提高数据的可用性,支持自动驾驶仿真测试和行为建模。
方法
如图所示,我们的统一数据集涵盖了14个不同来源的数据集。这些数据集收集自美国和欧洲的多个城市,确保了所选城市的多样性和代表性,使研究具备更广泛的适用性。
此外,大多数被整合的数据集都包含自动驾驶汽车的长时间轨迹,这些数据广泛应用于自动驾驶行为分析。然而,一些特定数据集,如 Waymo Open Dataset中的 Waymo Motion Dataset 和Argoverse 2 Motion Forecasting Dataset,其轨迹时间较短,分别为9.1 秒和11 秒(采样频率为 10Hz)。这些数据集主要用于Motion Forecasting领域的研究,尽管轨迹较短,但其采集地点通常位于复杂交通环境中的市区,能够提供在复杂场景下分析自动驾驶行为的机会。因此,本研究特别包含了对这两个数据集的分析,以确保数据集的全面性和适用性。
本研究提出了一种数据处理框架,用于标准化并清理自动驾驶汽车轨迹数据。该框架包含以下三步。
Step 1: 轨迹数据提取
从多个AV数据集中提取统一格式的纵向轨迹数据,包括汽车位置、速度、车头时距等关键变量。关键变量如下:
变量 | 描述 |
Trajectory ID | 轨迹数据的唯一标识 |
Time Index | 轨迹数据时间索引 |
LV Position | 领航车(LV)位置 |
LV Speed | 领航车速度 |
FAV Position | 跟驰车(FAV)位置 |
FAV Speed | 跟驰车速度 |
Space Headway | 车头间距 |
Speed Difference | 车速差 |
针对处理过后的数据,我们通过三个方面对数据进行验证分析。
Step 2: 通用数据清理
为了提高数据的可靠性,采用以下清理策略:
- 移除异常值: 删除超过 均值 ± 标准差 的数据点。
- 缺失值填补: 删除时间戳不连续的数据点,并采用线性插值补全缺失数据。
- 轨迹数据重构: 重新整理数据结构,确保数据的可解释性。
Step 3: 数据特定清理
针对车队跟驰场景,设定阈值去除异常数据,以提高分析准确性。下图展示了处理后的数据分布。其中分别代表车头间距,车速,车速差,和加速度。
数据采集
结合作者所在课题组的数据方案和文献,我们认为目前自动驾驶汽车的数据采集通常来自多种高精度传感器的数据整合,包括LiDAR(激光雷达),*GPS(全球定位系统),DSRC(车载通信单元),高清摄像头等。图中显示了作者课题组基于Lincoln MKZ的自动驾驶汽车测试平台。
关键性能指标
为评估自动驾驶汽车的性能,我们采用以下性能指标:
- 安全性指标: Time-to-Collision ()。
- 稳定性指标: 加速度变化率()。
- 可持续性指标: 燃油消耗()。
- 通行效率指标: 车头时距()。
分析结果如图所示。
跟驰模型开发
最后,为了分析自动驾驶汽车的纵向行为,本研究探讨了加速度与输入变量(车头间距、车速和车速差)之间的关系。下图绘制了这些变量之间的散点图,其中y轴是加速度,绿/黄/橙色图片的横轴分别代表车头间距,车速,以及车速差。可以看出,车头间距和车速差对加速度的影响显著,而加速度与车速之间无明显线性关系。其中,加速度与车头间距呈非线性正相关,与车速差呈线性负相关。
结论
本研究回顾了多个自动驾驶轨迹数据集,并开发了统一自动驾驶纵向轨迹数据集,主要贡献包括:
- 标准化纵向轨迹数据集 - 统一并清理不同数据源的数据,提高数据可用性。
- 高质量的跟驰数据集 - 通过去噪和数据清理,保证数据分析的准确性。
- 跟驰行为分析 - 研究加速度与输入变量之间的非线性关系。
本文的连接和相关代码、数据可以在以下链接里找到:
- Ultra-AV 数据集论文 - Scientific Data
- GitHub 代码仓库 - Ultra-AV Dataset
#Doracamom
实现首个LV多模态融合的统一多任务感知算法框架~
自动驾驶技术是现代交通革命的前沿,备受关注。自动驾驶系统通常包括环境感知、轨迹预测和规划控制等组件,以实现自动驾驶功能。准确的 3D 感知是自动驾驶系统的基础,主要侧重于 3D目标检测和语义占用预测任务。3D 目标检测使用 3D 边界框来定位场景中的前景目标并预测类别和速度等属性,属于稀疏场景表示。
相比之下,语义占用使用细粒度体素表示来捕捉场景的几何和语义特征,这是一种密集场景表示形式。为了完成这些任务,通常使用摄像头、激光雷达和毫米波雷达等传感器来收集环境数据作为输入。在这些传感器中,LiDAR 采用飞行时间 (TOF) 原理,发射和接收激光束以生成密集点云,提供环境的高精度几何表示。然而,LiDAR 易受恶劣天气影响,且成本高昂。相比之下,摄像头和毫米波雷达更具成本效益,适合大规模部署。摄像头可以高分辨率捕捉丰富的颜色和纹理信息,但缺乏深度信息,容易受到天气干扰。
另一方面,毫米波雷达发射电磁波来探测目标距离、多普勒和散射信息,从而能够抵御天气条件。4D 成像雷达是传统毫米波雷达的一项进步,它不仅包含额外的高度信息,而且还提供比传统 2 + 1D雷达更高分辨率的点云。最近的研究表明,它在各种下游任务中具有相当大的前景。然而,与激光雷达相比,它的点云仍然稀疏且嘈杂。因此,跨模态融合对于有效弥补这些缺点至关重要,强调了整合来自摄像头和4D雷达的信息的必要性。
近年来,尤其是随着4D雷达数据集的出现,4D 雷达和摄像机融合研究在感知领域显示出巨大的潜力。目前,大多数主流融合技术都采用BEV架构,将原始传感器输入转换为 BEV 特征进行融合。对于占用预测任务,大多数研究集中在以视觉为中心或视觉和 LiDAR 融合上,因为占用预测任务需要细粒度的体素表示和语义信息。传统雷达缺乏高度信息,不适合 3D 占用预测。相比之下,4D 雷达通过访问高度信息和更高分辨率的点云提供了新的可能性。此外,将3D目标检测和占用预测作为两个关键感知任务集成在统一的多任务框架内,可以优化计算资源和效率,带来实质性的效益。
因此,在本文中我们提出了首个将多视角相机和4D雷达点云融合的统一框架Doracamom,同时处理3D目标检测和语义占用预测任务。在OmniHDScenes、View-of-Delft (VoD) 和 TJ4DRadSet 数据集上进行的大量实验表明,Doracamom在两个任务中都取得了最先进的性能,为多模态 3D 感知建立了新的基准。
文章链接:https://arxiv.org/abs/2501.15394;
网络模型结构&技术细节
在详细介绍了本文提出的算法模型技术细节之前,下图展示了我们提出的Doracamom算法模型的整体网络结构,如下图所示。
整体而言,多视角图像和 4D 雷达点云被输入到摄像头和 4D 雷达编码器中,分别提取图像 2D 特征和 4D 雷达 BEV 特征。然后将这些特征传递给粗糙体素query生成器,该生成器结合图像和雷达特征来生成几何语义感知的粗粒度体素query。体素query编码器使用交叉视图注意力通过堆叠的transformer block迭代增强细粒度体素特征。
Camera & 4D Radar Encoders
在特征提取阶段,我们采用解耦架构,从两个输入模态中独立提取高维特征。相机编码器处理多视角图像,使用共享的ResNet-50 主干网络和特征金字塔网络作为Neck结构进行特征提取,从而获得多尺度特征。为了解决 4D 雷达点云的稀疏性问题并通过消除自车运动效应来获取其速度,我们实施了结合多帧雷达点云累积和速度补偿的预处理流程。该算法使用相应的自车车辆速度来处理每次雷达扫描,并通过雷达到自车的旋转矩阵将其转换到雷达坐标系中。为了补偿相对径向速度,根据每个点的方位角和仰角,将速度矢量分解为径向方向。然后使用旋转矩阵将补偿的速度变换到当前自车坐标系。对于每个点的位置,使用雷达到自车的变换矩阵实现变换。请注意,在累积操作期间会忽略由周围动态物体的运动引起的点的运动,因为这种运动很少会引入较大的误差。
4D Radar编码器处理输入的点云数据。我们采用RadarPillarNet来编码输入的4D毫米波雷达点云数据,进而通过分层特征提取生成伪图像。编码后的特征随后由 SECOND 和SECONDFPN 处理,以生成精细的4D雷达BEV特征。
Coarse Voxel Queries Generator
为了减少计算开销,我们设置了体素网格的BEV平面分辨率。虽然现有方法通常使用随机初始化来生成体素查询,但这种方法可能会给模型训练过程带来额外的复杂性。为了解决这一限制并提高视图变换的保真度,我们引入了一种新颖的初始化方法,该方法将从 4D 雷达数据中得出的几何先验与从图像中提取的语义特征相结合。这种集成使得能够生成具有几何和语义先验的粗粒度体素query,为后续细化程序奠定了更坚实的基础。
在雷达特征处理阶段,我们首先通过双线性插值将雷达 BEV 特征转换为与体素网格对齐,随后,我们使用 Conv-BN-ReLU进一步优化特征通道。通过应用简单的unsqueeze操作沿高度维度扩展 2D BEV 特征,我们获得了雷达 3D 体素特征,可以用数学形式表示为如下的形式
对于图像特征处理,我们首先根据3D体素query的形状在自车坐标系内定义 3D 参考点。同时,我们将体素特征初始化为零。然后使用相机的固有矩阵计算从自车坐标系到图像像素坐标的变换矩阵。
我们将参考点投影到每个图像平面上,以获得它们在特征图上的对应坐标。有效点由两个标准确定:必须位于特征图边界内并且一定是正数。特征采样过程采用最近邻插值,并采用“last-update”策略解决重叠的多视图区域。最终的粗粒度体素查询是通过元素相加获得的:
Voxel Queries Encoder
为了增强和细化体素查询,我们采用基于L层Transformer 的架构进行特征编码。我们采用可变形注意力进行跨视图特征聚合,这不仅可以缓解遮挡和歧义问题,还可以通过减少训练时间来提高效率。在跨视图注意模块中,输入包括体素查询、相应的 3D 参考点和图像特征。使用相机参数将 3D 参考点投影到2D 视图中,并从命中视图中采样和加权图像特征。输出特征可以表示为如下的形式:
Dual-branch Temporal Encoder
时序信息在感知系统中起着至关重要的作用。现有的相关方法已经证明,利用时序特征可以有效解决遮挡问题,增强场景理解,并提高运动状态估计的准确性。然而,这些方法仅限于在单个特征空间中进行时间建模,因此很难捕获全面的时空表示。为了解决这一限制,我们提出了一种新颖的双分支时序编码器模块,该模块在 BEV 和体素空间中并行处理多模态时间特征,其网络结构如下图所示。
具体而言,雷达 BEV 分支擅长捕获全局几何特征,而图像体素分支则专注于保留细粒度的语义信息。这种互补的双分支设计不仅在特征表达和时序建模方面提供了多样化的表示能力,而且还实现了计算成本和特征表达能力之间的优化平衡。此外,特征冗余机制显著增强了感知系统的鲁棒性。
在时序特征融合中,一个关键挑战是自车运动和动态物体运动导致的特征错位。为了解决自车运动引起的特征位移,我们提出了一种基于位姿变换的特征对齐策略,该策略可将历史特征与当前帧精确对齐。此外,为了进一步减轻动态物体造成的特征错位问题,我们采用可变形注意来自适应地融合当前帧和历史帧之间的特征。在体素时序分支当中,我们通过连接对齐的历史特征并通过简单的Res3D块对其进行处理,以实现高效的特征集成过程。
在 BEV 时序分支当中,我们也应用了类似的处理过程。历史 BEV 特征被concat到一起并通过 Res2D 块进行处理
Cross-Modal BEV-Voxel Fusion Module
为了有效利用体素和 BEV 空间的时序增强特征,我们提出了一个跨模态 BEV-体素融合模块,该模块为下游多任务解码生成几何和语义丰富的多模态表示。其整体网络结构如下图所示,该模块通过注意力加权机制自适应地融合异构特征,同时采用辅助任务进一步提高生成特征的质量。
具体来说,该模块首先通过 3D 反卷积块对低分辨率体素特征进行上采样,以获得高分辨率特征,以便随后进行融合。对于体素特征增强,首先通过 2D 中的 Conv-BN-ReLU 块处理雷达 BEV 特征以重塑特征通道,然后进行解压缩操作,沿高度维度扩展 2D BEV 特征。然后将扩展的特征与体素特征连接起来,并通过卷积块进行处理以降低通道维度。最后,采用具有注意机制的残差结构来获得融合的特征。
实验结果&评价指标
下表展示了不同方法在 OmniHD-Scenes 测试集上针对 3D 检测任务的性能比较。与其他基于 4D 雷达、摄像头或它们融合的方法相比,我们提出的 Doracamom 实现了卓越的整体性能(39.12 mAP 和 46.22 ODS)。具体来说,它比 BEVFusion 好 5.17 mAP 和 3.22 ODS,同时比 RCFusion 好 4.24 mAP 和 4.69 ODS。即使在没有 DTE 模块的单帧设置中,我们的模型在 mAP 方面也优于所有其他方法。此外,Doracamom 显著缩小了与基于 LiDAR 的 PointPillars(46.22 ODS vs. 55.54 ODS)的性能差距,这证明了我们提出的架构的有效性以及低成本传感器配置在自动驾驶感知系统中的巨大潜力。在 TP 指标方面,我们的方法在 mAOE 和 mAVE 中都取得了最佳性能,分别达到 0.3545 和 0.6151。
下图所示的可视化结果表明,Doracamom 可以在白天和夜晚场景中提供可靠的性能。它在拥挤和复杂的场景中实现了较高的检测精度,只有偶尔漏检远处被遮挡的物体。
此外,下图展示了不同方法的 BEV 特征图。可以观察到,Doracamom 的特征图显示出清晰的物体边界和高度可区分的特征,并且没有物体严重拉伸或扭曲等重大问题。
下表展示了不同方法在 OmniHDScenes 验证集上针对占用预测任务的性能比较。与其他方法相比,我们提出的 Doracamom 实现了卓越的整体性能(33.96 SC IoU 和 21.81 mIoU)。当 BEVFormer 使用更大的主干网络(R101-DCN)和更高分辨率的图像输入时,其性能超越了结合摄像头和 4D 雷达数据的多传感器融合方法,如 M-CONet。尽管如此,凭借我们精心设计的架构,即使是Doracamom-S 也比BEVFormer-T 的性能高出 +1.72 SC IoU 和 +2.00 mIoU。
此外,下表展示了不同模型在不利条件下的表现,其中 Doracamom算法模型取得了更好的结果,mAP 为 41.86,ODS 为 48.74,持续优于其他方法,并表现出更强的稳健性。
下表展示了不同模型在资源消耗和效率方面的比较。与现有方法相比,我们的 Doracamom 系列模型在性能和效率之间表现出色。在资源消耗方面,Doracamom-S 仅需要 4.71G 内存和 49.63M 参数,比 BEVFusion(约 8G 内存和 57M 参数)和 PanoOcc(5.03G 内存和 51.94M 参数)更轻量。即使包含 2 个帧,Doracamom-2frames 也能保持相对较低的资源使用率(4.72G 内存,52.67M 参数)。在推理效率方面,Doracamom-S 和 Doracamom-2frames 分别达到 4.8FPS 和 4.4FPS,明显优于 BEVFusion 系列(3.2-3.6FPS)。虽然比 PanoOcc (5.5FPS) 稍慢,但我们的模型表现出了显著的性能优势:Doracamom-2frames 在所有评估指标中都实现了最佳性能,大大超越了其他方法。
结论
在本文中,我们提出了 Doracamom算法模型,这是第一个具有多视角相机和 4D 雷达融合的统一多任务感知框架。在 OmniHD-Scenes、VoD 和 TJ4DRadSet 三个数据集上的实验结果表明,我们的方法在 3D 目标检测和 3D 语义占用预测任务中都实现了最先进的性能。
#HERMES
首个统一3D场景理解与生成的自动驾驶世界模型
本篇分享论文HERMES: A Unified Self-Driving World Model for Simultaneous 3D Scene Understanding and Generation
,介绍首个统一3D场景理解与生成的自动驾驶世界模型。
- 论文:https://arxiv.org/abs/2501.14729
- 仓库:https://github.com/LMD0311/HERMES
- 主页:https://lmd0311.github.io/HERMES/
背景
在自动驾驶领域,世界模型(Driving World Models, DWMs)旨在预测未来场景演变、提升系统感知与决策能力,并成为近期业界的热点。然而,当前的DWM主要专注于场景生成任务,尽管能够预测环境未来的变化,却在场景理解能力上表现不足,难以全面解释驾驶环境。这种割裂使得模型在动态驾驶场景中的信息处理与预测能力大打折扣。
与此同时,视觉语言模型(Vision-Language Models, VLMs)在场景理解任务中展现了强大的潜力,能够处理复杂的视觉问答和场景描述。然而,它们缺乏对未来场景的建模能力,难以为自动驾驶系统提供前瞻性的预测。这一现状凸显出一个关键挑战:如何在单一框架内同时实现对驾驶环境的深刻理解与未来场景的精准预测?
针对这一挑战,本文提出了HERMES,一个统一驾驶世界模型。HERMES实现了场景理解与生成的一体化建模,通过将多视角场景的几何与语义信息整合到统一的表示中,同时利用世界查询机制促进了当前三维环境文本理解与未来场景生成之间的高效信息流动。HERMES的提出不仅打破了场景理解与生成任务的边界,也为世界模型的研究提供了全新的视角。
名字的来源:HERMES
HERMES这一名称源自于古希腊神话中的赫尔墨斯(Hermes),他是众神的使者,能够迅速地传递信息,跨越天地,连接不同的世界。本文提出的模型在一个框架内能够同时进行3D场景理解与未来场景生成,还能够实现知识的传递与交互,高效地实现驾驶环境的预测与理解。
方法:HERMES 的设计
HERMES的设计旨在通过Bird’s-Eye View (BEV)场景表征形式与世界查询(World Queries)机制实现场景理解与生成的无缝衔接和整合。其核心架构如下图所示:
1) 鸟瞰视图 (BEV) 表示
HERMES使用BEV表示将多视角空间信息压缩为统一表示,尽量缓解单独处理6张图片造成的LLM输入长度限制问题,同时保留几何空间关系和多视角交互信息。具体包括:
- 特征压缩:为了保证方法的简洁,直接使用BEVFormer作为BEV Tokenizer;并简单地使用卷积下采样模块,对场景特征进行压缩,在相比常用的BEV特征空间压缩4倍,得到高效且语义丰富的BEV表示(Flattened BEV, )。通过保留空间几何关系,确保多视角特征能够支持生成与理解任务。
- 点云渲染器(Render):将下采样后的BEV特征再次通过插值和卷积上采样回原本的大小。使用三维卷积将二维的BEV特征(Encoded BEV, )变换为体素特征。再使用体渲染技术预测不同射线方向的深度以得到环境点云。
2) 世界查询 (World Queries) 机制
为实现理解与生成任务的深度结合,HERMES提出了世界查询机制,使用Flattened BEV以池化的方式初始化一系列World Queries,利用LLM的因果注意力机制,从这些queries从文本token中提取世界知识。
为了将World Queries的信息注入进对应的未来帧,使用跨时间链接模块(current to the future link),将当前场景BEV特征与未来场景特征连接,通过多个跨注意力块,捕获场景演化的时空关系,并得到一系列未来帧BEV特征()。将生成的未来BEV特征转换为点云表示,以生成未来场景。
3) 多任务联合优化
HERMES 同时优化理解与生成任务,通过以下目标函数实现两者的协同训练:
- 理解目标:通过自回归语言建模任务,提升对当前场景的语义理解能力。
- 生成目标:通过监督未来点云的生成过程,同时用当前帧点云作为辅助任务,优化模型的几何生成能力。
结果
HERMES 在多个数据集上的实验表明:
- 场景生成:在 nuScenes 数据集上,相比CVPR 2024 ViDAR,HERMES 的点云生成误差降低了 32.4%,尤其在未来 3 秒的预测中表现优异。
- 场景理解:在 OmniDrive-nuScenes 数据集上,HERMES 的 CIDEr 指标提升了 8.0%。
Demo:
,时长00:09
,时长00:09
更多Demo可以在项目仓库/主页中找到:https://github.com/LMD0311/HERMES https://lmd0311.github.io/HERMES/
总结
HERMES 作为首个统一的3D场景理解与生成模型,通过统一的BEV表示和世界查询机制,为自动驾驶的感知与预测任务提供了强有力的工具。
#Occ-LLM
全面超越OccWorld!Occ世界模型再度问鼎SOTA(港科大&华为诺亚)
大语言模型(LLMs)在机器人和自动驾驶领域取得了重大进展。本研究提出了首个基于占用的大语言模型(Occ-LLM),这是将大语言模型与一种重要表示方式相结合的开创性尝试。为了有效地将占用信息编码为大语言模型的输入,并解决与占用相关的类别不平衡问题,研究提出了运动分离变分自编码器(MS-VAE)。这种创新方法利用先验知识,在将动态对象和静态场景输入定制的变分自编码器(VAE)之前进行区分。这种分离增强了模型专注于动态轨迹的能力,同时有效地重建静态场景。Occ-LLM在关键任务中的有效性得到了验证,包括4D占用预测、自车规划和基于占用的场景问答。综合评估表明,Occ-LLM显著优于现有的最先进方法,在4D占用预测任务中,交并比(IoU)提高了约6%,平均交并比(mIoU)提高了4%。这些发现凸显了Occ-LLM在重塑机器人和自动驾驶当前范式方面的变革潜力。
行业介绍
大语言模型发展迅速,已成为推动各行业人工智能发展的重要力量。最初为自然语言处理设计的大语言模型,因其强大的泛化能力,在自动驾驶等复杂领域也展现出了卓越的适应性。这些能力对于目前缺乏泛化性的机器人或自动驾驶系统而言至关重要。当前,大语言模型在自动驾驶中的应用主要基于图像输入,但这种方式缺乏全面理解环境所需的空间感知能力。现有的基于视觉和基于激光雷达的方法,虽然增强了车辆导航和环境理解能力,但计算成本高,且中间推理过程往往缺乏透明度。
在自动驾驶中,占用是一种极具表现力的模态,它通过全面表示场景的前景和背景,提供丰富的空间和语义信息。这种通用表示方式有助于感知物体,无论其具体类别是已知还是未知。值得注意的是,像特斯拉这样的领先汽车制造商,正逐步在其车辆中采用基于占用的系统,这凸显了向这种强大的环境解释方法的转变。
我们旨在利用大语言模型复杂的分析和泛化能力,开发一种用于自动驾驶各种下游任务的基础模型,以解释和利用占用网格。然而,将占用表示直接集成到大语言模型中具有挑战性,这是由于占用类别不平衡,以及代表空气的体素占主导地位,导致学习效率低下和内存问题。为了克服这些挑战,提出了一种名为运动分离变分自编码器(MS-VAE)的新方法。该方法将占用场景中与可移动物体(如汽车、行人)相关的体素,与不可移动结构(如街道、绿植)相关的体素分离。这样做增强了模型对动态对象轨迹的关注,并改善了静态场景的重建,类似于残差学习。这种分离显著降低了学习难度,提高了模型的整体性能。
基于占用的大语言模型(Occ-LLM)经过精心设计,可满足自动驾驶领域的多种应用需求。该模型的主要应用包括4D占用场景预测、自车规划和基于占用的场景问答,这些应用对于提高自动驾驶系统的安全性、效率和可靠性至关重要。为了验证模型的有效性,研究人员进行了广泛的评估,将Occ-LLM与其他最先进的方法进行比较。结果显示,Occ-LLM性能卓越,在4D占用场景预测中,IoU达到32.52%,mIoU达到20.99%,显著优于最先进模型(其IoU为26.63%,mIoU为17.14%,3秒平均值)。在自车规划方面,该模型将3秒平均L2距离降至0.28米,而领先的替代模型为1.17米。此外,在基于占用的场景问答中,Occ-LLM始终能提供准确可靠的回答,从而增强了自动驾驶系统的决策能力。
主要贡献如下:
- 引入了用于自动驾驶的基于占用的大语言模型Occ-LLM,展示了卓越的场景理解能力。
- 提出运动分离变分自编码器MS-VAE,通过区分可移动和不可移动元素来管理大量占用网格数据,在各项指标上提升了系统性能。
- 通过在4D占用场景预测、自车规划和基于占用的场景问答中的应用,展示了Occ-LLM的多功能性,说明了其在自动驾驶多个维度上的优越性。
- 通过接入现有的占用预测方法,展示了Occ-LLM的泛化能力,说明了其在自动驾驶中的实用性。
相关工作1)多模态大语言模型
多模态大语言模型的最新进展引发了广泛关注,它将大语言模型的先进推理能力与图像、视频和音频数据相结合。这些模型在零样本和少样本图像分类、分割和目标检测等任务中表现出色,充分利用了视觉和文本数据之间的协同作用。在自动驾驶领域,大语言模型弥补了关键差距,增强了场景理解能力,提供了更丰富的语义上下文,并促进了当前系统所缺乏的决策过程。已经有几种方法被提出,以在自动驾驶中利用大语言模型。基于视觉的方法,如DriveGPT4,通过解释视频输入生成与驾驶相关的文本响应;而像HiLM-D这样的模型,则通过高分辨率视觉数据增强危险识别和意图预测能力。基于激光雷达的方法利用矢量化视觉嵌入,赋予大语言模型环境感知能力,实现对驾驶场景的详细分析。
2)占用网络
近年来,3D语义占用通过明确建模3D网格内每个体素的占用状态,提供了对环境更详细的表示。SSCNet率先引入语义场景补全任务,整合了几何和语义信息。随后的研究通常利用具有明确深度信息的几何输入。MonoScene提出了第一种用于语义场景补全的单目方法,使用3D UNet来处理通过视线投影生成的体素特征。基于转移架构设计了各种网络。此外,一些同期研究专注于提出用于3D语义占用预测的环视基准,推动了占用领域的快速发展。OccWorld基于3D占用学习世界模型,因其可解释性和效率备受关注。这里尝试以大语言模型为桥梁,统一占用任务。
Occ-LLM方法
Occ-LLM框架将大语言模型与占用表示相结合,以改进自动驾驶系统。该框架增强了空间和语义理解能力,有助于场景解释和决策制定。首先使用现有方法将多视图图像转换为占用表示。下面首先介绍核心的运动分离变分自编码器MS-VAE,它能够区分动态和静态元素,降低计算负载并提高学习效率。MS-VAE的输出经过进一步处理和展平,输入到大语言模型中。Occ-LLM专为各种自动驾驶任务设计,支持4D占用预测、自车规划和基于占用的场景问答,提高了自动驾驶的安全性和有效性。
1)运动分离变分自编码器
基于已有的多模态大语言模型集成方法,研究旨在训练一个变分自编码器,以促进模态融合并降低计算成本。将占用表示直接集成到大语言模型中面临挑战,因为占用类别不平衡,且空气体素占主导,导致数据表示稀疏且低效。为了克服这一问题,研究提出了运动分离变分自编码器MS-VAE,它可以分离占用网格中的动态和静态组件。这提高了编码效率,并将重点转移到对自主导航至关重要的动态元素上。因此,MS-VAE能够更平衡、有效地集成到大语言模型框架中。
MS-VAE的核心概念是训练两个不同的VQ-VAEs,分别对移动和静态占用体素进行编码和解码。不过研究发现,使用两个不同的codebook分别处理移动和静态体素,同时保持单个编码器和解码器,也能获得令人满意的结果。为了清晰阐述,用数学公式描述该方法。
设表示输入的占用表示,和分别表示移动和静态体素。编码器将输入映射到潜在空间。对于MS-VAE,为移动和静态体素定义两个单独的潜在变量和:
每个编码后的潜在变量和在相应的codebook和中搜索,并在输入解码器之前,被最相似的codebook entry替换。这个过程表示为:
解码器从量化后的潜在变量和重建输入:
为了便于在占用表示中分离运动和静态元素,基于体素的分类进行变换。设表示可移动类别的集合。在修改后的占用表示中,定义运动和空气填充的指示函数如下:
定义指示函数,使得:
如果否则
则修改后的运动占用和静态占用为:
其中,air表示静态占用网格中空气的表示,通常编码为代表未占用空间的占位值。
为了重建原始占用表示,利用来区分活动运动区域。重建后的占用将静态和运动组件组合如下:
训练MS-VAE的总体损失函数结合了重建损失和承诺损失,以确保编码后的潜在变量接近codebook entries:
通过为移动和静态体素使用单独的codebook,同时保持统一的编码器和解码器,并适当地处理占用表示,MS-VAE有效地捕捉了每种体素类型的独特特征,从而改善了占用重建和泛化能力。
此外,整体VAE架构参考了OccWorld实现中的方法,具体将占用视为具有16个通道的2D数据,并使用2D VAE进行编码和解码。然而,为了保留三维信息的完整性,在编码器之前和解码器之后都集成了一层轻量级3D卷积。这种修改尊重了占用表示固有的空间维度,显著提高了重建占用的质量。与传统使用2D VAE相比,这种方法显著提高了占用表示在三维空间中的保真度。
2)占用与大语言模型集成的预处理
Patchify:使用MS-VAE对原始占用表示进行编码后,得到的潜在表示仍然很大。为了解决这个问题,采用类似于视觉Transformer(ViT)的方法,将占用潜在空间划分为小网格并展平。研究发现,path大小对占用重建质量有显著影响。这是因为预测未来占用帧涉及感知和低级视觉任务。例如,感知任务通常受益于较大的patch大小,有助于更好地理解输入数据的语义信息;相反,低级视觉任务通常采用较小的patch大小,以实现更高质量的数据重建。通过消融研究确定,patch大小为10时可获得最佳结果。
帧分离:研究发现,每个帧展平后的占用潜在表示相对较长,直接连接多个帧展平后的占用潜在表示会导致生成的占用出现位置漂移。这种漂移表现为一个帧的部分占用出现在后续帧中,从而造成级联错位。为了解决这个问题,提出了一个简单但有效的解决方案:在每个占用潜在帧的开头和结尾添加特定的文本标记。具体来说,在开头使用“”,在结尾使用“”。这些标记在推理时界定了帧之间的间隔,有效地消除了漂移问题。
预融合:引入一种预融合方法,以更好地建立占用表示与自车动作之间的联系。该方法首先通过多个MLP层对自车动作进行编码。类似于SE-Net的方法,然后使用编码后的动作潜在变量作为权重,对占用特征进行调制。这种技术增强了占用表示与自车动作之间的一致性,提高了模型的整体性能。
3)下游任务
Occ-LLM框架支持多种对增强自动驾驶系统至关重要的下游任务,包括4D占用预测、自车规划和基于占用的场景问答。任务切换通过特定提示进行管理:“<4-D occupancy forecasting and self-ego planning>”启动4D占用预测和自车规划的组合任务,而“”触发问答任务。这些任务共同增强了态势感知和决策能力。4D占用预测用于预测环境动态,这对于预测危险至关重要。自车规划利用这些预测实现安全、高效的导航。基于占用的场景问答用于解释复杂情况,有助于做出明智的决策。这些能力共同显著提高了自动驾驶系统的安全性、可靠性和效率。
实验分析
我们展示了一系列广泛的实验,以评估所提出的Occ-LLM的性能。研究使用Llama2作为基础模型。使用交并比(IoU)和平均交并比(mIoU)指标评估4D占用预测。使用L2距离指标评估自车规划能力。
采用Nuscenes数据集,该数据集包含1000个场景。这些场景分为700个用于训练,150个用于验证,150个用于测试。每个场景包含大约50帧,对应一个占用场景。占用表示的维度为(200, 200, 16),其中前两个维度(200, 200)代表长度和宽度,16代表高度。这种数据集配置能够在各种场景下全面评估和验证模型的性能。
1)与最先进方法的比较
4D占用预测和自车规划:表1将研究方法与4D占用预测和运动规划领域的最先进方法进行了比较,提供了1秒、2秒和3秒间隔的IoU、mIoU和L2距离等指标。研究方法在准确性和一致性方面始终优于最先进方法。
评估的方法包括基于激光雷达的方法,如IL、NMP和FF,以及基于摄像头的方法,如UniAD、VAD-Base和OccNet。研究还将预测的占用数据集成到Occ-LLM框架中,像BevFormer+Ours这样的模型实现了更高的性能,平均IoU达到23.79%,mIoU达到10.21%,L2距离为0.43米。
与基于占用的方法相比,研究方法超越了OccWorld,平均IoU达到32.52%,mIoU达到20.99%,L2距离为0.28米,展示了在自动驾驶中更高的准确性和可靠性。
问答:研究提出的方法展示了专为自动驾驶场景定制的先进问答能力。如图5所示,该系统有效地解释多视图相机输入,以预测占用情况,并对有关驾驶环境的查询提供准确响应。它可以识别场景中的关键对象,为自车推荐安全的操作,并描述潜在的危险,如准备过马路的行人。
为了定量评估系统的性能,使用标准指标(即BLEU、ROUGE L、CIDEr和GPT Score),将该系统与DriveLM模型进行了对比评估。研究模型在所有指标上均优于DriveLM,获得了更高的分数。这些结果证实了研究方法在自动驾驶环境中提供准确且上下文相关答案的有效性。
2)消融研究
OccWorld的VAE与MS-VAE的对比分析:表3比较了OccWorld的VAE与研究提出的MS-VAE,结果显示MS-VAE在重建性能上有显著提升。添加3D卷积层和运动分离策略提高了IoU和mIoU,MS-VAE的IoU达到62.74%,mIoU达到71.08%,而OccWorld的VAE分别为59.07%和60.50%。
Patchify中不同patch大小的对比分析:表4研究了不同patch大小对重建性能的影响。patch大小为10时表现最佳,在训练集上IoU为32.48%,mIoU为26.16%,在验证集上IoU为27.12%,mIoU为26.83%,能够在细节捕捉和效率之间取得平衡。
Occ-LLM模块的消融研究:表5展示了Occ-LLM模块的消融研究。基线模型的IoU为20.
#纯视觉GPVL
告别激光雷达?188ms 生成安全轨迹!
摘要
自动驾驶是一项具有挑战性的任务,它要求感知和理解周围环境以规划安全的行驶轨迹。尽管现有的基于视觉的端到端模型已经取得了有希望的结果,但这些方法仍然面临视觉理解、决策推理和场景泛化的挑战。为了解决这些问题,提出了一种名为GPVL(Generative Planning with 3D-Vision Language Pre-training)的生成性规划模型,用于端到端的自动驾驶。该提出的范式有两个显著方面。
一方面,设计了一个3D视觉语言预训练模块,旨在弥合鸟瞰图中视觉感知与语言理解之间的差距。另一方面,引入了一个跨模态语言模型,以自回归的方式根据感知和导航信息生成全面的驾驶决策和精细的轨迹。
论文标题:Generative Planning with 3D-vision Language Pre-training for End-to-End Autonomous Driving
论文作者:Tengpeng Li, Hanli Wang, Xianfei Li, Wenlong Liao, Tao He, Pai Peng
论文地址:https://arxiv.org/pdf/2501.08861官方网站:https://github.com/ltp1995/GPVL
在具有挑战性的nuScenes数据集上的实验表明,与最先进方法相比,所提出的方案实现了优异的性能。此外,当处理各种场景中的高级指令时,GPVL表现出强大的泛化能力和实时潜力。GPVL的有效、稳健和高效的性能对未来自动驾驶系统的实际应用至关重要。
自动驾驶要求系统能深刻理解周围环境以确保安全和高效的部署。优秀的自动驾驶系统需要全面感知驾驶环境,并基于道路信息精确规划行驶路径。
近年来,端到端的自动驾驶框架通过传感器数据理解和输出规划决策,取得了显著进展。然而,早期方法因缺乏对驾驶场景的深入理解,导致解释性有限且难以收敛。为改善性能,一些方案利用传感器信息集成多个视觉任务,如3D目标检测和运动预测,但这些方法在结合上下文线索进行决策方面仍存在挑战。随着大型语言模型的发展,其推理能力被应用于自动驾驶,尽管如此,这些模型在处理复杂的3D空间关系时表现不佳。
为了克服这些问题,提出了一种新的基于3D视觉语言预训练的生成性规划(GPVL)范式,如图1所示。GPVL首先提取多视角图像的鸟瞰图特征,涵盖基本语义元素;然后引入矢量化变换器学习关键感知信息。接着,开发了一个3D视觉语言预训练模块,对齐视觉特征与语言表示,促进共享特征空间内的3D场景理解和文本推理。此外,基于预训练模型设计了2D场景字幕模型,用于生成描述。最后,将视觉字幕、对齐的3D特征和导航指令输入语言模型,自回归地生成驾驶决策和轨迹。本文的主要贡献在于以下几个方面:
- 提出了一种3D视觉语言预训练模块,建立了视觉和语言特征之间的组内相关性,有助于对驾驶环境的深入理解。
- 开发了一种跨模态语言模型,以自回归方式利用字幕、感知和导航信息生成决策和轨迹,赋予模型推理和生成能力。
- 我们提出了一个基于3D视觉语言预训练的生成性规划框架,该框架学习语言引导的感知特征并生成情境化轨迹,从而提高系统的安全性。
▲图1|(a)现有的端到端自动驾驶框架仅利用视觉信息来完成感知、预测和规划任务。(b)新兴的注入大型语言模型的自动驾驶模型仅仅引入了2D视觉特征,并使用耗时的大型语言模型进行规划决策。(c)设计的方案专注于3D视觉语言预训练,并通过语言生成风格进行规划。■ 端到端自动驾驶
端到端自动驾驶旨在创建一个完全可微的系统,直接将传感器数据转化为车辆控制指令,整合感知、预测、规划和控制模块以减少累积误差并提高安全性。现有模型可分为开环和闭环方法:前者如Hu等人(2023)和Jiang等人(2023)在真实数据集上进行训练评估;后者使用模拟器如CARLA获取反馈,优化未来位置和动作特征。
■ 大型语言模型在自动驾驶中的应用
大型语言模型(LLM)的应用增强了自动驾驶系统的决策能力。研究如Dilu(Wen等人,2023)和GPT-driver(Mao等人,2023)利用LLM生成合理轨迹,并通过多模态语言模型建立视觉与语言间的语义关联。然而,这些方案在三维空间感知和语言表示对齐方面存在不足。本工作引入BEV视觉变换器和3D视觉语言预训练模块,以解决上述挑战并实现鲁棒轨迹生成。
▲图2| GPVL用于自动驾驶的pipeline©️【深蓝AI】编译
所提出的GPVL的整体框架如图2所示,包含三个关键组件:(1) 主干网络基于提取的鸟瞰图(BEV)特征生成监督下的检测、地图和运动特征;(2) 3D视觉语言预训练模块旨在将视觉和语言特征对齐到一个共同的语义空间中;(3) 跨模态语言模型以生成式的方式产生可靠的决策和轨迹。
■ 方法概述
假设表示采样的多视角图像,所提出方案的目标是生成自车的安全驾驶轨迹。为了获得令人满意的规划结果,提出了 GPVL 以建立 3D 视觉特征与语言表示之间的语义关联,并以自回归方式生成高质量路线。图 2 展示了所提出模型的详细结构。具体来说,对于输入的多视角图像,我们首先使用预训练的 BEVformer中的 BEV 编码器提取 BEV 特征。随后,被输入到检测、运动和地图变换器中,以同时学习 3D 物体框、代理运动和地图元素,生成受限的检测特征、运动特征和地图特征。然后,将它们三个送入由多个变换器层组成的视觉注意力块,生成注意力视觉特征、,及其连接。同时,环境的真实描述被整合到基于BERT结构的文本注意力块中,以获得文本表示 、、及其连接。进一步设计了一个组对齐模块,以将这些视觉和语言特征投影到共享的语义空间中。最后,连同自车的导航提示被送入语言模型,以自然语言格式生成可靠的轨迹。
■ 3D视觉语言预训练
3D视觉语言预训练模块是通过对比学习开发的,旨在建立视觉和语言模态之间的多层次对齐。一些先前的方法引入了预训练的大规模语言模型以增强对驾驶场景的感知和理解。然而,这些方法要么缺乏3D空间信息,要么在不同表示之间存在语义差距,这阻碍了基于提取特征的准确目标定位和轨迹推断。相比之下,所提出的模型利用监督检测、运动和地图特征来感知目标的3D空间分布,并通过3D视觉语言预训练模块最小化不同特征之间的语义差距。3D视觉语言预训练模块是通过对比学习开发的,旨在建立视觉和语言模态之间的多层次对齐。一些先前的方法引入了预训练的大规模语言模型以增强对驾驶场景的感知和理解。然而,这些方法要么缺乏3D空间信息,要么在不同表示之间存在语义差距,这阻碍了基于提取特征的准确目标定位和轨迹推断。相比之下,所提出的模型利用监督检测、运动和地图特征来感知目标的3D空间分布,并通过3D视觉语言预训练模块最小化不同特征之间的语义差距。
BEV注入的视觉特征。在所提出的 GPVL 中,引入了驾驶场景中的三种目标,包括前景物体、代理运动和地图元素。我们首先利用视觉嵌入层将、和编码到相同的通道维,然后,引入变换器结构通过长距离注意力建立紧凑的交互以增强视觉特征。整个函数可以表示为:
其中表示特征嵌入层,表示视觉注意力块。因此,,和。随后,注意力检测、运动和地图特征沿空间维度集成以获得全局视觉特征,表示为:
其中表示连接操作。
环境语言特征。为了赋予模型语言意识,通过利用 BERT 结构提出了一个文本注意力模块。该模块处理感知和规划标签,例如边界框、未来轨迹和地图元素,这些标签使用预定义模板转换为特定于驾驶的语言提示。与检测、运动和地图特征相关的描述随后被输入到文本注意力块中,以生成相应的语言表示。现在,整个过程可以表述为:
其中,和分别代表前景物体、未来运动和地图元素的真实标签。表示基于 BERT 的文本注意力块。、和。随后,这些描述性特征被连接起来形成全局文本表示,表示为:
组内对齐。为了充分利用不同特征之间的多层次关联,通过使用对比学习设计了一种组内对齐策略。考虑了四种类型的 3D 视觉语言对齐组,包括与检测相关的 VL 组、与运动相关的 VL 组、与地图相关的 VL 组和全局 VL 组。例如,在一批个训练样本中,对齐函数旨在将匹配的 VL 样本视为正样本,将不匹配的 VL 样本视为负样本。给定视觉特征和文本特征 作为输入,对比损失定义为:
其中,是一个可学习的温控系数,是一个相似性函数。函数通过计算视觉和文本特征之间的相似性得分获得,这些特征通过全局平均池化处理。在此模块中,引入了一个可学习的权重来探索不同表示之间的细粒度关系。例如,与检测相关的 VL 组的相似性函数可以表述为:
因此,总的组内对齐损失定义为:
■ 通过跨模态语言模型进行规划
自我代理动态交互是自动驾驶系统中的一个关键问题。先前的研究尝试引入可学习查询来建模自我代理关系,以获取自我车辆的查询特征,并将其输入多层感知器(MLP)以获得预期的未来轨迹。尽管这种策略在特定的基准数据集上可以表现出良好的性能,但直接使用MLP生成轨迹可能导致过拟合,并且在生成的路点之间难以进行上下文关系推理。
面对这些挑战,开发了一种用于生成性规划的跨模态语言模型,以赋予GPVL理性且稳健地做出安全决策的能力。
自我代理跨模态解码器。所提出的模型为自动驾驶汽车的当前状态制定语言提示,其中包括其高级驾驶命令和位置。信息丰富的提示被发送到文本嵌入层,以产生自动驾驶汽车的初始语言表示。同时,如图 2 所示,设计的场景字幕模型生成视觉描述(例如,交通灯、标志、关键对象和天气)。随后,环境视觉特征和提示特征被输入到语言模型中,以学习具有丰富驾驶场景和导航信息的规划特征。该过程可以表述为:
其中表示预训练的语言模型,Cap 是 2D 场景字幕,Nav 表示高级导航。最终,被发送到线性层(LeCun, Bengio, 和 Hinton 2015)和 Softmax(Bishop 和 Nasrabadi 2006)层,以产生词向量为:
生成式规划。类似于大多数视觉字幕任务,引入了交叉熵损失以语言建模的方式输出轨迹。在训练过程中,每个样本都配备了一个提示字幕作为参考,其中包括自我车辆的高级命令和未来轨迹,损失函数表示为:
其中表示训练期间所有可训练的参数,表示第t个预测词。训练损失。所提出的 GPVL 的总体损失包括三个训练组件,包括视觉感知损失、3D 视觉语言对齐损失和轨迹字幕损失,可以定义为:
其中表示与视觉下游任务相关的损失,包括 3D 目标检测、地图构建和运动预测。
■ 数据集和自动评估指标
实验在nuScenes数据集上进行,该数据集包含1,000个交通场景,每个视频约20秒,提供超过140万个3D边界框。评估指标包括位移误差(L2)和碰撞率(Collision),以及延迟(Latency)和帧每秒(FPS)来衡量实时性能。
■ 实现细节
模型预测未来3秒的轨迹,输入图像大小为1280 × 720,使用ResNet50提取特征,BEV查询、边界框和地图点数量分别为200 × 200、200和100 × 20。训练使用AdamW优化器,学习率分三个阶段调整,最终模型在PyTorch框架下用8张NVIDIA RTX A6000显卡训练。
■ 与最先进方法的比较
将所提出的方案与13种自动驾驶方法进行了比较,包括8种传统的非自回归方法和5种注入LLM的自回归方法。
▲表1| 开环规划性能
定量结果。表1展示了所提出的GPVL与其他最先进方法的统计对比。总体而言,GPVL的统计性能明显优于其他方法。具体来说,在L2距离指标上GPVL获得了最低的分数,相比VAD它分别在1秒、2秒、3秒时减少了0.18米、0.28米、0.34米的规划位移误差,平均减少了0.27米,这表明其轨迹预测的准确性更高。此外,GPVL在大多数碰撞率指标上的表现最佳,突出了其在避免碰撞方面的卓越安全性和稳健性。与引入辅助任务或利用LLM的方法相比,所提出的方法保持了相当的规划性能,并实现了188.7毫秒的延迟和5.3 fps的推理速度,显示了其实用应用的潜力。根据BEV-Planner的报告,所提出的方案排除了自我状态信息以防止快捷学习。
▲表2|在左转、右转和直行命令下的L2距离和碰撞率(Col.)的统计结果©️【深蓝AI】编译
表2显示了左转、右转和直行命令下的L2和Collision评分。显然,GPVL在所有指标上都显著优于UniAD和VAD。在nuScenes数据集中,87.7%的训练样本和88.2%的验证样本是简单的直行场景。因此,UniAD和VAD更容易在这些样本上过拟合并学习捷径,导致在更复杂的转弯场景中的表现不佳。相比之下,所提出的方法在各种场景中都获得了有利的结果,展示了在不同驾驶情况下的强大泛化能力。
▲图3| 在nuScenes数据集上,所提出的GPVL、VAD和真实情况的可视化对比
定性结果。图3展示了GPVL生成的规划结果与VAD及真实情况的对比。为了提供对驾驶场景的全面理解,包含了多视角相机图像,并在前视图中可视化了规划轨迹。总的来说,得益于所提出的3D视觉语言预训练模块和跨模态语言模型,设计的模型生成了准确且合理的轨迹。例如,在第一个场景中,当自我车辆被指示直行时,GPVL生成的轨迹引导车辆安全通过城市道路。相反,VAD的轨迹存在与路边发生碰撞的风险。在第三个场景中,GPVL的结果紧密匹配真实情况,使车辆能够在交叉路口安全左转。然而,VAD的规划决策更为激进,可能会导致与迎面而来的车辆发生碰撞。
■ 消融研究
▲表3| 在nuScenes上的GPVL消融研究,其中Perc、Cap、VLP、GA和CLM分别代表感知模块、字幕生成模型、3D视觉语言预训练、组内对齐和跨模态语言模型
表3中的消融研究系统地探讨了GPVL的关键组件在nuScenes数据集上的贡献。没有感知模块时,GPVL在检测前景物体、预测运动和构建地图方面遇到困难,导致L2和碰撞(Collision)分数升高。禁用视觉语言预训练(VLP)和组对齐(GA)组件显著降低了性能,突显了模型在连接视觉和语言理解方面的强大能力。缺少GA会导致明显的性能下降,表明其在细粒度特征关联中的重要性。排除跨模态语言模型(CLM)会增加L2和碰撞分数,强调了其在生成合理规划决策方面的作用。最后,如表3第六行所示,所有模块的集成产生了最佳性能,展示了各组件协同作用的效果。
■ 零样本泛化
▲表4| 为了评估在新城市的零样本性能,模型在 Group1 中在波士顿训练并在新加坡测试,在 Group2 中在新加坡训练并在波士顿测试
▲表5| 为了验证模型在未见过的场景中的鲁棒性,测试图像中引入了四种类型的噪声,包括雨、雾、雪和黑暗
为了验证模型的泛化能力,我们在来自两个不同城市环境(即波士顿和新加坡)构建的数据集上训练并测试模型。具体来说,引入了两组实验:(1) 在波士顿数据集上训练并在新加坡数据集上测试;(2) 在新加坡数据集上训练并在波士顿数据集上测试。如表4所示,GPVL在这两组中的评估得分明显优于UniAD和VAD。
此外,为了验证GPVL的鲁棒性,我们在测试图像中引入了四种类型的噪声(即雨、雾、雪和黑暗)。如表5所示,在这些噪声条件下,UniAD和VAD受到了显著的负面影响,而对GPVL的影响较小。因此,GPVL在各种实际场景中的出色表现展示了其提高自动驾驶系统鲁棒性和安全性的能力。
本研究提出了一种新颖的3D视觉语言模型的生成式规划方法,用于端到端自动驾驶。该方法设计了3D视觉语言预训练模块,整合文本信息,建立3D视觉语言关系,并通过组内对齐利用不同表示间的关联,以更好地理解驾驶场景。跨模态语言模型作为生成引擎,基于对齐的特征和导航信息,自回归地生成未来轨迹。GPVL框架不仅提供可靠规划,还展现出良好的泛化能力。在nuScenes数据集上的实验显示,GPVL性能优于现有技术,未来有望推动更安全、可靠的自动驾驶技术发展。