DTPP-KIMI | 自动驾驶小白说

tags

password

icon

DTPP: Differentiable Joint Conditional Prediction and Cost Evaluation for Tree Policy Planning in Autonomous Driving" 的研究论文，该论文由 Zhiyu Huang、Peter Karkus、Boris Ivanovic、Yuxiao Chen、Marco Pavone 和 Chen Lv 共同撰写。以下是对论文内容的概述：

摘要： 该研究提出了一种用于自动驾驶决策系统的可微分联合训练框架，用于自我条件预测和成本模型。研究者采用了树状结构的政策规划器，并提出了一种新的查询中心的 Transformer 模型，用于高效的自我条件运动预测。此外，还提出了一种可学习的上下文感知成本函数，该函数具有潜在的交互特征，便于可微分的联合学习。通过在真实世界的 nuPlan 数据集上进行验证，该框架不仅在规划质量上超越了其他基于学习的方法，而且在运行时效率上也更高。研究表明，联合训练比单独训练两个模块的性能要好得多，而且树状结构的政策规划也优于传统的单阶段规划方法。

引言： 自动驾驶车辆的基本要求是能够做出安全、有信息支持且类似人类的决策。这涉及到准确预测交通参与者的未来行为，并规划确保安全、舒适并遵守交通规范的路径。为了解决这个连续空间规划问题，树状结构的规划器（如树政策规划 TPP 和蒙特卡洛树搜索 MCTS）采用树策略，通过解决离散的马尔可夫决策过程（MDP）来找到最优动作。然而，树状规划器面临两个主要挑战：首先，与大多数只预测其他代理的无条件未来轨迹的神经运动预测模型不同，树状规划器需要一个能够有效产生自我条件预测的模型。其次，评估与人类决策一致的动作成本是具有挑战性的。现有的方法通常采用简单的线性成本函数，这些函数具有一组手动设计的特征和固定权重。因此，可学习的成本函数成为反映人类驾驶偏好的一种有吸引力的方法。

相关工作： 论文回顾了条件运动预测、学习成本函数和联合预测与规划的相关研究进展。

方法论： 提出了一个名为 DTPP 的框架，该框架结合了自我条件预测和成本模型。该框架基于 TPP，增加了通过学习的成本模型启用的节点剪枝，以及与 CMP 模型的集成，共同显著提高了规划性能和效率。关键思想是通过在多个阶段采样一组自我轨迹来近似复杂的连续空间政策规划问题，形成轨迹树，并预测其他代理的动作，形成场景树。然后使用动态规划得出最优的自我动作。

实验： 使用 nuPlan 数据集及其相关模拟器对提出的方法进行了实验验证。训练和测试阶段涉及一组标记的场景类型，但排除了某些静态场景类型，剩下10种动态场景类型。实验结果表明，DTPP 规划器在封闭循环规划测试中的表现优于基于学习的策略和基于规则的 IDM 规划器，并且与排行榜上表现最佳的 PDM 方法相匹配。

结论： 提出了 DTPP，这是一个为树政策规划器设计的可微分的联合学习框架，用于预测和成本建模。预测模型是一个查询中心的 Transformer 网络，具有高效的自我调节能力。成本模型结合了学习到的和手工制作的特征以及学习到的上下文感知权重。在真实世界驾驶数据上的规划和预测实验结果表明，我们的预测模型在性能和效率上都有显著提升。联合训练对于实现最优规划性能至关重要，我们的基于树的规划器显著优于单阶段轨迹规划。

代码： 论文提供了代码的链接：https://github.com/MCZhi/DTPP。