LLM2D
面向自动驾驶开发的多模态视频数据检索方法
A Multi-model Approach for Video Data Retrieval in Autonomous Vehicle Development
作者: Jesper Knapp, Klas Moberg, Yuchuan Jin, Simin Sun, Miroslaw Staron
发布日期: 10/7/2024
arXiv ID: oai:arXiv.org:2410.03580v1

摘要

自动驾驶软件每秒产生海量数据,软件开发组织将这些数据以日志的形式保存,用于未来的分析和测试。然而,鉴于数据的庞大规模,在车辆日志集合中定位特定场景可能具有挑战性。编写正确的 SQL 查询以查找这些场景要求工程师具备强大的 SQL 背景知识和对相关数据库的了解,这进一步复杂化了搜索过程。本文提出并评估了一种管道,该管道允许使用自然语言描述而不是 SQL 在日志集合中搜索特定场景。生成的描述由在 Zenseact 工作的车辆日志工程师进行评估,评分范围为 1 到 5。我们的方法获得了 3.3 的平均得分,证明了使用多模型架构来改进软件开发工作流程的潜力。我们还提供了一个界面,可以可视化查询过程并可视化结果。