LLM2D
GAIA-2:一个可控的多视图生成世界模型用于自主驾驶
GAIA-2: A Controllable Multi-View Generative World Model for Autonomous Driving
作者: Lloyd Russell, Anthony Hu, Lorenzo Bertoni, George Fedoseev, Jamie Shotton, Elahe Arani, Gianluca Corrado
发布日期: 3/27/2025
arXiv ID: oai:arXiv.org:2503.20523v1

摘要

arXiv:2503.20523v1 宣言类型: cross 摘要:生成模型为模拟复杂环境提供了可扩展且灵活的范式,但当前的方法在解决自主驾驶领域的特定需求方面存在不足,例如多-Agent交互、精细控制以及多摄像头一致性。我们介绍了GAIA-2,这是一种生成AI自动化,它在一个统一的生成框架中整合了这些能力。GAIA-2 支持基于丰富结构化输入的可控视频生成:ego-车辆动态、Agent配置、环境因素以及道路语义。该模型生成高分辨率、时空一致的多摄像头视频,跨越地理上不同的驾驶环境(英国、美国、德国)。该模型结合了结构化条件和外部潜在嵌入(例如,来自专有的驾驶模型)的功能,以实现灵活且语义合理的场景合成。通过这种整合,GAIA-2 允许大规模模拟常见和罕见的驾驶场景,推动生成世界模型作为自主系统开发核心工具的应用。视频可在 https://wayve.ai/thinking/gaia-2 获取。