LLM2D

摘要

arXiv:2504.00839v1 交叉公告类型摘要：在共享环境中预测人类行为对于安全和高效的-human-robot 交互至关重要。传统的数据驱动方法在这种情况下预先在特定领域的数据集、活动类型和预测时长上进行了训练。相比之下，大型语言模型（LLMs）的近期突破为描述各种人类活动并在任何上下文中进行预测提供了开放式的跨领域通用性。特别是，多模态LLMs（MLLMs）能够整合来自各种来源的信息，实现更丰富的上下文感知和场景理解。直接将通用的MLLMs应用于预测的困难来自于它们处理大规模输入序列能力的限制、对提示设计的敏感性以及昂贵的微调过程。在本文中，我们提出了一种系统分析预先训练的MLLMs在上下文感知的人类行为预测中的应用。为此，我们引入了一种模块化的多模态人类活动预测框架，允许我们评估各种MLLMs、输入变化、In-Context Learning（ICL）和自回归技术。我们的评估表明，性能最好的框架配置能够在目标帧中达到92.8%的语义相似度和66.1%的精确标签准确性。