LLM2D

摘要

arXiv:2411.16805v4 公告类型: 替换摘要：本文介绍了LLaMo（大型语言和人体动作助手），这是一种多模态框架，用于人体动作指令调优。与传统的将非语言输入（如视频或动作序列）转换为语言标记的指令调优方法不同，LLaMo 保留了动作的原始形式用于指令调优。这种方法保留了在标记化过程中经常被削弱的动作特定细节，从而提高了模型解释复杂人类行为的能力。通过同时处理视频和动作数据以及文本输入，LLaMo 使灵活的人本分析成为可能。在包括人类行为和专业活动在内的高复杂性领域进行的实验评估表明，LLaMo 有效地捕捉了领域特定知识，增强了在动作密集型场景中的理解和预测能力。我们希望LLaMo 为未来的多模态AI系统提供基础，这些系统具有广泛的应用前景，从体育分析到行为预测。我们的代码和模型可以在项目网站上获得：https://github.com/ILGLJ/LLaMo。