摘要
本文提出了一种名为LLaMo(大型语言和人体运动助手)的多模态框架,用于人体运动指令微调。与传统的指令微调方法(将视频或运动序列等非语言输入转换为语言标记)不同,LLaMo保留了运动的原始形式进行指令微调。这种方法保留了标记化过程中往往会丢失的运动特异性细节,从而提高了模型解释复杂人类行为的能力。通过同时处理视频和运动数据以及文本输入,LLaMo实现了灵活的人本化分析。在包括人类行为和专业活动在内的高复杂度领域进行的实验评估表明,LLaMo有效地捕捉了特定领域的知识,增强了在运动密集型场景中的理解和预测能力。我们希望LLaMo能够为未来的多模态人工智能系统提供基础,这些系统具有广泛的应用,从体育分析到行为预测。我们的代码和模型可在项目网站上获取:https://github.com/ILGLJ/LLaMo。