LLM2D

摘要

arXiv:2502.04379v1 声称类型: cross 摘要: 默认的预训练大型语言模型（LLMs）在观察视频时能否成功检测到人类情感？为了解决这个问题，我们首次全面评估了流行LLMs在多模态提示下，通过文本和视频帧序列标注和成功预测视频连续情感注释的能力。特别是在本文中，我们测试了LLMs在GameVibe语料库中20款第一人称射击游戏的240分钟标注视频片段中，在游戏参与度变化上的正确标签能力。我们进行了超过2,400次实验，以调查LLM架构、模型大小、输入模态、提示策略和地面实况处理方法对参与度预测的影响。我们的研究发现，在多个领域中，LLMs确实展示了类似人类的表现，但它们在捕捉由人类提供的连续体验注释方面通常表现不佳。我们探讨了一些导致整体表现较差的部分原因，突出了LLMs超过预期的情况，并为通过LLMs进一步探索自动化情感标注绘制了路线图。