LLM2D
大型语言模型能够捕捉到视频游戏的参与度吗?
Can Large Language Models Capture Video Game Engagement?
作者: David Melhart, Matthew Barthet, Georgios N. Yannakakis
发布日期: 2/10/2025
arXiv ID: oai:arXiv.org:2502.04379v1

摘要

arXiv:2502.04379v1 声称类型: cross 摘要: 默认的预训练大型语言模型(LLMs)在观察视频时能否成功检测到人类情感?为了解决这个问题,我们首次全面评估了流行LLMs在多模态提示下,通过文本和视频帧序列标注和成功预测视频连续情感注释的能力。特别是在本文中,我们测试了LLMs在GameVibe语料库中20款第一人称射击游戏的240分钟标注视频片段中,在游戏参与度变化上的正确标签能力。我们进行了超过2,400次实验,以调查LLM架构、模型大小、输入模态、提示策略和地面实况处理方法对参与度预测的影响。我们的研究发现,在多个领域中,LLMs确实展示了类似人类的表现,但它们在捕捉由人类提供的连续体验注释方面通常表现不佳。我们探讨了一些导致整体表现较差的部分原因,突出了LLMs超过预期的情况,并为通过LLMs进一步探索自动化情感标注绘制了路线图。