LLM2D
LLM-EvRep:使用自监督框架学习一个与大语言模型兼容的事件表示
LLM-EvRep: Learning an LLM-Compatible Event Representation Using a Self-Supervised Framework
作者: Zongyou Yu, Qiang Qu, Qian Zhang, Nan Zhang, Xiaoming Chen
发布日期: 2/21/2025
arXiv ID: oai:arXiv.org:2502.14273v1

摘要

arXiv:2502.14273v1 声称类型: cross 摘要:最近在事件驱动识别方面的进展显示了显著的潜力,但大多数现有方法都依赖于大量的训练,这限制了它们对事件驱动视觉内容高效处理的适应性。与此同时,大型语言模型(LLMs)在各个领域都表现出卓越的零样本能力,但它们在事件驱动视觉识别的应用仍然很少被探索。为了解决这一差距,我们提出了一种名为 \textbf{LLM-EvGen} 的事件表示生成器,它生成了适用于 LLM 的事件表示 \textbf{LLM-EvRep},从而在事件识别任务中增强了 LLM 的性能。生成器通过一个自监督框架进行训练,使生成的表示与语义一致性和结构真实性保持一致。我们在三个数据集:N-ImageNet、N-Caltech101 和 N-MNIST 上进行了全面的实验。结果显示,当使用 GPT-4o 进行评估时,我们的方法 \textbf{LLM-EvRep} 在识别任务中的表现分别比事件到视频的方法 E2VID 优异了 15.93%、0.82% 和 50.21%。