LLM2D

摘要

arXiv:2502.14273v1 声称类型: cross 摘要：最近在事件驱动识别方面的进展显示了显著的潜力，但大多数现有方法都依赖于大量的训练，这限制了它们对事件驱动视觉内容高效处理的适应性。与此同时，大型语言模型（LLMs）在各个领域都表现出卓越的零样本能力，但它们在事件驱动视觉识别的应用仍然很少被探索。为了解决这一差距，我们提出了一种名为 \textbf{LLM-EvGen} 的事件表示生成器，它生成了适用于 LLM 的事件表示 \textbf{LLM-EvRep}，从而在事件识别任务中增强了 LLM 的性能。生成器通过一个自监督框架进行训练，使生成的表示与语义一致性和结构真实性保持一致。我们在三个数据集：N-ImageNet、N-Caltech101 和 N-MNIST 上进行了全面的实验。结果显示，当使用 GPT-4o 进行评估时，我们的方法 \textbf{LLM-EvRep} 在识别任务中的表现分别比事件到视频的方法 E2VID 优异了 15.93%、0.82% 和 50.21%。