摘要
arXiv:2503.23219v1 类型: cross
摘要:最近在推理优化方面的进步极大地增强了大型语言模型(LLMs)的性能。然而,现有工作未能解决音频-视觉场景的复杂性,突显了进一步研究的必要性。在本文中,我们引入了AURELIA,一个新的基于演员-评论家的音频-视觉(AV)推理框架,在测试时将结构化的、逐步的推理提炼到AVLLMs中,从而提高它们处理复杂多模态输入的能力,而无需额外的训练或微调。为了进一步提高AVLLM的推理技能,我们提出了AVReasonBench,这是一个具有挑战性的基准,包含4500个音频-视觉问题,每个问题都配有详细的逐步推理。我们的基准涵盖了六项不同的任务,包括AV-GeoIQ,该任务评估结合地理和文化知识的AV推理。在AVReasonBench上评估18个AVLLM揭示了它们在多模态推理能力方面的重大局限性。使用AURELIA,我们达到了高达100%的相对改进,证明了其有效性。这一性能提升突显了推理增强数据生成在推动实际应用中的AVLLMs方面的潜力。我们的代码和数据将在此公开发布:https://github.com/schowdhury671/aurelia。