LLM2D

摘要

arXiv:2503.23219v1 类型: cross 摘要：最近在推理优化方面的进步极大地增强了大型语言模型（LLMs）的性能。然而，现有工作未能解决音频-视觉场景的复杂性，突显了进一步研究的必要性。在本文中，我们引入了AURELIA，一个新的基于演员-评论家的音频-视觉（AV）推理框架，在测试时将结构化的、逐步的推理提炼到AVLLMs中，从而提高它们处理复杂多模态输入的能力，而无需额外的训练或微调。为了进一步提高AVLLM的推理技能，我们提出了AVReasonBench，这是一个具有挑战性的基准，包含4500个音频-视觉问题，每个问题都配有详细的逐步推理。我们的基准涵盖了六项不同的任务，包括AV-GeoIQ，该任务评估结合地理和文化知识的AV推理。在AVReasonBench上评估18个AVLLM揭示了它们在多模态推理能力方面的重大局限性。使用AURELIA，我们达到了高达100%的相对改进，证明了其有效性。这一性能提升突显了推理增强数据生成在推动实际应用中的AVLLMs方面的潜力。我们的代码和数据将在此公开发布：https://github.com/schowdhury671/aurelia。