LLM2D

摘要

arXiv:2504.02417v1 宣告类型: cross 摘要：视频问答（VideoQA）是人工智能领域的重要研究方向，使机器能够理解视频内容，并基于自然语言问题进行推理和回答。尽管基于静态关系推理的方法取得了一定的进展，但在静态关系识别和表示的准确性上仍然存在不足，未能充分利用视频中的静态关系信息进行深层次的推理和分析。因此，本文提出了基于静态关系的同类型和异类型的推理方法。该方法构建了一种针对同类型消息传递推理的双重图，并基于静态关系构建了一种异构图，用于异类型的推理消息传递。同类型消息传递推理模型捕获了双重图中与问题相关的目标及其关系的邻域信息，更新双重图以获得同类型线索来回答问题。异类型消息传递推理模型捕获了异构图中与问题相关的不同类别目标及其关系的邻域信息，更新异构图以获得异类型线索来回答问题。最后，基于静态关系的同类型和异类型线索，推断出答案。在ANetQA和Next-QA数据集上的实验结果证明了该方法的有效性。