LLM2D
增强多模态类比推理的逻辑增强生成
Enhancing multimodal analogical reasoning with Logic Augmented Generation
作者: Anna Sofia Lippolis, Andrea Giovanni Nuzzolese, Aldo Gangemi
发布日期: 4/16/2025
arXiv ID: oai:arXiv.org:2504.11190v1

摘要

arXiv:2504.11190v1 宣言类型: 新 摘要: 近期大型语言模型在各种任务上的进展展示了它们的能力。然而,自动从自然语言中提取隐含知识仍然是一个显著的挑战,因为机器缺乏对物理世界的主动经验。在这种情况下,语义知识图可以作为概念空间,指导自动化文本生成推理过程,从而实现更高效和可解释的结果。在本文中,我们应用了一种逻辑增强生成(LAG)框架,该框架通过语义知识图的显式表示来利用文本,并将其与提示启发式相结合,以激发隐含类比连接。该方法生成表示隐含意义的扩展知识图三元组,使系统能够在没有任何标签的多模态数据中进行推理,无论其领域为何。我们通过跨越四个数据集的三种隐喻检测和理解任务验证了我们的工作,因为这些任务需要深入的类比推理能力。结果显示,这种集成方法超越了当前基线,理解视觉隐喻方面优于人类,并且提供更可解释的推理过程,尽管在隐喻理解方面仍存在固有限制,特别是对于领域特定的隐喻。此外,我们提出了一种彻底的错误分析,讨论了隐喻注释和当前评估方法中的问题。