摘要
arXiv:2505.06328v1 类别:新作
摘要:从痴呆症患者的认知辅助到机器人技术等各类代理型AI应用,都要求一个基于现实的稳健记忆系统。在本文中,我们提出了一种由三个组件组成的记忆系统。首先,我们将视觉语言模型用于图像字幕和实体消歧,与大规模语言模型结合,以便在感知过程中进行一致的信息提取。其次,提取的信息在一种知识图谱中表示,并通过向量嵌入增强以高效管理关系信息。第三,我们结合语义搜索和图查询生成,通过检索增强生成进行问答。我们使用一个实际例子来说明该系统的运作以及其潜在应用。