摘要
我们依赖于自己的记忆来编码、存储和检索我们的经历。然而,记忆缺失可能会发生。通过使用增强现实头戴式显示器来捕获和保存以自我为中心的视频,一种通常被称为生活记录的做法,为实现记忆增强提供了一条有希望的途径。然而,由于生活记录产生的视频数据量巨大,而现有技术缺乏有效编码和存储如此大量数据的能力,因此带来了重大挑战。此外,从庞大的视频档案中检索特定信息需要大量的计算能力,进一步加剧了快速访问所需内容的任务难度。为了应对这些挑战,我们提出了一种记忆增强代理,它涉及利用自然语言编码视频数据并将其存储在向量数据库中。这种方法利用大型视觉语言模型的力量来执行语言编码过程。此外,我们建议使用大型语言模型来促进自然语言查询。我们的代理在使用 QA-Ego4D 数据集进行的广泛评估中取得了最先进的结果,BLEU 得分为 8.3,优于得分在 3.4 到 5.8 之间的传统机器学习模型。此外,我们进行了一项用户研究,参与者通过情景记忆和开放式问题与人类记忆增强代理进行互动。这项研究的结果表明,与人类参与者相比,代理在情景记忆任务上的回忆性能显著提高。结果还突出了代理的实际适用性和用户接受度。