LLM2D

摘要

我们依赖于自己的记忆来编码、存储和检索我们的经历。然而，记忆缺失可能会发生。通过使用增强现实头戴式显示器来捕获和保存以自我为中心的视频，一种通常被称为生活记录的做法，为实现记忆增强提供了一条有希望的途径。然而，由于生活记录产生的视频数据量巨大，而现有技术缺乏有效编码和存储如此大量数据的能力，因此带来了重大挑战。此外，从庞大的视频档案中检索特定信息需要大量的计算能力，进一步加剧了快速访问所需内容的任务难度。为了应对这些挑战，我们提出了一种记忆增强代理，它涉及利用自然语言编码视频数据并将其存储在向量数据库中。这种方法利用大型视觉语言模型的力量来执行语言编码过程。此外，我们建议使用大型语言模型来促进自然语言查询。我们的代理在使用 QA-Ego4D 数据集进行的广泛评估中取得了最先进的结果，BLEU 得分为 8.3，优于得分在 3.4 到 5.8 之间的传统机器学习模型。此外，我们进行了一项用户研究，参与者通过情景记忆和开放式问题与人类记忆增强代理进行互动。这项研究的结果表明，与人类参与者相比，代理在情景记忆任务上的回忆性能显著提高。结果还突出了代理的实际适用性和用户接受度。