LLM2D

摘要

arXiv:2501.11301v2 提取类型: replace-cross 摘要：本文介绍了一种在维基百科和Wikidata等知识库中进行问答的方法，通过“问题到问题”的匹配和检索来自一个密集向量嵌入存储。我们不嵌入文档内容，而是使用指令调优的LLM为每个逻辑内容单元生成一个全面的问题集。这些问题是通过向量嵌入并存储的，映射到相应的内容。用户的查询向量则与此问题向量存储进行匹配。相似度分数最高者将直接检索相应的文章内容，从而省略了答案生成的步骤。该方法在相关问题对中实现了高余弦相似度（>0.9），使得检索非常精准。这种方法具有多重优势，包括计算效率、快速响应时间和增强的可扩展性。我们通过从Wikidata中进行结构化事实检索，在维基百科和Wikidata上展示了其有效性，包括多媒体内容，从而开辟了多模态问答的新途径。