摘要
arXiv:2501.11301v2 提取类型: replace-cross
摘 要:本文介绍了一种在维基百科和Wikidata等知识库中进行问答的方法,通过“问题到问题”的匹配和检索来自一个密集向量嵌入存储。我们不嵌入文档内容,而是使用指令调优的LLM为每个逻辑内容单元生成一个全面的问题集。这些问题是通过向量嵌入并存储的,映射到相应的内容。用户的查询向量则与此问题向量存储进行匹配。相似度分数最高者将直接检索相应的文章内容,从而省略了答案生成的步骤。该方法在相关问题对中实现了高余弦相似度(>0.9),使得检索非常精准。这种方法具有多重优势,包括计算效率、快速响应时间和增强的可扩展性。我们通过从Wikidata中进行结构化事实检索,在维基百科和Wikidata上展示了其有效性,包括多媒体内容,从而开辟了多模态问答的新途径。