LLM2D

摘要

语义文本嵌入是自然语言处理 (NLP) 中许多任务的基础。虽然黑盒模型能够生成高质量的嵌入，但它们缺乏可解释性，限制了它们在需要透明度的任务中的应用。最近的方法通过利用领域专家精心设计的或由大型语言模型 (LLM) 生成的问句来提高可解释性，但这些方法严重依赖于专家输入或精心设计的提示，这限制了它们的泛化能力以及在广泛任务中生成区分性问句的能力。为了解决这些挑战，我们引入了 \algo{CQG-MBQA} (对比问句生成 - 多任务二元问答)，这是一个用于在不同任务中生成可解释语义文本嵌入的通用框架。我们的框架通过 \algo{CQG} 方法系统地生成高度区分性的、认知负担低的“是/否”问句，并通过 \algo{MBQA} 模型高效地回答这些问句，从而以经济高效的方式生成可解释的嵌入。我们通过广泛的实验和消融研究验证了 \algo{CQG-MBQA} 的有效性和可解释性，证明了它在保持固有可解释性的同时，提供了与许多先进的黑盒模型相当的嵌入质量。此外，\algo{CQG-MBQA} 在各种下游任务中优于其他可解释文本嵌入方法。