LLM2D

摘要

本研究提出了一种简单而有效的方法，利用大型语言模型 (LLMs) 在非自由文本领域（如表格和图像数据）中识别相似的数据点。我们的两步法包括数据点总结和隐藏状态提取。首先，使用 LLM 对数据进行总结，降低复杂性并突出句子中的重要信息。随后，将总结后的句子输入另一个 LLM 以提取隐藏状态，作为紧凑、富含特征的表示。这种方法利用了 LLM 的高级理解和生成能力，为跨不同数据集的相似性识别提供了一种可扩展且高效的策略。我们在多个数据集上展示了该方法在识别相似数据点方面的有效性。此外，我们的方法使非技术领域的专家（例如欺诈调查员或营销运营商）能够快速识别针对特定场景的相似数据点，证明了其在实际应用中的实用性。总的来说，我们的结果为在各个领域的数据分析中利用 LLM 开辟了新的途径。