摘要
本研究提出了一种简单而有效的方法,利用大型语言模型 (LLMs) 在非自由文本领域(如表格和图像数据)中识别相似的数据点。我们的两步法包括数据点总结和隐藏状态提取。首先,使用 LLM 对数据进行总结,降低复杂性并突出句子中的重要信息。随后,将总结后的句子输入另一个 LLM 以提取隐藏状态,作为紧凑、富含特征的表示。这种方法利用了 LLM 的高级理解和生成能力,为跨不同数据集的相似性识别提供了一种可扩展且高效的策略。我们在多个数据集上展示了该方法在识别相似数据点方面的有效性。此外,我们的方法使非技术领域的专家(例如欺诈调查员或营销运营商)能够快速识别针对特定场景的相似数据点,证明了其在实际应用中的实用性。总的来说,我们的结果为在各个领域的数据分析中利用 LLM 开辟了新的途径。