LLM2D
基于大型语言模型的相似数据点识别:一种利用摘要和隐藏状态洞察的人机交互策略
Similar Data Points Identification with LLM: A Human-in-the-loop Strategy Using Summarization and Hidden State Insights
作者: Xianlong Zeng, Yijing Gao, Fanghao Song, Ang Liu
发布日期: 10/1/2024
arXiv ID: oai:arXiv.org:2404.04281v2

摘要

本研究提出了一种简单而有效的方法,利用大型语言模型 (LLMs) 在非自由文本领域(如表格和图像数据)中识别相似的数据点。我们的两步法包括数据点总结和隐藏状态提取。首先,使用 LLM 对数据进行总结,降低复杂性并突出句子中的重要信息。随后,将总结后的句子输入另一个 LLM 以提取隐藏状态,作为紧凑、富含特征的表示。这种方法利用了 LLM 的高级理解和生成能力,为跨不同数据集的相似性识别提供了一种可扩展且高效的策略。我们在多个数据集上展示了该方法在识别相似数据点方面的有效性。此外,我们的方法使非技术领域的专家(例如欺诈调查员或营销运营商)能够快速识别针对特定场景的相似数据点,证明了其在实际应用中的实用性。总的来说,我们的结果为在各个领域的数据分析中利用 LLM 开辟了新的途径。