LLM2D
LLM 助力的主动型数据系统
LLM-Powered Proactive Data Systems
作者: Sepanta Zeighami, Yiming Lin, Shreya Shankar, Aditya Parameswaran
发布日期: 2/19/2025
arXiv ID: oai:arXiv.org:2502.13016v1

摘要

arXiv:2502.13016v1 宣告类型: cross 摘要:凭借大语言模型(LLMs)的能力,我们现在能够查询以前无法查询的数据,包括文本、图像和视频。然而,尽管拥有这种巨大的潜力,目前大多数利用LLMs的数据系统仍然是被动的,这反映了我们社区将LLMs映射到已知抽象的意愿。大多数数据系统将LLMs视为一个不透明的黑盒子,它像其他任何近似且昂贵的UDF一样,对用户输入和数据进行优化,并与其他关系操作符结合使用。这些数据系统只是按照指示行事,但无法理解或利用LLM被要求执行的操作(即潜在的可能出错的操作),正在操作的数据(例如,长且复杂的文档),或者用户真正需要什么。它们没有利用手头操作和数据的特点,也没有确保结果在有模糊性和不确定性的不精确情况下的正确性。我们认为,数据系统需要变得更加主动:它们需要得到更多的授权——配备LLMs的能力——来理解并重新加工用户输入和数据,并决定如何表示和处理操作和数据。通过允许数据系统解析、重写和分解用户输入和数据,或者以超越标准的一次性查询-结果范式的用户交互方式,数据系统能够更有效地满足用户需求。这些新能力为数据系统提供了更丰富的设计空间,在这种设计空间中,数据系统承担了更多的主动权:它们被授权基于转换操作、数据特征和用户意图进行优化。我们讨论了这一框架在真实世界任务中的各种成功应用案例,并概述了这一雄心勃勃的研究议程的未来方向。