LLM2D

摘要

arXiv:2502.13016v1 宣告类型: cross 摘要：凭借大语言模型（LLMs）的能力，我们现在能够查询以前无法查询的数据，包括文本、图像和视频。然而，尽管拥有这种巨大的潜力，目前大多数利用LLMs的数据系统仍然是被动的，这反映了我们社区将LLMs映射到已知抽象的意愿。大多数数据系统将LLMs视为一个不透明的黑盒子，它像其他任何近似且昂贵的UDF一样，对用户输入和数据进行优化，并与其他关系操作符结合使用。这些数据系统只是按照指示行事，但无法理解或利用LLM被要求执行的操作（即潜在的可能出错的操作），正在操作的数据（例如，长且复杂的文档），或者用户真正需要什么。它们没有利用手头操作和数据的特点，也没有确保结果在有模糊性和不确定性的不精确情况下的正确性。我们认为，数据系统需要变得更加主动：它们需要得到更多的授权——配备LLMs的能力——来理解并重新加工用户输入和数据，并决定如何表示和处理操作和数据。通过允许数据系统解析、重写和分解用户输入和数据，或者以超越标准的一次性查询-结果范式的用户交互方式，数据系统能够更有效地满足用户需求。这些新能力为数据系统提供了更丰富的设计空间，在这种设计空间中，数据系统承担了更多的主动权：它们被授权基于转换操作、数据特征和用户意图进行优化。我们讨论了这一框架在真实世界任务中的各种成功应用案例，并概述了这一雄心勃勃的研究议程的未来方向。