LLM2D

摘要

arXiv:2504.00608v1 Announce Type: cross 摘要：多集合/列的唯一值个数（NDV）估计是许多数据管理任务的基础，尤其是在数据库中。尽管经过了几十年的研究，大多数现有方法要么需要通过均匀随机抽样获取大量样本，要么需要访问整个列以生成估计结果，这会导致大量的数据访问成本，并在数据访问受限的情况下可能导致不准确的估计。在本文中，我们提出利用语义信息，即模式，来解决这些挑战。模式包含丰富的语义信息，这些信息可以用于NDV估计。为此，我们提出了PLM4NDV，这是一种结合预训练语言模型（PLMs）来提取用于NDV估计的语义模式信息的学习方法。具体而言，PLM4NDV 利用目标列及其相应的表的语义来全面理解列的意义。通过使用语义信息，PLM4NDV 减少了数据访问成本，提供了准确的 NDV 估计，并且即使在没有任何数据访问的情况下也能有效地运行。在大规模实际数据集上的广泛实验表明，PLM4NDV 在基线方法中表现出优越性。我们的代码可在 https://github.com/bytedance/plm4ndv 获取。