LLM2D
PLM4NDV:使用预训练语言模型最小化数据访问以估计唯一值的数量
PLM4NDV: Minimizing Data Access for Number of Distinct Values Estimation with Pre-trained Language Models
作者: Xianghong Xu, Xiao He, Tieying Zhang, Lei Zhang, Rui Shi, Jianjun Chen
发布日期: 4/2/2025
arXiv ID: oai:arXiv.org:2504.00608v1

摘要

arXiv:2504.00608v1 Announce Type: cross 摘要:多集合/列的唯一值个数(NDV)估计是许多数据管理任务的基础,尤其是在数据库中。尽管经过了几十年的研究,大多数现有方法要么需要通过均匀随机抽样获取大量样本,要么需要访问整个列以生成估计结果,这会导致大量的数据访问成本,并在数据访问受限的情况下可能导致不准确的估计。在本文中,我们提出利用语义信息,即模式,来解决这些挑战。模式包含丰富的语义信息,这些信息可以用于NDV估计。为此,我们提出了PLM4NDV,这是一种结合预训练语言模型(PLMs)来提取用于NDV估计的语义模式信息的学习方法。具体而言,PLM4NDV 利用目标列及其相应的表的语义来全面理解列的意义。通过使用语义信息,PLM4NDV 减少了数据访问成本,提供了准确的 NDV 估计,并且即使在没有任何数据访问的情况下也能有效地运行。在大规模实际数据集上的广泛实验表明,PLM4NDV 在基线方法中表现出优越性。我们的代码可在 https://github.com/bytedance/plm4ndv 获取。