摘要
arXiv:2502.15182v1 类型: cross
摘要:随着数据湖中数据集规模的不断增大,数据发现已成为数据管理领域的一项重大挑战,尤其是在对表格进行语义搜索和生成层次化全局目录方面。虽然大型语言模型(LLMs)有助于处理数据语义,但在端到端系统中全面利用LLMs来完成这两种与语义相关的任务仍存在挑战。在本次演示中,我们提出了LEDD,这是一种具有可扩展架构的端到端系统,利用LLMs来提供具有语义意义的层次化全局目录和数据湖中的语义表搜索功能。具体而言,LEDD可以根据自然语言规范返回相关的语义表。这些功能使得LEDD成为文本到SQL任务的模型训练和模式链接等下游任务的理想基础。LEDD还提供了一个简单的Python接口,以促进数据发现算法的扩展和替换。