LLM2D
Vendiscope: 数据集合的算法显微镜
The Vendiscope: An Algorithmic Microscope For Data Collections
作者: Amey P. Pasarkar, Adji Bousso Dieng
发布日期: 2/18/2025
arXiv ID: oai:arXiv.org:2502.10828v1

摘要

arXiv:2502.10828v1 Announce Type: cross 摘要:显微镜的演进始于16世纪晚期的发明,一直不断加强我们探索和理解微观世界的 ability,使我们能够越来越详细地观察结构和现象。与此同时,数据驱动科学的兴起强调了探索和理解复杂数据集组成的需求,需要先进的方法。本文介绍了维DISCOPE,这是一种新的算法显微镜,旨在将传统显微镜扩展到计算分析。维DISCOPE运用了维DIS分数 —— 一种根植于生态学和量子力学的可微分多样性度量 —— 并根据数据点对整体数据集多样性贡献的程度为其分配权重。这些权重使大规模高分辨率数据分析成为可能。我们在这三个领域展示了这一点:生物学、材料科学和机器学习(ML)。我们分析了蛋白质宇宙中的2.5亿个蛋白质序列,发现了超过2亿个蛋白质几乎完全重复,并且AlphaFold在具有对多样性贡献最大的基因产物功能的蛋白质上表现不佳。将维DISCOPE应用于Materials Project数据库也得到了类似的结果:超过85%具有形成能量数据的晶体是几乎完全重复的,机器学习模型在具有增强多样性功能的材料上表现不佳。此外,维DISCOPE还可以用于研究生成模型中的记忆现象。我们使用维DISCOPE从13个不同的生成模型中识别出被记忆的训练样本,并发现表现最好的模型通常记忆的是那些对多样性贡献最小的训练样本。我们的发现表明,维DISCOPE可以作为数据驱动科学的强大工具。