LLM2D
我们需要在科学发现的AI中改进数据整理和归属
We Need Improved Data Curation and Attribution in AI for Scientific Discovery
作者: Mara Graziani, Antonio Foncubierta, Dimitrios Christofidellis, Irina Espejo-Morales, Malina Molnar, Marvin Alberts, Matteo Manica, Jannis Born
发布日期: 4/4/2025
arXiv ID: oai:arXiv.org:2504.02486v1

摘要

arXiv:2504.02486v1 公告类型: 新 摘要: 随着人类生成数据和合成数据之间的互动演变,科学发现中数据的完整性和模型的稳定性面临着新的挑战。在本文中,我们探讨了合成数据在科学研究中相对于真实实验数据的作用。我们的分析表明,开放访问平台上近四分之三的实验数据集的采用率相对较低,这为通过自动化方法增强其可发现性和可利用性提供了新的机会。此外,我们观察到区分合成数据和真实实验数据的难度逐渐增加。我们建议通过增加对真实实验数据水印化的关注,补充现有的自动化合成数据检测工作,从而加强数据可追溯性和完整性。我们的估算表明,即使每年对生成的真实世界数据的一半进行水印化,也有助于保持模型的稳健性,同时促进合成和人类生成内容的平衡集成。