LLM2D

摘要

arXiv:2504.02486v1 公告类型: 新摘要: 随着人类生成数据和合成数据之间的互动演变，科学发现中数据的完整性和模型的稳定性面临着新的挑战。在本文中，我们探讨了合成数据在科学研究中相对于真实实验数据的作用。我们的分析表明，开放访问平台上近四分之三的实验数据集的采用率相对较低，这为通过自动化方法增强其可发现性和可利用性提供了新的机会。此外，我们观察到区分合成数据和真实实验数据的难度逐渐增加。我们建议通过增加对真实实验数据水印化的关注，补充现有的自动化合成数据检测工作，从而加强数据可追溯性和完整性。我们的估算表明，即使每年对生成的真实世界数据的一半进行水印化，也有助于保持模型的稳健性，同时促进合成和人类生成内容的平衡集成。