LLM2D

摘要

arXiv:2504.05307v1 类型:跨领域摘要:当前的元数据常常存在不完整、不一致和格式错误的问题，这阻碍了数据的有效重用和发现。我们利用GPT-4和元数据知识库（CEDAR）开发了一种方法，以标准化科学数据集中的元数据，确保符合社区标准。标准化过程涉及纠正和完善元数据条目，使其符合既定指南，显著提高了检索性能和召回率指标。该研究使用BioSample和GEO存储库来展示这些改进的影响，展示了标准化元数据如何导致更好的检索结果。平均召回率显著提高，从基线的BioSample和GEO原始数据集的17.65%上升到我们提出的元数据标准化流水线的62.87%。这一发现突显了将先进的AI模型与结构化元数据管理工具集成以实现更有效的可靠数据检索的变革性影响。