LLM2D

摘要

arXiv:2504.14657v1 交叉公告类型: cross 摘要: 合成电子健康记录 (EHRs) 提供了一种宝贵的机会，可以创建隐私保护和协调的结构化数据，支持医疗保健中的众多应用。合成数据的关键优势包括对数据模式的精确控制、对患者人群更具公平性和代表性的表示能力，以及能够在不担心泄露真实个体隐私的情况下分享数据集。因此，AI 社区越来越多地转向大型语言模型 (LLMs) 在各个领域生成合成数据。然而，在医疗保健领域的一个重要挑战是确保合成健康记录能够在不同医院之间可靠地泛化，这是一个长期存在的问题。在这项工作中，我们评估了当前商业 LLMs 生成合成数据的状态，并调查了生成过程的多个方面，以识别这些模型的强项和弱点所在。我们在这项工作中的主要发现是，虽然 LLMs 可以可靠地为较小的特征子集生成合成健康记录，但在数据维度增加时，它们在保持真实分布和相关性的方面存在困难，最终限制了它们在不同医院环境中泛化的能力。