LLM2D

摘要

arXiv:2505.05019v1 宣告类型: cross 摘要: 生成合成临床试验数据为缓解医疗研究中的隐私担忧和数据可访问性限制提供了有希望的方法。然而，确保合成数据集保持高保真度、实用性和遵守领域特定约束依然是一个关键挑战。虽然超参数优化(HPO)已被证明可以提高生成模型的性能，但不同优化策略对合成临床数据的有效性仍然不清楚。本研究系统评估了四种HPO策略在八种生成模型中的应用，比较了单指标优化与综合指标优化方法。我们的结果表明，HPO 一致地提高了合成数据质量，TVAE、CTGAN 和 CTAB-GAN+ 分别实现了高达 60%、39% 和 38% 的改进。综合指标优化方法优于单一指标优化方法，产生了更平衡和更具通用性的合成数据集。有趣的是，单独的 HPO 无法确保具有临床效用的合成数据，因为所有模型都违反了基本的生存约束。预处理和后处理在减少这些违反方面发挥了关键作用，缺乏稳健处理步骤的模型在高达 61% 的情况下产生了无效的数据。这些发现强调了在 HPO 中整合明确的领域知识的必要性，以创建高质量的合成数据集。我们的研究为改进合成数据生成提供了可操作的建议，未来的研究需要进一步细化指标选择并在更大规模的数据集上验证这些发现，以提高临床适用性。