摘要
arXiv:2504.20921v1 公告类型: 新
摘要: 由于隐私问题,获取高质量的医疗数据经常受到限制,这对在电子健康记录(EHR)应用中训练人工智能(AI)算法构成了重大挑战。在此研究中,使用GPT-4 API进行了提示工程技术,生成了高质量的合成数据集,旨在克服这一限制。生成的数据涵盖了患者入院的全面信息,包括医疗服务提供者详情、医院部门、病区、床位分配、患者人口统计信息、紧急联系人、生命体征、疫苗接种记录、过敏史、医疗历史、预约、医院访问、实验室测试、诊断、治疗计划、药物、临床笔记、访问日志、出院总结和转诊。为了确保数据质量与完整性,实施了先进的验证技术,使用了如BERT的下一句预测进行句子连贯性验证,GPT-2进行整体可行性验证,RoBERTa进行逻辑一致性验证,自动编码器进行异常检测,并进行了多样性和分析。符合所有验证标准的合成数据被整合到一个全面的PostgreSQL数据库中,作为EHR应用程序的数据管理系统。这种方法表明,利用严格的验证生成AI模型可以有效地生成高质量的合成医疗数据,有助于训练AI算法,同时解决与真实患者数据相关的隐私问题。