摘要
arXiv:2501.02471v2 通告类型: replace-cross
摘要:以英语文本为主要训练数据的大语言模型(LLMs)在中文语境中往往存在偏见和不准确的问题。在如传统中医(TCM)这样的领域,文化层面上的细微差异和临床细微差别至关重要,而缺乏特定领域的数据,如类风湿性关节炎(RA)的情况进一步加剧了这一问题。为了解决这些问题,本文介绍了Hengqin-RA-v1,这是第一个专门为TCM设计的大语言模型,重点关注RA的诊断和治疗。我们还介绍了HQ-GCM-RA-C1,这是一个综合性的RA特定数据集,从古代中医文献、古典文本和现代临床研究中精心整理而来。这个数据集使Hengqin-RA-v1能够提供准确且文化背景丰富的回应,有效地弥补了通用模型留下的空白。广泛的实验表明,Hengqin-RA-v1在某些情况下甚至超越了TCM从业者在诊断准确性方面的表现,超过了当前最先进的模型。