LLM2D

摘要

arXiv:2501.12106v3 宣布类型：替换交叉摘要：在德国，肿瘤记录主要通过手动方式完成，需要阅读病人的记录并将其数据输入到结构化的数据库中。大型语言模型（LLMs）有可能通过提高效率和可靠性来增强这一过程。这项评估测试了十一个不同开源LLMs，其模型参数从1亿到70亿不等，针对肿瘤记录过程中的三个基本任务：识别肿瘤诊断、分配ICD-10编码、提取首次诊断日期。为了评估LLMs在这些任务上的表现，准备了一个基于匿名泌尿科医生笔记的注释文本片段数据集。使用了不同的提示策略来调查少量示例提示中示例数量的影响，并探索LLMs的一般能力。在任务中，Llama 3.1 8B、Mistral 7B和Mistral NeMo 12 B的表现相当好。较少训练数据或参数少于7亿的模型性能明显较低，而更大的模型并未表现出性能提升。来自不同于泌尿科的其他医学领域的示例也可能提高少示例提示的效果，这表明LLMs有能力处理肿瘤记录所需的任务。开源LLMs在自动化肿瘤记录方面显示出强大的潜力。拥有7-12亿参数的模型可能在性能和资源效率之间提供最佳平衡。通过定制微调和精心设计的提示，这些模型可能成为未来临床记录的重要工具。评估的代码可在https://github.com/stefan-m-lenz/UroLlmEval上获得。我们还发布了一个新的数据集，作为德语医学自然语言处理中缺乏的真正且容易获取的基准资源的新有价值的资源。