LLM2D

摘要

虽然大型语言模型 (LLMs) 在医疗问答领域展现出潜力，但针对热带和传染病的特定探索研究却十分有限。我们基于开源的热带和传染病 (TRINDs) 数据集，扩展了数据集，包括人口统计学和语义临床及消费者增强，产生了 11000 多个提示。我们评估了 LLM 在这些提示上的性能，比较了通用 LLM 和医疗 LLM，以及 LLM 结果与人类专家的比较。我们通过系统实验证明了上下文信息（如人口统计学、地点、性别、风险因素）对于优化 LLM 响应的益处。最后，我们开发了 TRINDs-LM 的原型，这是一个研究工具，提供了一个游乐场，可以用来探索上下文如何影响 LLM 在健康方面的输出。