LLM2D

摘要

arXiv:2409.15127v1 公告类型: 新发布摘要: 大型语言模型 (LLMs) 在自然语言处理方面展示了显著的能力，然而，它们的事实不准确性和幻觉限制了其在医疗等关键领域的应用。上下文检索方法通过引入相关信息作为输入，已成为提高 LLM 事实性和可靠性的关键方法。本研究探讨了上下文检索方法在医疗领域的边界，优化其组件并将其性能与开放和封闭的替代方案进行基准测试。我们的研究结果揭示了开放 LLMs 在配备优化检索系统的情况下，如何在既定的医疗基准（多项选择题回答）上实现与最大私有解决方案相媲美的性能。认识到在问题中包含可能答案（仅在医学考试中出现的设置）缺乏现实性，并且在没有这些选项的情况下评估到 LLM 性能的显著下降后，我们扩展了上下文检索系统以应对这一方向。特别是，我们提出了 OpenMedPrompt 管道，该管道改进了更可靠的开放式答案的生成，使这项技术更接近实际应用。