LLM2D

摘要

arXiv:2504.02871v1 宣布类型：交叉摘要：使用大规模语言模型进行生成式信息提取，特别是在少 Shot 学习中，已经成为一种流行的方法。最近的研究表明，提供详细的人类可读指南——类似于传统上用于训练人类注释员的标注指南——可以显著提高性能。然而，构建这些指南既劳动密集又知识密集。此外，这些定义通常是为了满足具体需求而定制的，使它们高度任务特定且往往不可重用。处理这些微妙的差异需要大量努力和细节关注。在本研究中，我们提出了一种自改进方法，利用 LLM 的知识总结和文本生成能力来合成标注指南，几乎不需要人类输入。我们在临床命名实体识别基准测试中进行了无提示实验，包括 2012 i2b2 EVENT、2012 i2b2 TIMEX、2014 i2b2 和 2018 n2c2，分别在严格 F1 分数上提高了 25.86%、4.36%、0.20% 和 7.75%。LLM 合成的指南在大多数任务上与人类撰写的指南相比，表现相当于或更好，差异在 1.15% 到 4.14% 之间。总之，本研究提出了一种新的 LLM 自我改进方法，需要极少的知识和人类输入，并适用于多个生物医学领域。