LLM2D

摘要

arXiv:2502.02988v1 宣布类型: cross 摘要：大规模语言模型（LLMs）的迅速 advancements 打开了将其作为评估法官新可能性的大门。本文介绍了一种名为 Themis 的微调 LLM 法官，它能够提供高级的上下文感知评估。我们提供了 Themis 开发管道的全面概述，强调了其针对不同场景的评估提示以及两种新颖的控制指令生成方法。这些设计使 Themis 能够有效地从教师模型中提炼出评估技能，同时保持持续发展的灵活性。我们引入了两个元评估的人工标注基准，展示了 Themis 可以在经济的方式下达到与人类偏好高度一致的效果。此外，我们探讨了 LLM 作为法官范式的洞见，揭示了性能中的细微差别和各种参考答案的影响。值得注意的是，我们观察到，尽管从强大 LLM 中纯粹的知识提炼很常见，但在扩展过程中并不能保证性能提升。我们提出了基于指令遵循难度的缓解策略。此外，我们还提供了数据平衡、提示定制、多目标训练和度量聚合的实用指南。我们希望我们的方法、发现，以及微调数据、基准和模型检查点，能够支持这一领域未来的研究和发展。