LLM2D

摘要

arXiv:2504.18180v1 交叉公告类型: cross 摘要：在法律领域集成语言模型在简化流程和提高处理大量工作负载的效率方面具有巨大潜力。然而，法律文本的专业术语、含蓄的语言以及正式的风格可以带来重大的挑战。本研究探讨了基于偏好的训练技术，尤其是人类反馈强化学习和直接偏好优化，是否能够提高模型生成符合领域特定语言标准和用户偏好的冰岛法律摘要的性能。我们将经过偏好训练微调的模型与使用常规监督学习的模型进行比较。结果显示，偏好训练在生成摘要的法律准确性方面优于标准微调，但并未显著提升冰岛语言使用的整体质量。自动评估指标与人工评估之间的差异进一步强调了在法律领域开发语言模型时进行定性评估的重要性。