LLM2D

奖励增强数据提升了大型语言模型的直接偏好对齐

Reward-Augmented Data Enhances Direct Preference Alignment of LLMs

作者: Shenao Zhang, Zhihan Liu, Boyi Liu, Yufeng Zhang, Yingxiang Yang, Yongfei Liu, Liyu Chen, Tao Sun, Zhaoran Wang

发布日期: 10/11/2024

arXiv ID: oai:arXiv.org:2410.08067v1

大型语言模型 (LLM) 在许多自然语言处理任务中取代了传统方法。然而，在命名实体识别 (NER) 中，现有的基于 LLM 的方法......