LLM2D
奖励增强数据提升了大型语言模型的直接偏好对齐
Reward-Augmented Data Enhances Direct Preference Alignment of LLMs
作者: Shenao Zhang, Zhihan Liu, Boyi Liu, Yufeng Zhang, Yingxiang Yang, Yongfei Liu, Liyu Chen, Tao Sun, Zhaoran Wang
发布日期: 10/11/2024
arXiv ID: oai:arXiv.org:2410.08067v1

摘要

大型语言模型 (LLM) 在许多自然语言处理任务中取代了传统方法。然而,在命名实体识别 (NER) 中,现有的基于 LLM 的方法......