摘要
arXiv:2505.09082v1 交叉类别
摘要:大型语言模型(LLMs)在最近的进展中展示了卓越的中文文本处理能力,特别是在中文拼写纠正(CSC)方面。尽管LLMs在准确性和鲁棒性方面优于传统的BERT基模型,但在可靠性和泛化方面仍然存在挑战。本文提出了一种名为CEC-Zero的新型强化学习(RL)框架,该框架使LLMs能够在无需外部监督的情况下通过自主学习错误策略来进行自我纠正。通过将RL与LLMs的生成能力结合,该方法消除了对标注数据或辅助模型的依赖。实验结果表明,增强学习的LLMs在工业可接受的准确性和跨域泛化方面表现出色,提供了一种可扩展的方案以在中文NLP应用中优化可靠性。这一突破使得LLMs能够在实际的中文文本校正场景中得到部署,并建立了自改进语言模型的新范式。