摘要
arXiv:2502.01090v1 Announce Type: cross
摘要:中国文学经典具有重要的文化与教育价值,提供了深入的道德、历史和人性洞察。这些作品常常包含古典汉语和复杂的叙事结构,使得儿童难以阅读。为了弥合这一差距,我们引入了一个面向儿童的文学改编(CLA)任务,将中国文学经典改编成引人入胜且易于理解的儿童文本。然而,近期的大规模语言模型(LLMs)忽视了儿童的阅读偏好(例如,生动的角色描绘、简洁的叙述结构以及适宜的易读性),这给CLA带来了挑战。本文中,我们提出了一个名为InstructChild的方法,该方法通过将这些偏好结合起来增强LLM。具体来说,我们首先获取角色个性和叙述结构作为细粒度指令调优的额外信息。然后,我们设计了一个可读性度量作为奖励,以使LLM与儿童的阅读水平对齐。最后,在推理过程中应用前瞻解码策略,以提高生成文本的可读性。为了支持CLA任务的评估,我们构建了Classic4Children数据集,该数据集包括《中国四大古典名著》的原始版本和儿童友好的版本。实验结果表明,我们的InstructChild方法在自动和人工评估中显著提高了性能。