LLM2D

摘要

arXiv:2502.01090v1 Announce Type: cross 摘要：中国文学经典具有重要的文化与教育价值，提供了深入的道德、历史和人性洞察。这些作品常常包含古典汉语和复杂的叙事结构，使得儿童难以阅读。为了弥合这一差距，我们引入了一个面向儿童的文学改编（CLA）任务，将中国文学经典改编成引人入胜且易于理解的儿童文本。然而，近期的大规模语言模型（LLMs）忽视了儿童的阅读偏好（例如，生动的角色描绘、简洁的叙述结构以及适宜的易读性），这给CLA带来了挑战。本文中，我们提出了一个名为InstructChild的方法，该方法通过将这些偏好结合起来增强LLM。具体来说，我们首先获取角色个性和叙述结构作为细粒度指令调优的额外信息。然后，我们设计了一个可读性度量作为奖励，以使LLM与儿童的阅读水平对齐。最后，在推理过程中应用前瞻解码策略，以提高生成文本的可读性。为了支持CLA任务的评估，我们构建了Classic4Children数据集，该数据集包括《中国四大古典名著》的原始版本和儿童友好的版本。实验结果表明，我们的InstructChild方法在自动和人工评估中显著提高了性能。