摘要
arXiv:2410.10370v2 宣布类型:替换
摘要:幽默过去被认为只是人类独有的礼物,原因如下。幽默是一种文化上精细的人类语言特征,这为理解与生成带来了挑战。幽默的生成需要一个多跳推理过程,每个跳基于适当的理由。尽管有许多研究,如GPT-o1相关的研究,专注于反思和纠正的逻辑推理,它们在幽默生成方面仍有所欠缺。由于创造性思考中的知识图谱稀疏性,实现多跳推理变得困难。因此,在本文中,我们提出了一种更 robust 的框架来处理幽默推理任务,命名为LoL。LoL旨在注入外部信息以缓解知识图谱的稀疏性,从而实现多跳推理。在LoL的第一阶段,我们提出了一种自动指令进化方法,以纳入幽默背后的更深入和更广泛的思考过程。判断导向的指令被设计出来,以增强模型的判断能力,动态补充和更新稀疏的知识图谱。随后,通过强化学习,使用GPT-4o从每个在线生成的响应中提取推理逻辑。在这个过程中,外部知识再次被引入以帮助模型进行逻辑推理,并学习人类的偏好。最后,实验结果表明,这两种过程的结合可以增强模型的判断能力和生成能力。这些发现加深了我们对大规模语言模型(LLMs)创造性能力的理解,并提供了提升LLMs创造性能力以用于跨域创新应用的方法。