LLM2D

摘要

arXiv:2410.10370v2 宣布类型：替换摘要：幽默过去被认为只是人类独有的礼物，原因如下。幽默是一种文化上精细的人类语言特征，这为理解与生成带来了挑战。幽默的生成需要一个多跳推理过程，每个跳基于适当的理由。尽管有许多研究，如GPT-o1相关的研究，专注于反思和纠正的逻辑推理，它们在幽默生成方面仍有所欠缺。由于创造性思考中的知识图谱稀疏性，实现多跳推理变得困难。因此，在本文中，我们提出了一种更 robust 的框架来处理幽默推理任务，命名为LoL。LoL旨在注入外部信息以缓解知识图谱的稀疏性，从而实现多跳推理。在LoL的第一阶段，我们提出了一种自动指令进化方法，以纳入幽默背后的更深入和更广泛的思考过程。判断导向的指令被设计出来，以增强模型的判断能力，动态补充和更新稀疏的知识图谱。随后，通过强化学习，使用GPT-4o从每个在线生成的响应中提取推理逻辑。在这个过程中，外部知识再次被引入以帮助模型进行逻辑推理，并学习人类的偏好。最后，实验结果表明，这两种过程的结合可以增强模型的判断能力和生成能力。这些发现加深了我们对大规模语言模型(LLMs)创造性能力的理解，并提供了提升LLMs创造性能力以用于跨域创新应用的方法。