LLM2D

摘要

arXiv:2409.12059v4 消息类型: replace-cross 摘要：大型语言模型能够合理地理解和生成人类表达，但可能缺乏深入的思考和推理机制。最近有一些研究旨在增强语言模型的思考能力，但其中大多数不是基于数据或训练的。在本文中，我们受到自然界认知机制的启发，设计了一种名为TaS的新型模型架构，该架构允许模型首先考虑思考，然后根据查询表达响应。我们设计了几种管道来从提示-响应样本中注释或生成思考内容，然后在中间层添加语言头，该中间层充当思考层。我们通过增强后的思考数据训练语言模型，并成功使思考层自动生成合理的思考，最终输出更合理的响应。定性和定量结果都验证了TaS的有效性和性能。我们的代码可在https://anonymous.4open.science/r/TadE获取。