LLM2D

摘要

大型语言模型能够理解和生成人类表达，但可能缺乏深入的思考和推理机制。最近，有一些研究增强了语言模型的思考能力，但大多数研究并非数据驱动或基于训练的。本文受自然界认知机制的启发，设计了一种名为 TaS 的新型模型架构，该架构允许模型首先考虑想法，然后根据查询表达响应。我们设计了多个管道来注释或生成来自提示-响应样本的想法内容，然后在中间层添加语言头，作为思考层。我们使用想法增强数据训练语言模型，并成功地让思考层自动生成合理的想法，最终输出更合理的响应。定性和定量结果都验证了 TaS 的有效性和性能。我们的代码可在 https://anonymous.4open.science/r/TadE 获取。