摘要
arXiv:2504.15604v1 交叉类型: cross
摘要:语言模型在生成连贯文本和基于输入提示预测下一个词方面取得了显著进展。这项研究比较了两个知名模型:OpenAI的GPT-2和Meta的Llama-2-7b-chat-hf在理解理论心智(ToM)任务中的下一个词预测性能。为了评估其能力,我们从Explore ToM数据集中获取了10个短故事,并构建了一个数据集。我们使用GPT-4程序化地插入额外的句子(填充句子),创建了引入不同情境复杂度的变体。这种设置使我们能够分析增加情境如何影响模型性能。我们在四个温度设置(0.01, 0.5, 1.0, 2.0)下测试了这两种模型,并针对三个推理层次评估了它们预测下一个词的能力。零阶推理涉及追踪状态,无论是当前状态(真实情况)还是过去状态(记忆)。一阶推理涉及理解他人的心智状态(例如,“安妮知道苹果是盐的吗?”)。二阶推理增加了递归性(例如,“安妮认为查尔斯知道苹果是盐的吗?”)。
我们的结果显示,增加更多的填充句子略微降低了预测准确性,因为增加的情境增加了复杂性和歧义性。Llama-2 在预测准确性方面始终优于 GPT-2,特别是在较低的温度下,显示出更大的信心选择最可能的词。随着推理复杂性的提高,模型的响应差异越来越大。值得注意的是,在一阶和二阶推理任务中,GPT-2 和 Llama-2 在预测方面表现出更大的变异性。这些发现说明了模型架构、温度和情境复杂性对下一个词预测的影响,有助于更好地理解当前语言模型的优势和限制。