LLM2D

摘要

当大型语言模型（LLM）被要求执行某些任务时，我们如何确保它们学习到的表征与现实相符？我们提出了一种领域无关的框架，用于系统地评估 LLM 决策过程中的分布变化，其中它们被赋予对受预定义规则控制的机制的控制权。虽然单个 LLM 行为可能看起来与预期行为一致，但在大量试验中，可能会出现统计上显著的分布变化。为了测试这一点，我们构建了一个具有已知结果逻辑的明确定义的环境：二十一点。在超过 1,000 次试验中，我们发现了统计上显著的证据，表明 LLM 学习到的表征中存在行为失衡。