LLM2D

摘要

当大型语言模型（LLM）被要求执行某些任务时，我们如何确保它们的学习表示与现实一致？我们提出了一种领域无关的框架，用于系统地评估 LLM 决策过程中的分布变化，其中 LLM 控制着由预定义规则管理的机制。虽然单个 LLM 行为可能看起来与预期行为一致，但在大量试验中，统计上显著的分布变化可能会出现。为了测试这一点，我们构建了一个具有已知结果逻辑的明确环境：21 点。在超过 1000 次试验中，我们发现了统计上显著的证据，表明 LLM 学习表示中存在行为错位。