LLM2D
Home
Arxiv
返回列表
高屋建瓴:评估模型行为分布变化的框架
View From Above: A Framework for Evaluating Distribution Shifts in Model Behavior
作者:
Tanush Chopra, Michael Li, Jacob Haimes
发布日期:
9/27/2024
arXiv ID:
oai:arXiv.org:2407.00948v2
摘要
当大型语言模型(LLM)被要求执行某些任务时,我们如何确保它们学习到的表征与现实相符?我们提出了一种领域无关的框架,用于系统地评估 LLM 决策过程中的分布变化,其中它们被赋予对受预定义规则控制的机制的控制权。虽然单个 LLM 行为可能看起来与预期行为一致,但在大量试验中,可能会出现统计上显著的分布变化。为了测试这一点,我们构建了一个具有已知结果逻辑的明确定义的环境:二十一点。在超过 1,000 次试验中,我们发现了统计上显著的证据,表明 LLM 学习到的表征中存在行为失衡。
查看原文
下载 PDF