LLM2D
Home
Arxiv
返回列表
从上而观:评估模型行为中分布偏移的框架
View From Above: A Framework for Evaluating Distribution Shifts in Model Behavior
作者:
Tanush Chopra, Michael Li, Jacob Haimes
发布日期:
10/1/2024
arXiv ID:
oai:arXiv.org:2407.00948v3
摘要
当大型语言模型(LLM)被要求执行某些任务时,我们如何确保它们的学习表示与现实一致?我们提出了一种领域无关的框架,用于系统地评估 LLM 决策过程中的分布变化,其中 LLM 控制着由预定义规则管理的机制。虽然单个 LLM 行为可能看起来与预期行为一致,但在大量试验中,统计上显著的分布变化可能会出现。为了测试这一点,我们构建了一个具有已知结果逻辑的明确环境:21 点。在超过 1000 次试验中,我们发现了统计上显著的证据,表明 LLM 学习表示中存在行为错位。
查看原文
下载 PDF