摘要
arXiv:2408.01253v2 公告类型: 替换
摘要:\textit{推理} 可以被视作一个算法 $P$,它选择一个行为 $a^* \in \mathcal{A}$,旨在优化某些结果。然而,执行 $P$ 本身会带来成本(时间、能量、容量限制等),并且需要与基础决策问题中通过做出选择获得的显式效用一起考虑。找到合适的 $P$ 可以被构架为一个在推理过程空间中优化的问题,一般称之为 \textit{元推理}。传统的元推理模型假设智能体知道底层MDP的状态转移和奖励分布。本文通过提出一个元贝叶斯自适应MDP(meta-BAMDP)框架,将元推理应用于未知状态转移和奖励分布的环境,从而涵盖了一个更大、更现实的问题集合,这些问题是人类和AI系统面临的。作为第一步,我们将该框架应用于伯努利多臂 bandit 任务。由于元问题的复杂性,我们的解决方案必须是近似的。然而,我们引入了两个新的定理,显著增强了问题的可处理性,使得能在一系列以现实人类决策为基础的假设下进行更稳健的近似。这些结果为资源理性视角和理解认知限制下的探索行为提供了规范框架,并为人类在伯努利多臂 bandit 任务中的行为提供了可实验验证的预测。