LLM2D

摘要

arXiv:2407.19631v3 宣告类型：替换摘要：智能机器如何评估其完成任务的能力？这个问题对于在不确定条件下通过算法做出决策的自主系统来说变得尤为突出。我们主张，机器自信心——一种基于系统对自己关于世界状态、自身以及执行任务能力的自我评估而形成的元推理形式——能够导致许多可计算且有用的胜任能力指标。本文提出了到目前为止我们在这个概念上的工作，以Factorized Machine Self-confidence (FaMSeC)框架的形式呈现，该框架全面考虑了算法决策中几个主要影响胜任能力的因素：结果评估、求解器质量、模型质量、对齐质量以及过往经验。在FaMSeC中，通过嵌入马尔可夫决策过程求解器及相关方法中的“问题解决统计”来推导出自信心指标。这些统计来自于将概率性超限边缘与评估者规定的某些结果及相关胜任能力标准进行比较。一旦设计并评估完成后，这些统计可以轻松地纳入自主代理中，并作为其胜任能力的指标。我们为马尔可夫决策过程代理提供了详细的描述和示例，并展示了如何通过新颖地使用元效用函数、行为模拟和替代预测模型来找到不同任务背景下的结果评估和求解器质量因素。进行了数值评估以证明FaMSeC指标表现符合预期（在此论文范围之外的关于人类主体研究的参考附有）。