LLM2D

摘要

Christiano 等人（2022）将 *启发式估计器* 定义为一种假设的算法，用于从参数估计数学表达式的值。简而言之，一个启发式估计器 $\mathbb{G}$ 以数学表达式 $Y$ 和形式化的“启发式参数” $\pi$ 作为输入，并输出 $Y$ 的估计值 $\mathbb{G}(Y \mid \pi)$。在这项工作中，我们主张一个非正式原则，即启发式估计器不应该能够预测它自身的错误，并探索将该原则形式化的途径。最简单地说，该原则表明，对于所有 $Y$ 和 $\pi$，$\mathbb{G}(Y - \mathbb{G}(Y \mid \pi) \mid \pi)$ 应该等于零。我们认为，一个理想的启发式估计器应该满足这方面的两个更强的性质，我们称之为 *迭代估计*（类似于迭代期望定律）和 *误差正交性*。虽然迭代估计和误差正交性在直觉上很有吸引力，但确定给定的启发式估计器是否满足这些性质可能很困难。作为一种替代方法，我们探讨了 *准确性*：一个（大致）表明 $\mathbb{G}$ 在数学表达式的分布上具有零平均误差的性质。然而，在两个估计问题的情况下，我们证明了创建准确的启发式估计器的障碍。最后，我们讨论了寻找符合我们对启发式估计器行为的直观理解的启发式估计器的挑战和潜在途径，以及启发式估计器在理解神经网络行为方面的潜在应用。