摘要
arXiv:2410.13211v2 宣告类型: replace-cross
摘要: 我们考虑低概率估计的问题:给定一个机器学习模型和一个形式化指定的输入分布,如何估计模型输出的二元属性的概率,即使这种概率太小而无法通过随机采样来估计?这个问题是由分布变化可能会使其在最坏情况下的性能变得更加常见而引发的需求推动的。我们研究了从小型变压器语言模型进行 argmax 采样的低概率估计问题。我们比较了两种类型的方法:重要性采样,涉及寻找导致罕见输出的输入;以及激活外推,涉及外推与模型的logits相匹配的概率分布。我们发现,重要性采样优于激活外推,但两者都优于简单的随机采样。最后,我们解释了将对不希望出现的行为的概率估计最小化如何推广了对抗性训练,并认为需要新的低概率估计方法来提供更强的最坏情况性能保证。