LLM2D

摘要

arXiv:2502.10441v1 宣布类型: 新摘要: 在人工智能对齐中，必须给予注释者（无论是人类还是算法）相当大的灵活性，以判断哪些模型输出是“更好”或“更安全”的。我们将这种灵活性称为对齐自主权。这种自主权目前尚未进行广泛 examination，存在两个风险：（i）注释者可能会随意行使这种自主权，（ii）模型可能会未能模仿这种自主权。为研究这一现象，我们借鉴了法律中的自主权概念，这些概念结构化了如何授予并行使决策权，特别是在原则冲突或其应用模糊或不相关的情况下。扩展到人工智能对齐中，当对齐原则和规则（不可避免地）冲突或难以决定时，也需要自主权。我们提出了一套指标，以系统分析在人工智能对齐中何时以及如何行使这种自主权，从而使上述两种风险（i）和（ii）得以观察。此外，我们区分了人类和算法自主权，并分析了它们之间的差异。通过测量人类和算法在安全对齐数据集上的自主权，我们揭示了对齐过程中先前未曾考虑到的多层自主权。此外，我们展示了这些数据集上的训练算法如何发展出自己独特形式的自主权以解释和应用这些原则，这挑战了制定任何原则的意义。我们的论文标志着朝着正式化目前对齐过程中核心缺失的第一步，并呼吁社区进一步审视和控制对齐自主权。