LLM2D

摘要

arXiv:2409.13919v1 公告类型: 新文章摘要: 鉴于人工智能系统将在未来的决策过程中发挥关键作用，其可信度和可靠性成为至关重要的问题。由于其规模和复杂性，现代人工智能系统难以直接解释，因此需要寻找替代方法来建立对这些系统的信任，并确定它们与人类价值观的一致性。我们认为，良好的信息处理相似性度量方法可能能够实现这些目标。虽然表征对齐（RA）方法衡量两个系统内部状态之间的相似性，但相关数据对于人类系统来说可能成本高昂且难以收集。相比之下，行为对齐（BA）比较更为廉价和容易，但其敏感性和可靠性仍存在疑问。我们提出了两种新的行为对齐度量方法：误分类一致性，用于衡量两个系统在相同实例上的错误相似性；以及类别级错误相似性，用于衡量两个系统错误分布的相似性。我们展示了我们的度量方法与RA度量方法具有良好的相关性，并在多个领域内提供了互补信息，为价值对齐的新方法奠定了基础。