LLM2D
决策系统中的误差对齐度量
Measuring Error Alignment for Decision-Making Systems
发布日期: 9/24/2024
arXiv ID: oai:arXiv.org:2409.13919v1

摘要

arXiv:2409.13919v1 公告类型: 新文章 摘要: 鉴于人工智能系统将在未来的决策过程中发挥关键作用,其可信度和可靠性成为至关重要的问题。由于其规模和复杂性,现代人工智能系统难以直接解释,因此需要寻找替代方法来建立对这些系统的信任,并确定它们与人类价值观的一致性。我们认为,良好的信息处理相似性度量方法可能能够实现这些目标。虽然表征对齐(RA)方法衡量两个系统内部状态之间的相似性,但相关数据对于人类系统来说可能成本高昂且难以收集。相比之下,行为对齐(BA)比较更为廉价和容易,但其敏感性和可靠性仍存在疑问。我们提出了两种新的行为对齐度量方法:误分类一致性,用于衡量两个系统在相同实例上的错误相似性;以及类别级错误相似性,用于衡量两个系统错误分布的相似性。我们展示了我们的度量方法与RA度量方法具有良好的相关性,并在多个领域内提供了互补信息,为价值对齐的新方法奠定了基础。