LLM2D

摘要

arXiv:2409.12801v1 公告类型: 交叉摘要: 在我们的日常生活中，许多重要决策，如通过生物识别模型进行身份验证，都是由人工智能（AI）系统做出的。这些系统可能与人类的期望不一致，仅通过现有的明确数据进行测试可能不足以发现这些问题。我们提出了一种方法，用于在生成模型的潜在空间中寻找样本，这些样本旨在对决策模型构成挑战，以匹配人类的期望。通过将这些样本同时呈现给决策模型和人类评分者，我们可以识别出其决策与人类直觉一致的区域以及与之相矛盾的区域。我们将此方法应用于人脸识别模型，并收集了来自100名参与者的11,200个人类评分数据集。我们讨论了从数据集中得出的发现，以及我们的方法如何用于在不同情境和不同用户群体中探索AI模型的性能。