LLM2D

摘要

人工智能（AI），或更一般地说，数据驱动算法，已在当今社会无处不在。然而，在许多情况下，尤其是当风险很高时，人类仍然做出最终决定。因此，关键问题是，与单独的人类或单独的 AI 系统相比，AI 是否能帮助人类做出更好的决策。我们引入了一种新的方法框架，以在没有额外假设的情况下通过实验回答这个问题。我们根据基线潜在结果，使用标准分类指标来衡量决策者做出正确决策的能力。我们考虑单盲实验设计，其中 AI 生成的建议的提供在人类做出最终决策的案例中是随机的。在这种实验设计下，我们展示了如何比较三种替代决策系统——单独的人类、人类与 AI 以及单独的 AI 的性能。我们还展示了何时向人类决策者提供 AI 建议，以及何时他们应该遵循这些建议。我们将提出的方法应用于我们自己关于审前风险评估工具的随机对照试验的数据。我们发现，风险评估建议并没有提高法官决定是否判处现金保释的分类准确率。我们的分析还表明，单独的风险评估决策通常比有或没有算法辅助的人类决策表现更差。