LLM2D

摘要

arXiv:2409.14377v1 公告类型: 新文章摘要: 强大的预测性人工智能系统在增强人类决策方面展示了巨大的潜力。最近的经验研究表明，实现最佳人机协作的愿景需要人类对人工智能系统的“适当依赖”。然而，准确估计人工智能建议在实例层面的可信度非常具有挑战性，尤其是在缺乏与人工智能系统相关的性能反馈的情况下。实际上，机器学习模型在分布外数据上的性能差异使得基于数据集的性能反馈在人机协作中变得不可靠。受现有关于批判性思维和批判性心态文献的启发，我们提出将调试人工智能系统作为一种干预措施，以促进适当的依赖。本文探讨了在调试环境中对人工智能性能进行批判性评估是否能更好地校准用户对人工智能系统的评估，并促成更适当的依赖。通过一项定量实证研究（N = 234），我们发现我们提出的调试干预措施并未如预期那样促进适当的依赖。相反，我们观察到干预后对人工智能系统的依赖度下降——这可能是由于早期暴露了人工智能系统的弱点。我们探讨了用户信心和用户对人工智能可信度的估计在不同性能水平群体中的动态变化，以帮助解释不适当依赖模式的发生。我们的研究结果对设计有效的干预措施以促进适当的依赖和更好的人机协作具有重要意义。