LLM2D

摘要

arXiv:2502.03482v1 类型:交叉研究摘要:尽管在人类-人工智能决策方面存在着日益增长的兴趣，但基于领域专家的实验研究仍然很少，主要原因在于与领域专家合作的复杂性以及设置现实实验的挑战。在本项工作中，我们与前列腺癌诊断领域的放射科医生开展了一项深入的合作，基于MRI图像。在此基础上，我们开发了一个接口并进行了两项实验，以研究AI辅助和性能反馈如何影响领域专家的决策过程。在研究1中，临床医生首先提供了初步诊断（人类），然后查看AI的预测，最后确定他们的最终诊断（人类-AI团队）。在研究2（在记忆清除期之后），相同的研究对象首先收到了研究1中的汇总性能统计数据，特别是他们自己、AI以及人类-AI团队各自的性能数据，然后直接查看AI的预测，再进行诊断（即没有独立的初次诊断）。这两项工作流程代表了在实践中临床AI工具可能被使用的现实方式，其中第二项研究模拟了医生根据先前的性能反馈调整对人工智能的依赖和信任的情景。我们的研究结果显示，虽然人类-人工智能团队在整体上总是优于单独的人类，但它们仍受到过度依赖的限制，与之前关于群众工人的研究结果相似。提供给临床医生性能反馈并没有显著提升人类-人工智能团队的性能，尽管提前展示AI决定促使人们更倾向于跟随AI。同时，我们观察到人类-人工智能团队的集合性能可以超越单独的AI，这为人类-人工智能合作提供了有前景的方向。