摘要
arXiv:2410.15471v2 宣告类型: 替换
摘要: 尽管强烈反对,大型生成模型(LMs)已经在用于决策任务,这些任务之前是由预测模型或人类完成的。我们用三个闭源和开源的 LMs 在一个高风险的决策任务中进行了测试:再犯预测。研究这三种 LM,我们不仅从准确性的角度分析它们,还从与(不完美、嘈杂且有时存在偏见的)人类预测或现有预测模型的一致性角度进行分析。我们进行了一项实验,评估提供不同类型信息(包括分散注意力的信息,如照片)如何影响 LM 的决策。我们还测试了旨在提高 LM 准确性或减轻 LM 偏见的技术,并发现其中一些技术对 LM 的决策产生了意想不到的影响。我们的结果提供了额外的定量证据,证明当前的 LMs 并不适合这些类型的任务。