LLM2D

摘要

arXiv:2410.15471v2 宣告类型: 替换摘要: 尽管强烈反对，大型生成模型（LMs）已经在用于决策任务，这些任务之前是由预测模型或人类完成的。我们用三个闭源和开源的 LMs 在一个高风险的决策任务中进行了测试：再犯预测。研究这三种 LM，我们不仅从准确性的角度分析它们，还从与（不完美、嘈杂且有时存在偏见的）人类预测或现有预测模型的一致性角度进行分析。我们进行了一项实验，评估提供不同类型信息（包括分散注意力的信息，如照片）如何影响 LM 的决策。我们还测试了旨在提高 LM 准确性或减轻 LM 偏见的技术，并发现其中一些技术对 LM 的决策产生了意想不到的影响。我们的结果提供了额外的定量证据，证明当前的 LMs 并不适合这些类型的任务。