LLM2D

摘要

arXiv:2209.15157v2 宣告类型: replace-cross 摘要：在这篇论文中，我们 argue 认为在组织或社会背景下训练和评估机器学习模型的方法往往未能考虑它们的实际应用，这些模型旨在为人们创造有益的价值。我们建议从一个新的角度来看待问题，重新定义模型的评估和选择，强调将机器预测与人类专业知识结合到工作流程中，特别是在需要人类干预来处理低置信度预测的情景中。传统的准确性和 F 值等指标未能在这样的混合设置中捕捉到模型的有益价值。为了应对这一挑战，我们引入了一个简单而理论上坚实的价值指标，该指标考虑了特定任务的成本，包括正确预测、错误和拒绝的成本，提供了一种实际的框架来评估实际应用。通过广泛的实验，我们展示了现有指标无法捕捉到实际需求，通常在使用这些指标对分类器进行排名时会导致价值方面的次优选择。此外，我们强调了校准在确定模型价值方面的关键作用，表明简单的校准良好的模型往往可以优于校准难度较大的更复杂模型。