LLM2D
AI评估者应该优化什么?
What should an AI assessor optimise for?
作者: Daniel Romero-Alvarado, Fernando Mart\'inez-Plumed, Jos\'e Hern\'andez-Orallo
发布日期: 2/4/2025
arXiv ID: oai:arXiv.org:2502.00365v1

摘要

arXiv:2502.00365v1 评估类型: 交叉学科 摘要:AI评估器是一个外部的、理想的独立系统,它可以预测另一个AI系统的指标,例如损失值。评估器可以从许多其他AI系统的测试结果中获取信息,并具有灵活性,可以根据任何损失函数或评价规则进行训练:从平方误差到毒性度量。在这里我们提出一个问题:是否总是最优的评估器都是为了目标度量进行训练?或者,是否通过训练不同的度量然后再将预测映射回目标度量会更好?我们使用二十个涉及表格数据的回归和分类问题进行了实验研究,分别探讨了分别针对单调和非单调映射的回归损失和分类得分的问题,发现与直觉相反,优化更具有信息性的度量通常并不是始终更好的选择。令人惊讶的是,一些单调转换是具有前景的。例如,逻辑损失对于最小化回归中的绝对或二次误差是有用的,而对数得分有助于最大化分类中的二次或球形得分。