LLM2D

摘要

arXiv:2403.05581v2 宣传类型: replace-cross 摘要：本文通过用户研究评估三种机器学习（ML）可解释性布局在评估含有仇恨言论的句子时是否会影响参与者的意见，重点关注“蔑视女性”和“种族主义”两类。鉴于文献中存在分歧的结论，我们通过问卷调查的统计和定性分析提供了关于在线社区中使用ML可解释性的实证证据。广义加性模型估计了参与者的评分，考虑了被试内和被试间的设计。尽管我们的统计分析表明，没有任何一种可解释性布局显著影响参与者的观点，但我们的定性分析展示了ML可解释性的优势：1) 在参与者的意见与其模型预测不一致时，促使参与者提供纠正性反馈，2) 提供了超越传统性能指标来评估模型行为的见解。