LLM2D
改进用户行为预测:在监督机器学习模型中利用注释人员元数据
Improving User Behavior Prediction: Leveraging Annotator Metadata in Supervised Machine Learning Models
作者: Lynnette Hui Xian Ng, Kokil Jaidka, Kaiyuan Tay, Hansin Ahuja, Niyati Chhaya
发布日期: 3/28/2025
arXiv ID: oai:arXiv.org:2503.21000v1

摘要

arXiv:2503.21000v1 类别: cross 摘要: 监督机器学习模型在预测对话文本中的用户行为时常常表现不佳,这受到了 crowdsourced 标签质量差和自然语言处理任务准确性低的影响。我们引入了元数据敏感加权编码集成模型 (MSWEEM),该模型整合了注释员的元特征,如疲劳和加速。首先,我们的结果显示,MSWEEM 在保留数据上的表现比标准集成高出 14%,在另一个替代数据集上高出 12%。其次,我们发现整合注释员行为的信号,例如速度和疲劳,显著提升了模型性能。第三,我们发现具有更高资质的注释员,如持有硕士学位的,提供了更一致且更快的注释。鉴于注释质量的不确定性日益增加,我们的实验表明,理解注释员的模式对于提高用户行为预测模型的准确性至关重要。