LLM2D

摘要

arXiv:2503.21000v1 类别: cross 摘要: 监督机器学习模型在预测对话文本中的用户行为时常常表现不佳，这受到了 crowdsourced 标签质量差和自然语言处理任务准确性低的影响。我们引入了元数据敏感加权编码集成模型 (MSWEEM)，该模型整合了注释员的元特征，如疲劳和加速。首先，我们的结果显示，MSWEEM 在保留数据上的表现比标准集成高出 14%，在另一个替代数据集上高出 12%。其次，我们发现整合注释员行为的信号，例如速度和疲劳，显著提升了模型性能。第三，我们发现具有更高资质的注释员，如持有硕士学位的，提供了更一致且更快的注释。鉴于注释质量的不确定性日益增加，我们的实验表明，理解注释员的模式对于提高用户行为预测模型的准确性至关重要。