摘要
arXiv:2410.13776v3 宣告类型: replace-cross
摘要:在上下文学习(In-context Learning, ICL)已经成为使用大规模语言模型(Large Language Models, LLMs)进行自然语言任务的主要方法。预训练过程中获得的知识对于这种少-shot 能力至关重要,为模型提供了任务先验。然而,最近的研究表明,ICL 通常是依赖于检索这些先验知识而不仅仅是“学习”来执行任务。这种局限性在情绪和道德等复杂的主观领域尤为明显,在这些领域里先验对后验预测的影响显著。在本文中,我们探讨了这种现象是否是由于相应数据集中使用的聚合所导致的,其中试图将低一致性、不一致的注释结合起来可能会导致注释器误差,从而在提示中产生不利的噪声。此外,我们通过应用适当且定量化的 LLM 先验衡量标准来分析后验偏向某些注释员的现象。我们的结果表明,聚合是主观任务建模中的一个混淆因素,并提倡更多地关注个体建模。然而,聚合并不能解释 ICL 和最先进的技术之间的全部差距,这意味着还有其他因素也在造成观察到的现象。最后,通过对注释员级别的标签进行严格的研究所发现的是,少数注释员不仅能够更好地与 LLMs 对齐,而且还可以进一步放大他们的视角。