LLM2D

摘要

arXiv:2410.13776v3 宣告类型: replace-cross 摘要：在上下文学习（In-context Learning, ICL）已经成为使用大规模语言模型（Large Language Models, LLMs）进行自然语言任务的主要方法。预训练过程中获得的知识对于这种少-shot 能力至关重要，为模型提供了任务先验。然而，最近的研究表明，ICL 通常是依赖于检索这些先验知识而不仅仅是“学习”来执行任务。这种局限性在情绪和道德等复杂的主观领域尤为明显，在这些领域里先验对后验预测的影响显著。在本文中，我们探讨了这种现象是否是由于相应数据集中使用的聚合所导致的，其中试图将低一致性、不一致的注释结合起来可能会导致注释器误差，从而在提示中产生不利的噪声。此外，我们通过应用适当且定量化的 LLM 先验衡量标准来分析后验偏向某些注释员的现象。我们的结果表明，聚合是主观任务建模中的一个混淆因素，并提倡更多地关注个体建模。然而，聚合并不能解释 ICL 和最先进的技术之间的全部差距，这意味着还有其他因素也在造成观察到的现象。最后，通过对注释员级别的标签进行严格的研究所发现的是，少数注释员不仅能够更好地与 LLMs 对齐，而且还可以进一步放大他们的视角。