摘要
arXiv:2501.15708v2 公告类型: replace-cross
摘要:分类任务在上下文学习(ICL)范式中被广泛研究。然而,当前的努力是在互斥的基准和设置上进行评估,而他们的性能受到了一些琐碎变量的影响,如提示模板、数据采样、指令等,这导致了不同文献中报告结果的巨大不一致性,阻碍了不同论文之间公平的比较或元分析。因此,本文提出了一个标准化且易于使用的评估工具包(StaICC)用于上下文分类。具体而言,对于普通的分类任务,我们提供了一个标准化的工具包 StaICC-Normal,选择了10个广泛使用的数据集,并生成具有固定形式的提示,以减轻实验实现之间的差异性。为了丰富我们基准的使用,我们还提供了一个次基准 StaICC-Diag 用于从多个方面诊断 ICL,旨在实现更稳健的推理处理。