LLM2D

摘要

arXiv:2501.15708v2 公告类型: replace-cross 摘要：分类任务在上下文学习（ICL）范式中被广泛研究。然而，当前的努力是在互斥的基准和设置上进行评估，而他们的性能受到了一些琐碎变量的影响，如提示模板、数据采样、指令等，这导致了不同文献中报告结果的巨大不一致性，阻碍了不同论文之间公平的比较或元分析。因此，本文提出了一个标准化且易于使用的评估工具包（StaICC）用于上下文分类。具体而言，对于普通的分类任务，我们提供了一个标准化的工具包 StaICC-Normal，选择了10个广泛使用的数据集，并生成具有固定形式的提示，以减轻实验实现之间的差异性。为了丰富我们基准的使用，我们还提供了一个次基准 StaICC-Diag 用于从多个方面诊断 ICL，旨在实现更稳健的推理处理。