LLM2D
StaICC:基于上下文学习的分类任务标准化评估
StaICC: Standardized Evaluation for Classification Task in In-context Learning
作者: Hakaze Cho, Naoya Inoue
发布日期: 4/21/2025
arXiv ID: oai:arXiv.org:2501.15708v3

摘要

arXiv:2501.15708v3 宣告类型: replace-cross 摘要:分类任务在情境学习(ICL)范式中得到了广泛的研究。然而,当前的努力是在不相交的基准和设置上进行评估的,而这些性能受到了一些琐碎变量的影响,例如提示模板、数据采样、指令等,这导致了在各种文献中报告结果的一致性较差,阻碍了不同论文之间的公平比较或元分析。因此,本文提出了一套标准化且易于使用的评估工具包(StaICC)用于情境分类。对于普通的分类任务,我们提供了StaICC-Normal,选择了10个广泛使用的数据集,并生成固定形式的提示,以减轻实验实现之间的差异性影响。为了丰富我们基准的使用,我们还提供了StaICC-Diag子基准,用于从多个方面诊断ICL,旨在实现更稳健的推断处理。