LLM2D
PICLe:伪标注在低资源命名实体检测的上下文学习中
PICLe: Pseudo-Annotations for In-Context Learning in Low-Resource Named Entity Detection
作者: Sepideh Mamooler, Syrielle Montariol, Alexander Mathis, Antoine Bosselut
发布日期: 4/2/2025
arXiv ID: oai:arXiv.org:2412.11923v2

摘要

arXiv:2412.11923v2 任务类型: 替换-交叉 摘要:上下文内学习(ICL)使大型语言模型(LLMs)能够使用少量示范进行任务,当标注示例难以获取时,促进任务调整。然而,ICL 对示范的选择敏感,尚不清楚哪些示范属性能够促进上下文内泛化。在这项工作中,我们对低资源命名实体检测(NED)的上下文内示范进行了扰动研究。我们令人惊讶的发现是,部分正确标注的实体提到的上下文内示范与完全正确的示范一样有效,可用于任务转移。根据我们的发现,我们提出了伪标注上下文内学习(PICLe)框架,这是一个利用嘈杂的伪标注示范进行上下文内学习的框架。PICLe 利用 LLMS 在零样本首次处理中对许多示范进行标注。然后,我们将这些合成示范聚类,并从每个聚类中采样特定的上下文内示范集,独立地使用每个集预测实体提到。最后,我们使用自我验证来选择最终的实体提到集。我们在五个生物医学 NED 数据集上评估了 PICLe,并展示了在低资源设置中,即使没有人工标注,PICLe 在使用有限的黄金示例作为上下文内示范时也优于 ICL。