LLM2D
少样本学习及更进一步的解释性注意力机制
Explainable Attention for Few-shot Learning and Beyond
作者: Bahareh Nikpour, Narges Armanfard
发布日期: 10/14/2024
arXiv ID: oai:arXiv.org:2310.07800v2

摘要

注意力机制在识别输入数据的关键部分方面展现出巨大的潜力,尤其是在数据收集和标注困难导致训练样本有限的情况下。受人类识别过程的启发,我们认为,如果人工智能基线模型能够接触到原始数据的关键部分,而不是整个输入数据集,就像人类感知一样,其性能将更加准确和可靠。然而,选择这些信息丰富的數據片段的任务,被称为硬注意力寻找,是一个极具挑战性的难题。在训练样本数量有限的情况下,现有的研究由于大量训练参数无法从有限的样本中有效学习,难以找到这些信息丰富的区域。在本研究中,我们针对少样本学习场景,提出了一种新颖且实用的可解释硬注意力寻找框架,称为FewXAT。我们的方法采用深度强化学习来实现硬注意力的概念,直接影响原始输入数据,从而使该过程对人类理解具有可解释性。通过对各种基准数据集进行广泛的实验,我们证明了所提方法的有效性。