LLM2D

摘要

arXiv:2504.05020v1 Announce Type: cross 摘要：由于标注数据有限，自然语言处理模型在特定领域，例如临床试验中常常面临挑战。为克服这一问题，通常使用文本增强技术通过将原始输入数据转换为保留标签的人工数据来增加样本量。然而，传统的文本分类方法忽视了增强文本之间的关系，并将它们视为独立样本，这可能会引入分类误差。因此，我们提出了一种名为 '批次聚合'（BAGG）的新方法，该方法通过引入一个聚合相关文本结果的额外层，明确建模通过增强生成的文本输入之间的依赖关系。通过在不同领域的多个基准数据集上进行研究，我们发现BAGG能够提高分类准确性。我们还发现，与传统方法相比，BAGG在特定领域数据集上的性能提升更为明显， accuracy 提高高达10-29%。通过对基准数据的分析，所提出的方法解决了传统技术的局限性，并在文本分类任务中提高了鲁棒性。我们的结果显示，在有限训练数据的情况下，BAGG提供了更鲁棒的结果，并优于传统方法。