摘要
arXiv:2504.18827v1 类型: cross
摘要: 在上下文学习(ICL)已成为大型语言模型(LLMs)的一种强大能力,使它们能够在未进行明确微调的情况下,基于提供的少量示例执行新任务。尽管这些模型具有令人印象深刻的适应性,但它们仍然对微妙的对抗性干扰易受攻击,并且在面对语言变化时表现出不可预测的行为。受软件测试原则的启发,我们引入了一个基于软件测试原则的框架,称为MMT4NL,用于通过利用对抗性干扰和软件测试技术来评估ICL的可信度。它包括语言能力的多样化评估方面,用于测试LLMs的ICL能力。MMT4NL围绕从测试集构建变种对抗性示例的想法建立,以量化和定位ICL设计提示中的问题。我们的哲学是将任何LLM视为软件,并像测试软件那样验证其功能。最后,我们在情感分析和问答任务中展示了MMT4NL的应用。我们的实验可以揭示最先进的LLMs中的各种语言问题。