LLM2D

摘要

arXiv:2504.18827v1 类型: cross 摘要: 在上下文学习（ICL）已成为大型语言模型（LLMs）的一种强大能力，使它们能够在未进行明确微调的情况下，基于提供的少量示例执行新任务。尽管这些模型具有令人印象深刻的适应性，但它们仍然对微妙的对抗性干扰易受攻击，并且在面对语言变化时表现出不可预测的行为。受软件测试原则的启发，我们引入了一个基于软件测试原则的框架，称为MMT4NL，用于通过利用对抗性干扰和软件测试技术来评估ICL的可信度。它包括语言能力的多样化评估方面，用于测试LLMs的ICL能力。MMT4NL围绕从测试集构建变种对抗性示例的想法建立，以量化和定位ICL设计提示中的问题。我们的哲学是将任何LLM视为软件，并像测试软件那样验证其功能。最后，我们在情感分析和问答任务中展示了MMT4NL的应用。我们的实验可以揭示最先进的LLMs中的各种语言问题。