摘要
arXiv:2502.06065v1 宣告类型: cross
摘要: 大型语言模型(LLMs)对提示表述的变化非常敏感,这可能显著影响它们生成准确响应的能力。在本文中,我们引入了一个新的任务——提示敏感性预测,以及一个名为PromptSET的数据集,旨在研究轻微提示变化对LLM性能的影响。以TriviaQA和HotpotQA数据集为基础,我们生成了提示的变化,并评估了这些变化在多个LLM上的有效性。我们使用相关任务中的最新方法进行了提示敏感性预测基准测试,包括基于LLM的自我评价、文本分类和查询性能预测技术。我们的研究发现现有方法在有效处理提示敏感性预测方面存在困难,强调了理解如何准确表达信息需求的重要性。