LLM2D

摘要

arXiv:2502.06065v1 宣告类型: cross 摘要: 大型语言模型（LLMs）对提示表述的变化非常敏感，这可能显著影响它们生成准确响应的能力。在本文中，我们引入了一个新的任务——提示敏感性预测，以及一个名为PromptSET的数据集，旨在研究轻微提示变化对LLM性能的影响。以TriviaQA和HotpotQA数据集为基础，我们生成了提示的变化，并评估了这些变化在多个LLM上的有效性。我们使用相关任务中的最新方法进行了提示敏感性预测基准测试，包括基于LLM的自我评价、文本分类和查询性能预测技术。我们的研究发现现有方法在有效处理提示敏感性预测方面存在困难，强调了理解如何准确表达信息需求的重要性。