LLM2D

摘要

arXiv:2502.04689v3 宣告类型: replace-cross 摘要：大规模语言模型（LLMs）在复杂的评估基准测试中展现了令人印象深刻的能力，其中许多测试形式上是问答（QA）任务。在问答上下文中提高LLMs的性能变得越来越重要，这对于推进其发展和应用具有重要意义。本文引入了ARR，这是一种直观、有效且通用的问答解决方法，明确地包含三个关键步骤：分析问题的意图、检索相关信息以及逐步推理。值得注意的是，这是首次在问答中引入意图分析，它在ARR中起到了关键作用。在10个不同的问答任务中的全面评估表明，ARR在所有任务中始终优于基线方法。消融实验和案例研究进一步证实了每个ARR组件的积极贡献。此外，涉及提示设计变化的实验表明，ARR在其特定提示形式下依然保持其有效性。此外，各种模型规模、LLM系列和生成设置下的广泛评估进一步证明了ARR的有效性、鲁棒性和通用性。