LLM2D

摘要

arXiv:2504.09402v1 类别：交叉学科摘要：大型语言模型（LLMs）往往在需要深刻理解复杂问题的任务中挣扎，尤其是在面对长程依赖或多步推理时。这项工作调查了当前LLMs在问题理解方面的限制，并揭示了三个洞察：（1）重复问题标记通过增加对问题区域的关注来提高理解能力；（2）增加的后向依赖关系由于单向注意力约束而负面影响性能；（3）重新校准注意力机制以优先考虑相关问题区域能够提高性能。基于这些发现，我们首先提出了一种基于提示的策略家族——逐步阅读（SSR）、SSR+ 和 SSR++，这些策略引导LLMs逐步处理问题标记并将推理与输入结构对齐。这些方法显著提高了性能，其中SSR++在几个基准测试中的结果达到了最先进的水平：在GSM8K上为96.66%，在ASDiv上为94.61%，在AQuA上为76.28%。其次，我们引入了一种无需训练的注意力重新校准机制，该机制在推理过程中动态调整注意力分配以强调相关问题区域。这种方法在不改变模型参数或输入提示的情况下，提高了LLaMA 3.1-8B在AQuA上的准确性达5.17%。共同而言，我们的结果突出了结构化提示设计和注意力优化在提高LLM理解能力方面的重要性，提供了轻量级且有效的工具，以提高各种NLP任务的性能。