arXiv:2410.19817v2 宣告类型: 替换
摘要:数学推理一直是大型语言模型(LLMs)的难题。然而,逐步链式思考(CoT)推理的引入在很大程度上提升了LLMs的数学能力。尽管取得了这些进展,当前的方法要么需要大量的推理数据集进行训练,要么依赖于经常牺牲计算精度的少样本方法。为了解决数学推理中的这些瓶颈,我们提出了一种名为逐步指导推理的新方法,该方法比少样本方法更稳定和具有更大的泛化能力,并且不需要进一步微调模型。在该方法中,LLMs 反思小的推理步骤,类似于人类在决定下一步做什么时的商榷过程。通过将这一反思过程融入推理阶段,LLMs 可以有效地从一个步骤引导到下一个步骤。通过广泛的实验,我们展示了逐步指导推理显著增强了最先进的语言模型的数学性能。Qwen2-72B-Instruct 在 MMLU-STEM 上的表现优于其专门针对数学的对应版本 Qwen2.5-72B-Math-Instruct,得分为 90.9%,而后者为 87.3%。Qwen2-7B-Instruct 和 Qwen2-72B-Instruct 在数学领域的平均得分分别从 27.1% 提高到了 36.3% 和从 36.5% 提高到了 47.4%。
arXiv:2410.15234v2 宣告类型: 更改
摘要: 模型崩溃现象是指由于无差别的使用合成数据而导致模型性能下降,这一现象已得到了充分研究。然而,合成数据在大型语言模型(Large Language Models, LLMs)中加剧偏见、即逐步加强预存的社会偏见的作用仍然未被充分探索。在本文中,我们正式定义了偏见放大条件,并通过统计模拟表明,即使在没有采样误差的情况下,偏见也可能会加剧,这是模型崩溃的主要驱动因素。实证上,我们使用自定义的基准测试探讨了GPT2在句子续写任务中的政治偏见放大现象。我们的发现揭示了右倾偏见逐渐增加的情况。此外,我们评估了三种缓解策略:过拟合、保存和累积,并表明即使在缓解模型崩溃的情况下,偏见放大仍然存在。最后,机制解释识别了不同神经元集分别对模型崩溃和偏见放大的责任,这表明它们源于不同的潜在机制。
arXiv:2410.02892v2 宣告类型: 修改
摘要:大规模语言模型(LLMs)在推理任务中展示了令人印象深刻的性能,但它们对静态提示结构的依赖以及在复杂场景中的适应性有限仍然是一个重大挑战。在本文中,我们提出了演绎与归纳(DID)方法,这是一种新颖的框架,通过动态整合演绎和归纳推理方法来增强LLM的推理能力。DID借鉴了认知科学的原则,实施了一种结合Littlestone维度和信息熵的双重复杂性评估系统,以精确评估任务难度并指导分解策略。DID使模型能够根据问题复杂性逐步适应其推理路径,模仿人类的认知过程。我们通过多个基准测试对DID的有效性进行了评估,包括AIW和MR-GSM8K基准,以及我们自定义的节假日谜题数据集,用于时间推理。我们的结果表明,在推理质量和解题准确性方面取得了显著改进——在AIW上达到70.3%的准确率(相比之下,树思考法为62.2%),同时保持了较低的计算成本。DID在提高LLM性能的同时保持计算效率的成功,表明了开发更具认知对齐能力和语言模型的有前景方向。我们的工作贡献了一种理论基础坚实的、基于输入的方法,以增强LLM的推理能力,提供了传统输出探索方法的高效替代方案。
arXiv:2410.02810v2 通知类型: 修改
摘要:使用大型语言模型(LLMs)在交互环境中计划和行动以解决“真实”的任务已成为AI方法的新前沿。虽然最近的进步使LLMs能够与在线工具互动、解决机器人任务以及许多其他任务,但长范围推理任务仍是LLMs的难题。现有解决这一问题的方法非常耗费资源,并需要额外的数据或人工编写的规则,而我们提出了一种基于少量在上下文学习的简单方法来增强LLMs的“逐步思考”与状态跟踪,以进行规划和行动。我们表明,我们的方法在Alfworld数据集上建立了新的基于上下文学习方法的最新标准(相比于之前的最佳少量在上下文学习方法提高了14%),并且在使用额外训练数据和额外工具(如代码执行)的方法中表现相当。我们还证明,我们增强的“逐步状态”使智能体能够解决更长时间范围的问题,并且在解任务所需的步骤数量上更高效。我们展示了我们的方法在基于API和开源的多种LLMs中都有效。最后,我们还进行了消融研究,并表明“逐步思考”有助于状态跟踪的准确性,而JSON结构会损害整体性能。我们已开源我们的代码和注释,网址为https://github.com/ai-nikolai/StateAct。
arXiv:2410.00332v4 宣告类型: 替换
摘要: 保持被认为是认知发展的一个关键里程碑,被认为是定量概念理解和支持操作可逆性的结果。为了评估这种人类智能的关键组成部分是否已经在视觉语言模型中出现,我们收集了ConserveBench,这是一个涉及四种物理量维度的认知实验电池:体积、实体数量、长度和数量。前两者涉及要求理解可逆性的转换任务,后两者涉及评估数量理解的非转换任务。出人意料的是,我们发现视觉语言模型在转换任务中通常表现良好,但在非转换任务中往往会失败。理解和操作可逆性之间的理解以及数量理解之间的分离,被普遍认为是人类对守恒定律理解的核心。[网站链接](https://growing-ai-like-a-child.github.io/pages/Conservation/)
arXiv:2408.17401v2 宣告类型: 修改
摘要: 以人工智能驱动的工具在医疗保健领域被广泛认为可能对医护人员和患者有益,例如QCancer回归工具用于癌症风险预测。然而,为了使这些工具得到信任,它们需要提供解释。我们研究了在解释QCancer的预测结果时,解释的内容和格式如何影响用户的理解和信任。关于内容,我们部署了SHAP和Occlusion-1方法。关于格式,我们将SHAP解释呈现为图表(SC),将Occlusion-1解释呈现为图表(OC)以及文本(OT),因为其简单性使其易于这种呈现形式。我们分别对两类利益相关者进行了实验:代表患者的普通公众和代表医护人员的医学学生。实验结果显示,基于内容,Occlusion-1解释相较于SHAP解释,在主观理解和信任方面更高。然而,在控制格式后,只有OT优于SC,这表明这种趋势是由对文本的偏好驱动的。其他发现证实,解释格式而不是内容往往是关键因素。
arXiv:2408.06202v2 宣告类型: 替换
摘要:玩战略游戏是人工智能(AI)面临的一个具有挑战性的问题。主要挑战之一是由于游戏组件多样性导致的庞大搜索空间。最近的研究中,已经将状态抽象应用于基于搜索的游戏AI,并带来了显著的性能提升。状态抽象技术依赖于减少搜索空间,例如,通过聚合相似的状态。然而,这些抽象的应用受到限制,因为评估抽象的质量是困难的。因此,以往的研究在搜索过程中放弃抽象,以避免搜索偏向于局部最优。这一机制引入了一个超参数来决定何时放弃当前的状态抽象。在本文中,我们提出了一种大小受限的状态抽象(SCSA),该方法限制一起分组的节点的最大数量。我们发现,使用SCSA,无需放弃抽象。我们在三个战略游戏中进行的实验证明,SCSA代理优于以前的方法,并在不同的游戏中表现出稳定的性能。代码已在 https://github.com/GAIGResearch/Stratega 开源。
arXiv:2408.04203v2 宣言类型: 更新
摘要:近年来,角色扮演代理(RPAs)由于其潜在的情感价值和促进社会研究的能力而引起了越来越多的注意。然而,现有的研究主要局限于文本模式,无法模拟人类的多模态感知能力。为了填补这一空白,我们引入了多模态角色扮演代理(MRPAs)的概念,并提出了一个用于其开发和评估的综合框架 MMRole,该框架包括个性化多模态数据集和稳健的评估方法。具体来说,我们构建了一个大规模、高质量的数据集 MMRole-Data,包含85个角色、1.1万张图像和1.4万条单轮或多轮对话。此外,我们还提出了一种稳健的评估方法 MMRole-Eval,该方法涵盖三个维度的八项指标,其中设计了一个奖励模型,用于使用构建的 ground-truth 数据对 MRPAs 进行评分进行比较。此外,我们开发了第一个专门的 MRPAs,MMRole-Agent。广泛的评估结果证明了 MMRole-Agent 的性能改进,并突出了开发 MRPAs 的主要挑战,强调了增强多模态理解和角色扮演一致性的重要性。数据、代码和模型均可在 https://github.com/YanqiDai/MMRole 获取。
arXiv:2407.19633v2 宣告类型: 重新提交
摘要:优化问题普遍存在于制造业、物流、医疗保健等领域。然而,大多数此类问题仍然由人工以启发式方法解决,而不是通过最先进的求解器以最优方式解决,因为制定和解决这些问题所需的专门知识限制了优化工具和技术的广泛应用。我们介绍了一种基于大型语言模型(LLM)的系统,该系统旨在从自然语言描述中制定和解决(混合整数)线性编程问题。该系统能够开发数学模型、编写和调试求解代码、评估生成的解决方案,并根据这些评估改进其模型和代码的效率和准确性。OptiMUS-0.3采用模块化结构处理问题,使其能够处理具有长描述和复杂数据的问题而无需使用长提示。实验表明,OptiMUS-0.3在简单数据集上的表现比现有最先进的方法高出超过12%,在困难数据集(包括与本文一起发布的、具有长且复杂的新型数据集NLP4LP)上高出超过8%。
arXiv:2407.00379v2 声明类型: 替换
摘要: 大型语言模型 (LLMs) 的“军备竞赛”要求新的基准来检验它们的进步。本文介绍了 GraphArena,一个旨在评估 LLMs 在实际图形计算问题上的基准测试工具。它提供了四个多项式时间任务(例如,最短距离)和六个 NP 完全挑战(例如,旅行商问题)。GraphArena 的评估框架特征是将 LLM 输出分类为正确、次优(可行但不最优)、虚构(格式正确但不可行)或缺失。对超过 10 种 LLM 的评估显示,即使是表现最佳的 LLM 也难以处理更大、更复杂的图形问题,并表现出虚构问题。我们进一步探讨了四种潜在的解决方案,以解决这一问题并改善 LLMs 在图形计算中的表现,包括思维链提示、指令调优、编写代码以及扩展测试时计算量,每种方法都展示了独特的优点和局限性。GraphArena 补充了现有的 LLM 基准测试,并在 https://github.com/squareRoot3/GraphArena 开放源代码。