大型语言模型 (LLM) 在人工智能领域取得了长足进步,特别是在推理任务方面。然而,它们对静态提示结构的依赖以及有限的动态推理能力,往往限制了它们对复杂且不断变化的问题空间的适应性。本文提出了一种演绎和归纳 (DID) 方法,该方法通过在提示构建过程中动态整合演绎和归纳推理来增强 LLM 推理能力。DID 方法借鉴了认知科学的灵感,模仿了人类自适应推理机制,提供了一个灵活的框架,使模型能够根据任务上下文和性能调整其推理路径。我们在 AIW 和 MR-GSM8K 等已建立的数据集以及我们自定义的数据集 Holiday Puzzle 上对 DID 的有效性进行了实证验证,该数据集提出了关于不同节日日期计算挑战的任务。通过利用 DID 的混合提示策略,我们证明了在不增加大量计算开销的情况下,在解决方案准确性和推理质量方面都取得了显著改进。我们的发现表明,DID 为 LLM 中的推理提供了一个更健壮且认知一致的框架,有助于开发受认知科学模型启发的先进的 LLM 驱动的解决问题策略。
本文提出了一种名为 LLaMA-Berry 的先进数学问题求解框架,旨在增强大型语言模型 (LLM) 的数学推理能力。该框架结合了蒙特卡洛树搜索 (MCTS) 和迭代式自我精炼 (Self-Refine) 来优化推理路径,并利用成对奖励模型全局评估不同路径。通过利用 LLM 的自我批评和重写能力,应用于 MCTS 的 Self-Refine (SR-MCTS) 通过促进对解空间的更有效探索,克服了传统逐步和贪婪搜索算法的低效和局限性。受人类反馈强化学习 (RLHF) 的启发,成对偏好奖励模型 (PPRM) 用于模拟解之间的成对偏好,利用增强的波达计分法 (EBC) 将这些偏好综合成全局排名分数,以找到更好的答案。这种方法解决了数学推理任务中评分可变性和非独立分布的挑战。该框架已在通用和高级基准测试中进行了测试,在搜索效率和问题求解能力方面表现出优于现有方法(如 ToT 和 rStar)的性能,特别是在复杂的奥林匹克级别基准测试中,包括 GPQA、AIME24 和 AMC23。
在线游戏的快速发展催生了对准确的技能评级系统的需求,以便追踪玩家的进步并实现公平的匹配。虽然许多技能评级系统已经部署,并拥有不同的理论基础,但对这些算法的实际性能分析工作却较少。本文通过代理模型的视角,对 Elo、Glicko2 和 TrueSkill 进行了实证分析,其中技能评级通过可配置的获取函数影响未来的匹配。我们分析了整体性能和数据效率,并基于大量 Counter-Strike: Global Offensive 比赛数据进行了敏感性分析。
大型语言模型 (LLM) 在各种任务中展现出其作为自主代理的潜力,其中一个新兴应用是将 LLM 用于玩游戏。在这项工作中,我们探索了游戏行业的一个实际问题:LLM 可以用来衡量游戏难度吗?我们提出了一种使用 LLM 代理的通用游戏测试框架,并在两个广受欢迎的策略游戏中进行了测试: Wordle 和 Slay the Spire。我们的结果揭示了一个有趣的发现:尽管 LLM 可能无法像普通人类玩家那样出色,但它们的表现,在简单的通用提示技术的引导下,与人类玩家指示的难度之间表现出统计学上的显著且强烈的相关性。这表明 LLM 可以作为有效的代理,用于在开发过程中衡量游戏难度。基于我们的实验,我们还概述了将 LLM 纳入游戏测试流程的一般原则和指南。
大型语言模型(LLMs)已在众多自然语言处理任务中取代了传统方法。然而,在命名实体识别 (NER) 中,现有的基于 LLMs 的方法...
我们研究了人类认知中固有的偏见,例如损失厌恶、框架效应和合取谬误,是否会在 GPT-4o 在概率场景中进行判断和决策的方式中体现出来。通过对九种认知偏差进行 1350 次实验,并分析对统计推理与启发式推理的反应,我们证明了 GPT-4o 在响应具有类似潜在概率表示的提示时,其方法存在矛盾。我们的发现还揭示了 AI 的表现参差不齐,既表现出类似人类的启发式错误,也表现出统计上合理的决策,即使它经历了同一提示的相同迭代。
双极模糊关系方程是对模糊关系方程的推广,它考虑了未知变量及其逻辑连接否定。变量及其否定的同时出现可以为某些以人类推理为关键角色的框架提供非常有用的信息。因此,双极模糊关系方程系统的求解是一个非常重要的研究课题。
本文重点研究基于最大乘积 t-范数合成的双极模糊关系方程系统。具体而言,将研究这些双极方程系统的可解性和解集的代数结构,包括这些系统由独立项为零的方程组成的案例。因此,本文补充了作者对双极最大乘积模糊关系方程可解性的研究。
知识图谱(KG)在知识密集型任务中发挥着至关重要的作用,这些任务涉及专业领域,在这些领域中,获取精确可靠的知识至关重要。然而,现有的 KG 构建方法严重依赖人工干预来获得合格的 KG,这严重阻碍了其在现实世界场景中的实际应用。为了解决这一挑战,我们提出了一种通用的 KG 构建框架,名为 SAC-KG,利用大型语言模型 (LLM) 作为领域知识图的熟练自动构建器。SAC-KG 有效地将 LLM 作为领域专家,生成专业且精确的多级 KG。具体而言,SAC-KG 包含三个组件:生成器、验证器和修剪器。对于给定的实体,生成器从原始领域语料库中生成其关系和尾部,以构建专业化的单级 KG。然后,验证器和修剪器协同工作,通过纠正生成错误并确定新生成的尾部是否需要进一步迭代以生成下一级 KG 来确保精度。实验表明,SAC-KG 自动构建了一个规模超过一百万个节点的领域 KG,并实现了 89.32% 的精度,与现有的 KG 构建任务最先进方法相比,性能优越,精度率提高了 20% 以上。
利用大型语言模型 (LLM) 在交互式环境中规划和行动以解决“真实”任务已成为人工智能方法的新前沿。尽管最近的进展使 LLM 能够与在线工具交互、解决机器人任务等等,但长程推理任务对于 LLM 来说仍然是一个问题。现有的解决此问题的方法非常资源密集,需要额外的数据或人工编制的规则,相反,我们提出了一种简单的方法,仅基于少量样本的上下文学习来增强“思维链”并进行状态跟踪,以便使用 LLM 进行规划和行动。我们表明,我们的方法在 Alfworld 上为上下文学习方法建立了新的最先进水平(比之前最好的少量样本上下文学习方法提高了 **+14%**),并且与使用额外训练数据和额外工具(如代码执行)的方法性能相当。我们还证明,我们增强的“状态链”使代理能够解决更长期的规划问题,并在解决任务所需的步骤数量方面更有效率。我们表明,我们的方法适用于各种 LLM,包括基于 API 和开源的 LLM。最后,我们还进行了消融研究,结果表明“思维链”有助于提高状态跟踪的准确性,而 JSON 结构则会损害整体性能。我们在 \url{https://github.com/ai-nikolai/StateAct} 上开源了我们的代码和注释。
我们提出了旋律引导音乐生成 (MMGen) 模型,这是首个使用旋律引导音乐生成的新方法,尽管方法非常简单,资源也非常有限,但它取得了优异的性能。具体来说,我们首先使用多模态对齐模块将旋律与音频波形及其相关描述对齐。随后,我们根据学习到的旋律表示对扩散模块进行条件化。这使得 MMGen 能够生成与提供的音频风格相匹配的音乐,同时还能生成反映给定文本描述内容的音乐。为了解决高质量数据稀缺的问题,我们构建了一个多模态数据集 MusicSet,其中包含旋律、文本和音频,并将公开发布。我们进行了广泛的实验,证明了所提议模型在实验指标和实际性能质量方面均具有优越性。