LLM2D

arXiv 论文列表

作者: Ibrahim Alabdulmohsin, Xiaohua Zhai
arXiv:2502.07503v1 宣布类型: 新颖 摘要:最近在语言模型方面的研究表明了两种缩放效应:人们熟知的通过增加训练计算量所带来的改进,以及较少为人所知的通过应用更复杂或计算密集型的推断方法所带来的提升。受近期关于语言的分形几何研究的启发,我们引入了递归推断缩放(RINS)作为一种补充的、可插拔的缩放推断时间的食谱。对于给定的固定模型架构和训练计算预算,RINS显著提高了语言模型的性能。它还超越了单纯的文本任务,为多模态系统带来了提升,包括SigLIP-B/16在零样本ImageNet准确率上的2%提升。此外,通过推导数据缩放定律,我们展示了RINS不仅提高了渐近性能极限和缩放指数,而且在与当前最先进的递归技术(如Mobile LLM中的“全部重复”策略RAO)进行比较时,这些优势仍然保持。最后,随机RINS不仅可以进一步提升性能,还可以在测试时选择不增加推断计算量的情况下,最大限度地减少性能下降。
发布时间: 2/12/2025
查看原文
arXiv:2502.07494v1 宣告类型: 新 摘要: 调整是让模型学习训练分布变化后的模式。一般来说,这种调整被形式化为最小熵问题。然而,最小熵问题存在固有的局限性——转移初始化级联现象。我们通过勒贝格积分将最小熵问题与最小集覆盖问题的关系进行了扩展。这一扩展揭示了最小熵问题内部机制忽视解纠缠表示之间的关系,从而导致转移初始化级联现象。从分析中,我们引入了一种新的聚类算法,基于并查集的递归聚类算法(URECA)。URECA 是一种利用解纠缠表示之间关系高效聚类的算法。URECA 的更新规则依赖于阈值可更新稳态假设,这是一种稳态假设的释放版本。这一假设帮助 URECA 基于解纠缠表示之间的关系无误地传输解纠缠表示。URECA 还使用模拟技巧来高效聚类解纠缠表示。广泛的研究评估表明,URECA 在查询转移场景中实现了对各种类型转移的少量调整的一致性能提升,并且在 CoSQA 场景中达到了最先进的性能。
发布时间: 2/12/2025
查看原文
arXiv:2502.07452v1 宣告类型: 新增 摘要: 许多加权论辩框架的形式化假设每个论点都关联一个初始权重。然而,获取这些初始权重存在挑战:(1) 准确提供具体的数值通常很难,且 (2) 在存在其他论点的情况下,个体经常将初始权重与可接受度等级混淆。为解决这些问题,我们提出了一种获取管道,允许用户为每个论点指定可接受度等级区间。通过使用渐近形式化方法,当这些区间合理时,我们可以对其进行细化;当不合理时,我们可以恢复合理性,并最终确定每个论点可能的初始权重。
发布时间: 2/12/2025
查看原文
arXiv:2502.07443v1 宣告类型: 新 摘要: 基于LLM的多智能体仿真在博弈论和社会仿真领域已逐渐受到关注。尽管大多数实现尝试利用或评估LLM智能体推理,但它们通常使用较弱的智能体概念和简化架构。我们实现了一种基于角色的多智能体战略互动框架,旨在适应复杂递归推理器,提供系统深入开发和评估策略推理的手段。我们的游戏环境由裁判管理,负责从匹配制作到移动生成验证再到环境管理的整个游戏过程。玩家在其决策机制中采用最先进的LLMs,依赖于基于层次信念的正式超博弈模型。我们使用一次性的2人美颜比赛来评估最新LLMs的递归推理能力,将其与经济学中的一种既定基准模型和人类实验的数据进行比较。此外,我们还介绍了关于k级理论的替代语义推理度量的基础。我们的实验表明,人工推理器在模拟人类行为和达到最优解方面均优于基准模型。
发布时间: 2/12/2025
查看原文
作者: Erik M. Lintunen, Nadia M. Ady, Sebastian Deterding, Christian Guckelsberger
arXiv:2502.07423v1 宣告类型: 新 摘要: 计算模型提供了正式化心理学理论的强大工具,使这些理论既可测试又可在数字环境中应用。然而,在动机心理学研究中,它们仍然很少被使用。我们重点关注“胜任力需要”,其被自我决定理论(SDT)提出为基本的人类需要之一——据说是研究内在动机(IM)最具影响力的心理学框架之一。在SDT的文献中,胜任力作为一种单一的构建物被处理。然而,近期的研究已识别出SDT中多种定义模糊的胜任力方面。我们提出,通过借鉴来自人工智能领域的计算模型,特别是强化学习(RL)领域的模型,这些不一致可以得到缓解。通过将胜任力的上述方面——效果性、技能使用、任务表现和能力增长——与现有的RL形式化方法相结合,我们为SDT及其更广泛的动机心理学领域胜任力相关理论的发展奠定了基础。这些形式化方法揭示了SDT无法明确说明的潜在前提条件,展示了如何通过计算模型改善我们对IM的理解。此外,我们的工作可以支持理论发展的循环,通过激发新的计算模型的形成,这些模型可以正式化理论的各个方面,并通过实证测试来精炼理论。尽管我们的研究为基础设定了一个有希望的框架,但还需要在人类和机器中进行这些模型的实证研究,这邀请了跨学科领域的合作。
发布时间: 2/12/2025
查看原文
作者: Dacheng Li, Shiyi Cao, Tyler Griggs, Shu Liu, Xiangxi Mo, Shishir G. Patil, Matei Zaharia, Joseph E. Gonzalez, Ion Stoica
arXiv:2502.07374v1 宣告类型: 新 摘要: 大型推理模型(LRMs)通过遵循包含反思、回溯和自我验证的长链条思维(Long CoT)来解决复杂的推理问题。然而,激发Long CoT的训练技术和数据需求仍然不够明确。在本文中,我们发现一个大型语言模型(LLM)可以通过数据高效的监督微调(SFT)和参数高效的低秩适应(LoRA)有效地学习Long CoT推理。仅使用17000个长链条思维训练样本,Qwen2.5-32B-Instruct模型在各种数学和编程基准测试中取得了显著改进,包括AIME 2024 上的56.7% (+40.0%) 和LiveCodeBench 上的57.0% (+8.1%),与专有的o1-preview模型的成绩44.6%和59.1%相当。更重要的是,我们发现Long CoT的结构对学习过程至关重要,而单个推理步骤的内容影响很小。影响内容的扰动,如使用错误样本训练或删除推理关键词,对性能的影响很小。相比之下,破坏Long CoT逻辑一致性的结构修改,如洗牌或删除推理步骤,会显著降低准确性。例如,一个在错误答案的Long CoT样本上训练的模型,其准确率只比完全正确样本低3.2%。这些见解加深了我们对如何在LLMs中激发推理能力的理解,并突显了高效训练下一代推理模型的关键考虑因素。这是我们之前发布的Sky-T1-32B-Preview模型的学术论文。相关代码可在 https://github.com/NovaSky-AI/SkyThought 获取。
发布时间: 2/12/2025
查看原文
arXiv:2502.07350v1 通告类型: 新 摘要: 随着大规模语言模型面临的成本变得难以承受,多智能体系统作为一种有前景的替代方案出现,尽管面临静态知识假设和协调效率低下的挑战。我们提出了知识感知贝叶斯臂状机制(KABB),这是一种通过语义理解和动态适应增强多智能体系统协调的新框架。该框架包含三项关键技术革新:三维知识距离模型,以实现深入的语义理解;双重适应机制,以实现持续的专家优化;以及知识感知的托马斯采样策略,以实现高效的专家选择。大量评估表明,KABB 实现了最优的成本效益平衡,在多智能体协调中保持高性能的同时,保持计算需求相对较低。
发布时间: 2/12/2025
查看原文
arXiv:2502.07347v1 宣布类型: 新 摘要: 在伦理决策中,个体通常根据一般评估而非精确的个人表现来进行评价。这一概念被称为粗粒度伦理学(CE),主要在自然语言中讨论,缺乏正式的数学基础。本文引入了粗粒度集理论(CST),为其建立了一个数学框架。我们使用完全有序集定义粗粒度集,并提出了刻画元素及其分组之间层级关系的公理。我们还引入了粗粒度集,它根据预定义的标准将基础集划分为等价类。通过定义粗粒度映射,我们扩展了这一框架,粗粒度映射将详细的个体数据转换为更粗粒度的表示,同时保持重要的结构属性。为了测量信息损失,我们采用Kullback-Leibler(KL)散度,展示了不同粗粒度划分对信息保留的影响。我们通过理论表述和实证分析示例如何将CST应用于实际的评分系统。本研究为CE提供了一个严格的理论基础,使得对公平性、可解释性和决策权衡的系统探索成为可能。
发布时间: 2/12/2025
查看原文
作者: Yuyang Wu, Yifei Wang, Tianqi Du, Stefanie Jegelka, Yisen Wang
arXiv:2502.07266v1 通告类型: 新 摘要: 链式思考(CoT)推理通过将复杂任务分解为更小、更易于管理的子任务,增强了大型语言模型(LLMs)的多步推理能力。研究人员一直在探索引导模型生成更复杂CoT过程的方法,以提高LLMs的推理能力,例如长CoT和测试时的缩放定律。然而,对于大多数模型和任务而言,CoT长度的增加是否始终会导致推理准确性提升?在本文中,我们观察到一种复杂的关系:随着推理步骤数量的增加,性能最初会提高,但最终会下降。为了理解这一现象,我们提供了一项证据,表明较长的推理过程越来越容易受到噪声的影响。我们理论证明了存在一个最优的CoT长度,并基于模型能力和任务难度推导出了这一最优长度的缩放定律。受到我们理论的启发,我们在合成和真实世界数据集上进行了实验,并提出了长过滤投票(Length-filtered Vote)以缓解过长或过短CoT的影响。我们的发现强调了校准CoT长度以与模型能力和任务需求相一致的至关重要性,为优化LLMs中的多步推理提供了一个有原则的框架。
发布时间: 2/12/2025
查看原文
作者: Jaesik Yoon, Hyeonseo Cho, Doojin Baek, Yoshua Bengio, Sungjin Ahn
arXiv:2502.07202v1 宣告类型: 新 摘要: 近期,扩散模型作为规划工具展现出了强大的能力。然而,与其他自然随着测试时计算量(TTC)增加而性能提升的方法(如蒙特卡罗树搜索MCTS)不同,标准的基于扩散的规划器在TTC可扩展性方面提供的途径有限。在这篇论文中,我们引入了Monte Carlo Tree Diffusion (MCTD),这是一种新型框架,将扩散模型的生成能力与MCTS的自适应搜索能力相结合。我们的方法将去噪重新构想为一个树状过程,允许部分去噪的计划进行迭代评估、修剪和改进。通过有选择地扩展有前途的轨迹,同时保留重新访问并改进次优分支的灵活性,MCTD在扩散框架内实现了MCTS的诸如控制探索与利用权衡等优点。在具有挑战性的长时_horizon_任务上的实验证明,MCTD在TTC增加时能提供更高质量的解决方案,优于扩散基线方法。
发布时间: 2/12/2025
查看原文