arXiv:2410.21794v2 宣告类型: 替换
摘要:多智能体系统的重大挑战在于使智能体能够动态适应对手和队友不断变化的多种环境。使用传统方法训练的智能体通常仅在其训练群体的范围内表现出色;当面对不熟悉对手时,其性能会显著下降。为解决这一问题,我们引入了反向注意力智能体,该智能体采用信念传递理论(Theory of Mind, ToM)的概念,并通过注意力机制以端到端的方式训练来实现。这些智能体的最终行动依赖于其注意力模型中的权重,这些权重明确定义了对不同目标的关注。此外,我们提出了一种反向注意力网络,该网络根据观察和先验行动来推断其他智能体的ToM。该网络推断其他智能体的注意力状态,进而调整注意力权重以优化智能体的最终行动。我们在一个连续环境中进行了实验,完成了涵盖合作、竞争以及两者结合的任务。实验结果表明,反向注意力网络成功推断了其他智能体的注意力,这些信息改善了智能体的性能。此外的人类实验表明,与基线智能体模型相比,我们的反向注意力智能体与人类合作得更好,并更好地模仿人类行为。
arXiv:2410.02810v3 宣称类型: 替换
摘要:大型语言模型(LLMs)越来越多地用作自主代理,处理从机器人学到网络导航的各类任务。它们的表现取决于底层基代理。然而,现有的方法在长时间上下文推理和目标遵守方面遇到困难。我们引入了StateAct,这是一种新颖且高效的基代理,通过(1)自我提示,在每一步都强化任务目标,以及(2)状态链,这是一种扩展的思维链,能够随着时间跟踪状态信息,来增强决策制定。在多种前沿LLM上,StateAct在Alfworld上的表现比之前的最佳基代理ReAct高出超过10%,在Textcraft上高出30%,在Webshop上高出7%。我们还展示了StateAct可以作为一种直接替代ReAct的插件式替代品,并在使用高级LLM代理方法(如测试时放大)时,在Textcraft上能额外提高12%的性能。通过提高效率和长范围推理能力,而无需额外的训练或检索,StateAct为LLM代理提供了可扩展的基础。我们开源了我们的代码以支持进一步的研究,链接为https://github.com/ai-nikolai/stateact 。
arXiv:2408.15313v2 宣告类型: 替换
摘要:通过对大规模语言模型(LLMs)进行微调,通常通过人类反馈强化学习(RLHF)来体现人类偏好,这种方法已在提升模型能力方面取得了成功。然而,在微调过程中确保LLMs的安全性仍然是一个关键问题,减轻安全性和帮助性之间的潜在冲突在RLHF中是代价高昂的。为了解决这一问题,我们提出了一种监督学习框架,称为双因子偏好优化(BFPO),该框架将安全性和帮助性的联合RLHF目标重新参数化为单一的监督学习目标。在监督优化中,使用标签函数来捕捉全局偏好排序,以平衡安全性和帮助性。为了评估BFPO,我们开发了一个基准,其中包括全面的生成性和辨别性任务,以评估帮助性和无害性。结果表明,我们的方法在安全性和帮助性方面显著优于现有方法。此外,BFPO 使用不到10%的计算资源和人类提示及标注过程,就能达到高度依赖人类劳动的方法相同的安全水平。我们的训练食谱可以在以下链接中找到:https://github.com/wx-zhang/bfpo。
arXiv:2408.13378v4 公告类型: 替换
摘要: 大型语言模型(LLMs)的进步使它们能够使用类人的接口来回答各种问题。然而,它们在训练中的限制使它们在需要多角度信息的情景中无法准确回答问题。多智能体系统可以通过解决这些问题来提高结果的一致性和可靠性。尽管药物靶标相互作用(DTI)预测对药物发现至关重要,但现有的方法由于复杂的生物系统以及临床应用所需的解释性不足而面临挑战。DrugAgent 是一个用于 DTI 预测的多智能体 LLM 系统,它结合了多个专业视角,并具备透明推理。我们的系统通过对现有的多智能体框架进行适应和扩展,实现了以下几点改进:(1) 在 DTI 领域应用协调器基础架构,(2) 集成特定领域的数据源,包括 ML 预测、知识图谱以及文献证据,(3) 引入了基于推理+行动(ReAct)框架和链式思考(CoT)框架,以实现透明的 DTI 推理。我们使用激酶抑制剂数据集进行了全面实验,结果显示,我们的多智能体 LLM 方法在 F1 分数上比没有推理的多智能体模型(GPT-4o mini)高出 45%(0.514 对 0.355)。通过消融研究,我们证明了各个智能体的贡献,其中AI智能体的影响最大,其次是知识图谱智能体和搜索智能体。最重要的是,我们的方法通过结合多来源证据,为每一个预测提供了详细且可人为解释的推理,这是生物医学应用中的关键特性,特别是在临床决策和监管合规方面需要理解预测背后的理由。代码可以通过以下链接获取:https://anonymous.4open.science/r/DrugAgent-B2EA。
arXiv:2310.15117v2 宣布类型:替换
摘要:大规模语言模型(LLMs)已被用作专家,通过反复应用一对一提示来推断因果图。然而,这种专家,包括人类领域专家,无法在一个一对一提示下区分直接和间接效应。因此,我们提议使用因果顺序作为一种更稳定的输出接口,以便利用专家知识。即使使用一对一提示查询完美专家,我们发现推断出的图可能会有显著的错误,而因果顺序总是正确的。然而,在实践中,LLMs并不是完美的专家,我们发现一对一提示会导致多个循环。因此,我们提出了一种名为三元组方法的新型查询策略,在每个变量对中引入一个辅助变量,并指示LLM避免三元组内的循环。然后,这种方法使用基于投票的集成方法,这不仅提高了准确性和减少循环数量,还确保了成本效率。在多个真实世界图中,这种基于三元组的方法比一对一提示更准确,无论使用LLMs还是人类注释者。三元组方法通过反复用不同辅助变量查询专家,增强了鲁棒性,使较小的模型,如Phi-3和Llama-3 8B Instruct在一对一提示下超越了GPT-4。为了实际使用,我们展示了如何使用三元组方法提供的因果顺序来减少下游图发现和效因推理任务中的错误。
arXiv:2301.00922v2 宣告类型: 更改
摘要: 我们研究具有“快慢”结构的无限 horizon 马尔可夫决策过程 (MDPs),其中一些状态变量快速变化(“快态”),而其他状态变量则变化较慢(“慢态”)。这种结构在现实世界问题中很常见,在这些问题中,需要在长时间范围内以高频率作出顺序决策,而缓慢变化的信息也会影响最优决策。这方面的例子包括在需求缓慢变化时的库存控制,或动态定价中消费者行为逐渐变化的情况。以自然的决策频率建模问题会导致折扣因子接近于一的 MDPs,从而使它们变得计算上具有挑战性。我们提出了一种新的近似策略,在较低层次规划阶段“冻结”慢态状态,解决基于固定慢态状态的有限 horizon MDPs,然后应用于随较慢时间尺度演变的辅助上一层 MDP,并使用价值迭代。短暂冻结状态使较低层次的问题更易于解决,而较慢的时间尺度上层允许更有利的折扣因子。从理论角度来看,我们分析了我们的冻结状态方法所引起的机会成本,这导致了关于如何在计算预算与机会成本之间权衡的简单见解。在实验方面,我们展示了冻结状态方法能够生成高质量的策略,而所需的计算量显著减少,并展示了简单忽略慢态状态通常不是一个好的启发式方法。
arXiv:2504.06265v1 宣布类型: cross
摘要:大语言模型(LLMs)能够在潜在空间中编码复杂的关联关系,但在不确定性的条件下利用它们进行优化仍然具有挑战性。我们通过一种新颖的架构,将LLM微调重新定义为通过深度核方法进行高斯过程(GP)边缘似然优化,从而填补了这一空白。我们引入了基于LLM的深度核,与GPs联合优化,以保留两者的好处:LLMs为贝叶斯优化提供丰富的灵活的输入空间,而GPs则通过预测不确定性建模此空间,从而实现更有效的采样。在Buchwald-Hartwig反应优化中,我们的方法在50次优化迭代中将高效反应的发现率几乎翻了一番(从顶级反应的24%提高到43%的覆盖率)。此外,与特定领域的表示相比,我们的方法在不需要特殊特征的情况下提高了14%的表现。在19个基准测试中(涵盖从一般化学品到反应和分子性质优化),我们的方法展示了其稳健性、通用性和在以下各方面的持续改进:(1) 任务,(2) LLM架构(编码器、解码器、编码器-解码器),(3) 预训练领域(化学相关或通用目的),以及(4) 超参数设置(在一个数据集上调整一次)。最后,我们解释了这些改进:联合LLM-GP优化通过边缘似然隐式执行对比学习,对齐表示以产生(1) 更加结构化的嵌入空间,(2) 更好的不确定性校准,以及(3) 更高效的采样——而无需任何外部损失。这项工作不仅提供了在样本效率优化方面的实用进展,还提供了关于何种有效的贝叶斯优化的见解。
arXiv:2504.06235v1 类型: cross
摘要:许多联邦学习(FL)文献集中在训练时间和测试时间本地数据集统计保持不变的设置上。最近在领域泛化(DG)方面的进展旨在使用来源(训练)域的数据来训练一个能够很好地泛化到未见过的目标(测试)域数据的模型。在这篇论文中,我们受到现有FL和DG工作中两个主要缺陷的启发:(1)缺乏对DG目标和训练过程的正式数学分析;以及(2)在FL中的DG研究仅限于传统的星形拓扑结构。为了解决第二个缺陷,我们开发了《基于风格共享的去中心化联邦领域泛化》($\texttt{StyleDDG}$),这是一个完全去中心化的DG算法,旨在允许P2P网络中的设备基于其数据集推断出的风格信息实现DG。此外,为了填补第一个缺陷,我们提供了一种系统的方法来对基于风格的DG训练优化进行数学分析。我们将现有的集中式DG算法纳入我们的框架中,并使用它们的形式化方法来建模$\texttt{StyleDDG}$。基于此,我们获得了$\texttt{StyleDDG}$能够取得次线性收敛速率的分析条件。通过在两个流行的DG数据集上进行实验,我们证明了与不采用风格共享的去中心化梯度方法相比,$\texttt{StyleDDG}$可以在目标域中获得显著的准确性提升,同时增加了最小的通信开销。
arXiv:2504.06214v1 Announce Type: cross
摘要:长上下文能力对于多种应用至关重要,包括文档和视频理解、上下文学习以及推理时的扩展,所有这些都要求模型能够处理和推理长文本和多模态数据序列。在这项工作中,我们介绍了一种高效的训练方法,用于构建从对齐的指令模型构建超长上下文LLM,并将上下文长度从128K扩展到1M、2M和4M令牌。我们的方法利用高效连续预训练策略来扩展上下文窗口,并采用有效的指令微调以保持指令遵循和推理能力。基于我们的方法构建的UltraLong-8B,是建立在Llama3.1-Instruct之上,实现了多样化长上下文基准测试中的最先进的性能。重要的是,使用我们方法训练的模型在标准基准测试中保持了竞争力,表明对长上下文和短上下文任务都实现了平衡改进。我们还深入分析了关键设计选择,强调了扩展策略和数据组成的影响。我们的发现确立了一种稳健的框架,以高效扩展上下文长度的同时保持通用模型能力。我们将在以下网址发布所有模型权重:https://ultralong.github.io/。
arXiv:2504.06207v1 算法选择和参数化类型:交叉
摘要:近年来,关于解决算法选择和参数化(ASP)问题的研究取得了显著进展,该问题在多种元学习设置中呈现出多样性。然而,缺乏对现有方法进行批判性分析、总结和评估的综述和比较性评估。本文为我们介绍了这一不断发展的领域中的最新进展提供了综述。综述揭示了通过元学习进行分类器选择的动机原因。在此方面,通常将自动机器学习(AutoML)视为在机器学习民主化框架下的ASP问题。因此,AutoML使对高级分析感兴趣的领域科学家能够接触到所需的专业知识,从而简化手动选择机器学习算法和调整相关超参数的任务。我们基于审查以往工作得出的通用框架,全面讨论了基于不同阶段的分类器选择过程。随后,我们提出一个包含400万个先前学习模型的基准知识库,并基于8种分类算法和400个基准数据集对分类器选择方法的知名方法进行了广泛的比较性评估。比较研究不仅定量评估了算法选择方法的性能,还强调了现有研究的优势和局限性。