arXiv:2412.01269v5 宣告类型: 更新
摘要:查询与项目之间的相关性建模是商业搜索引擎中的一个关键组成部分,直接影响用户体验。考虑到大型语言模型(LLMs)在各种自然语言处理(NLP)任务中取得的显著成就,基于LLM的相关性建模逐渐被工业搜索引擎所采用。然而,基础的LLMs缺乏特定领域的知识,未能充分利用上下文学习的潜力。此外,结构化的项目文本仍然没有得到充分利用,相应的查询和背景知识的供应也存在不足。因此,我们提出了CPRM(持续预训练以进行相关性建模)框架,该框架旨在解决这些问题。我们的CPRM框架包括三个模块:1)同时利用查询和多领域项目进行共同预训练,以增强领域知识,2)应用上下文感知预训练,这是一种新方法,通过在一系列相关查询或项目序列上进行预训练来提升LLM,3)对项目进行阅读理解,以生成相关的领域知识和背景信息(例如生成摘要和相应的查询),进一步加强LLM。离线实验和在线A/B测试的结果表明,我们的模型在与强大基线模型的对比中表现出色。
arXiv:2410.20285v4 宣告类型:替换
摘要:在复杂且动态的环境中操作的软件工程师必须不断适应不断变化的要求,从经验中迭代学习,并根据新的见解重新审视他们的方法。然而,当前基于大型语言模型(LLM)的软件代理往往依赖于僵化的流程,在评估自身性能或随时间调整策略方面能力有限。为解决这些挑战,我们提出了SWE-Search,这是一种结合了蒙特卡洛树搜索(MCTS)与自我提升机制的多代理框架,旨在提高软件代理在仓库级软件任务方面的表现。SWE-Search 通过引入一种结合了LLM的混合价值函数扩展了传统的MCTS,该函数用于数值值估计和定性评估。这使得代理能够在基于定量数值评估和追求路径的定性自然语言评估的自我反馈循环中逐步优化他们的策略。该框架包括一个SWE代理进行自适应探索、一个价值代理进行迭代反馈,以及一个区分剂代理,它促进多代理辩论以支持协作决策。在SWE-bench基准上应用我们的方法,相比于没有MCTS的标准开源代理,我们的方法在五个模型中的性能相对提高了23%。我们的分析揭示了性能随搜索深度增加而变化的情况,并确定了有助于软件代理有效自我评估的关键因素。这项工作突显了自我评估驱动的搜索技术在复杂动态软件工程环境中的代理推理和计划增强方面的潜力。
arXiv:2410.19546v2
公告类型: 替换
摘要: 最近,新兴的视觉-语言模型(VLMs),如OpenAI的o1,已经出现,似乎在文本和图像模态之间展示了高级的推理能力。然而,这些模型在语言引导的感知和抽象推理方面的进步深度仍然未被充分探索,尚不清楚这些模型是否能够真正实现其雄心勃勃的承诺。为了评估进展并发现不足之处,我们进入了Bongard问题的奇妙世界,这是一个包含经典视觉推理谜题的集合,要求具备与人类相似的模式识别和抽象推理能力。通过我们的广泛评估设置,我们显示,尽管VLMs有时能够识别区分概念并解决一些问题,但它们经常失败。令人惊讶的是,即使是对于人类可能看似简单的概念,如简单的螺旋,也提出了重大的挑战。此外,当明确要求它们识别真实概念时,它们仍然会失败,这不仅表明它们对这些基础视觉概念的理解不足,还表明它们无法泛化到未见过的概念。我们将VLMs的结果与人类表现进行了比较,发现人类的视觉推理能力与机器认知之间仍然存在显著差距。
arXiv:2410.18242v2
类型:替换
摘要:在不完善信息的情况下,自主代理和人类合作伙伴的战略协调可以建模为轮次制合作博弈。我们将不完善信息下的轮次制博弈扩展为允许每个轮次执行多次行动,而不是一次行动。这一扩展允许使用多步意图,我们假设这将提高在长期任务中的性能。为了在扩展后的博弈中综合出代理的合作策略,我们提出了一种方法,该方法包含一个记忆模块,用于维护对环境动态的运行中概率信念,以及一种名为IntentMCTS的在线规划算法。该算法通过借助任何传达的多步意图进行奖励增强来战略性地选择下一个行动,同时考虑当前信念。在夜精灵测试床中进行的代理到代理模拟表明,IntentMCTS所需的动作步骤和控制切换次数少于基准方法。人机用户研究也证实了这些发现,与启发式基准相比,成功率达到18.52%的提高,并且比单步先驱工作提高5.56%。参与者还报告认知负担、挫败感更低,对IntentMCTS代理伙伴的满意度更高。
arXiv:2410.16676v4 宣告类型: 修改
摘要:因果推理(CR)是智能的关键方面,对于问题解决、决策制定和理解世界至关重要。虽然语言模型(LMs)可以为它们的输出生成解释,但它们可靠地执行因果推理的能力仍然不确定,往往在需要深刻理解因果性的任务中表现不佳。在这篇论文中,我们介绍了CausalEval,这是旨在提高LMs进行因果推理的研究全面综述,同时附带了对当前模型和方法的实证评估。我们根据LMs的作用对其现有方法进行了分类:要么作为推理引擎,要么作为提供知识或数据以辅助传统因果推理方法的帮助者,随后对每个类别中的方法学进行了详细讨论。然后,我们评估了当前LMs和各种增强方法在一系列因果推理任务中的性能,提供了关键发现和深入分析。最后,我们展示了当前研究的见解,并指出了未来研究的有希望的方向。我们希望这项工作能够成为全面的资源,促进进一步在LMs中进行因果推理的进展。
arXiv:2410.12126v2 宣告类型:替换
摘要:图形作为一种关系型数据结构,已被广泛应用于各种应用场景,如分子设计和推荐系统。最近,大规模语言模型(LLMs)在人工智能社区中重新组合,因其预期的推理和推理能力。使LLMs理解基于图形的关系型数据具有巨大的潜力,包括但不限于(1)从外部知识库中提炼外部知识,以消除幻觉并突破LLMs在检索增强生成过程中的上下文窗口限制;(2)将图形数据作为输入并直接解决基于图形的研究任务,如蛋白质设计和药物发现。然而,将整个图形数据输入LLMs是不切实际的,因为其复杂的拓扑结构、数据量和缺乏有效的高效语义图形表示。一个自然的问题出现了:是否存在一种图形表示,可以由自然语言描述,便于LLMs理解,并且易于作为LLMs的原始输入使用?基于统计计算,图形法预先定义了一组参数(例如,度,时间,直径),并通过观察大量真实世界图形数据的拓扑分布来识别它们的关系和值。我们认为这种图形的参数化表示,图形法,可以成为使LLMs理解作为输入的图形数据的解决方案。在这篇综述中,我们首先从宏观和微观视角、低阶和高阶图形、静态和动态图形、不同的观测空间以及新提出的图形参数等多个方面回顾图形法的先前研究。在回顾了各种受益于图形法指导的实际应用之后,我们以当前挑战和未来研究方向作为论文的结尾。
arXiv:2410.04444v3 代理类型: 修订
摘要:大规模语言模型(LLMs)的迅速发展在各种任务中显著增强了以AI驱动的代理的能力。然而,现有的代理系统,无论是基于固定的管道算法还是预定义的元学习框架,都无法搜索完整的代理设计空间,因为受限于人类设计的组件,因此可能会错过全局最优的代理设计。本文介绍了哥德尔代理(G\"odel Agent),这是一种受哥德尔机启发的自我演化框架,允许代理递归地改进自身,而无需依赖预定义的例行程序或固定的优化算法。哥德尔代理利用大规模语言模型动态修改自身的逻辑和行为,在高层面的目标引导下,通过提示进行。在数学推理和复杂代理任务上的实验结果表明,哥德尔代理的实现可以实现持续的自我改进,在性能、效率和泛化能力方面超越了手工构建的代理。
arXiv:2410.02197v2 公告类型: 替换
摘要: 模拟人类偏好对于使基础模型与人类价值观保持一致至关重要。传统的奖励建模方法,如布雷得利-泰利(BT)奖励模型,在表达能力上存在不足,特别是在处理不传递的偏好方面。本文中,我们引入了偏好嵌入的方法,该方法将响应嵌入到一个潜在空间中,以高效地捕捉复杂偏好结构,实现线性查询复杂度。此外,我们提出了基于偏好分数的通用偏好优化(GPO),该方法从人类反馈(RLHF)出发,扩展了奖励为基础的强化学习。实验结果表明,我们的通用偏好嵌入模型(GPM)在RewardBench基准测试中持续优于BT奖励模型,并能够有效建模任何BT奖励模型都会像随机猜测的循环偏好关系。此外,对AlpacaEval2.0等下游任务的评估显示,通过GPO和我们的一般偏好模型进行后训练后,性能有所提升。这些发现表明,我们的方法可能有助于提高基础模型与细腻的人类价值观的一致性。代码可在 https://github.com/general-preference/general-preference-model 获取。
arXiv:2409.17663v3 解释类型: 替换
摘要:最近基于概念的可解释模型通过预定义的概念集成功提供了有意义的解释。然而,依赖于预定义的概念限制了其应用,因为可用于解释的概念数量有限。本文提出了一种名为解释瓶颈模型(XBMs)的新型可解释深度神经网络。XBMs 不使用预定义的概念直接从输入生成文本解释,然后通过利用预训练的视觉-语言编码器-解码器模型基于生成的解释来预测最终任务预测。为了同时实现目标任务性能和解释质量,我们通过目标任务损失以及通过冻结的预训练解码器的蒸馏惩罚解释解码器来训练 XBMs。我们的实验包括与最先进的概念瓶颈模型的比较,证实了 XBMs 在不使用预定义概念集的情况下提供了准确且流畅的自然语言解释。代码可在 https://github.com/yshinya6/xbm/ 获取。
arXiv:2409.16813v2 评审类型: 更新
摘要: 同行评审是确定提交给科学会议或期刊论文质量的一个关键过程。然而,它带有主观性和偏见性。已经有多项研究致力于应用来自自然语言处理(NLP)的技术来支持同行评审,但这些方法基于黑盒技术,其输出难以解读和信任。在这篇论文中,我们提出了一种新的管道来支持和理解同行评审及其决策过程:PeerArg系统,该系统结合了大语言模型(LLMs)与知识表示方法。PeerArg接收一系列针对某篇论文的评审,并输出该论文的接受预测。我们通过三个不同的数据集评估了PeerArg管道的性能,将其与一种新的端到端的LLM进行比较,该LLM使用少量示例学习来根据评审预测论文的接受情况。结果显示,端到端的LLM能够从评审中预测论文的接受情况,但PeerArg管道的一个变体在这方面的表现优于该LLM。