arXiv:2501.17974v2 提示类型: 替换
摘要: 解决数学问题一直是大型语言模型的一项迷人能力,许多努力都在通过增加推理长度来提高推理能力,例如通过自我纠正和广泛的长链推理。虽然在解决问题方面前景广阔,但先进的长推理链模型却表现出一种不希望出现的单一模态行为,即简单的问题需要不必要的冗长的推理过程。在本文中,我们提出了一种方法,使模型能够意识到推理预算,将其形式化为在推理预算约束下的效用最大化问题,因此我们称该算法为推理预算约束的策略优化(IBPO)。简而言之,通过IBPO微调的模型学会了“理解”查询的难度,并将推理预算分配给更难的问题。使用不同的推理预算,我们的最优模型在MATH500上的绝对改进分别为4.14%和5.74%(相对于LLaMA3.1 8B Instruct的相对改进分别为8.08%和11.2%)。这些改进大约是相同预算下自我一致性改进的2倍。
arXiv:2501.17282v3 宣告类型: 更新
摘要: 我们提出了一种框架,利用大规模语言模型(LLMs)和上下文学习来将自然语言中的游戏描述转换为博弈论中的广义形式表示。由于游戏中的战略复杂性各不相同,例如完美信息与不完美信息,直接应用上下文学习是不够的。为了解决这个问题,我们提出了一种两阶段框架,其中包含专门的模块来增强上下文学习,使其能够有效地区分和解决这个问题。在第一阶段,我们通过开发一个模块来应对不完美信息的挑战,该模块能够识别信息集及其相应的部分树结构。借助这些信息,第二阶段利用上下文学习及其自调试模块,生成一个完整的广义形式游戏树,使用 pygambit 进行表示,pygambit 是博弈论分析工具 Gambit 的 Python API。通过使用这种 Python 表示,可以自动化从自然语言描述直接计算纳什均衡等任务。我们使用不同战略复杂性的游戏对整个框架及其各个组件进行了评估。实验结果表明,该框架在生成准确的广义形式游戏方面显著优于基准模型,每个模块都在其成功中扮演了关键角色。
arXiv:2501.08603v3 公告类型: 替换
摘要: 为解决复杂的优化任务(例如路线规划和任务分配)而手工设计启发式方法是一种常见做法,但需要广泛的专业知识。近期,基于大型语言模型(LLM)的自动启发式设计(AHD)方法已显示出生成高质量启发式方法的能力,而无需手动干预。现有的基于LLM的AHD方法采用种群来维持一定数量的顶尖LLM生成的启发式方法,并引入进化计算(EC)以迭代地增强种群。然而,这些基于种群的程序无法充分发挥每个启发式的潜力,并且容易收敛到局部最优。为了更全面地探索启发式的空间,本文提出使用蒙特卡洛树搜索(MCTS)来进行基于LLM的启发式进化。所提出的MCTS-AHD方法将以树结构组织所有LLM生成的启发式方法,并更好地发掘暂时表现不佳的启发式的潜力。在实验中,MCTS-AHD在各种复杂的任务上提供了显著更好的启发式方法。我们的代码已开源。
arXiv:2412.18760v2 公告类型: 替换
摘要:本文探讨了数据聚类在数据科学中的关键作用,强调了聚类的方法、工具及其多样化的应用。传统技术,如部分聚类和层次聚类,与数据流聚类、基于密度的聚类、基于图的聚类和基于模型的聚类等先进方法一起进行了分析,以处理复杂的结构化数据集。本文强调了聚类的基本原理,概述了广泛使用的工具和技术框架,介绍了数据科学中的聚类工作流程,讨论了实际应用中的挑战,并探讨了聚类的各种应用。通过关注这些基础和应用,讨论强调了聚类的变革潜力。本文以聚类在未来研究方向的见解结尾,强调了聚类在推动创新和促进数据驱动决策方面的作用。
arXiv:2410.17233v2 宣布类型: 替换
摘要:基于偏好的强化学习是一种处理奖励难以明确指定但可以通过深入学习偏好的方式,然而在需要从头学习偏好的情况下,这种方法往往效率低下。我们展示了大型语言模型(LLMs)具有内在的偏好学习能力,使其能够实现高效的偏好学习,从而应对这一挑战。我们提出了上下文中的偏好学习(ICPL),利用LLMs的上下文学习能力来减少人类查询的效率低下。ICPL 使用任务描述和基本环境代码来创建一系列奖励函数,并通过将人类反馈放在LLM的上下文中并嵌入成视频中的最终策略中,然后请求更好的奖励来迭代优化这些奖励函数。我们首先通过一个合成偏好的研究证明了ICPL的有效性,提供了定量证据表明它显著优于基线偏好方法,具有更高的性能和数量级更高的效率。我们观察到这种改进不仅仅来自于LLM在任务中的知识基础,奖励质量随时间提高,表明偏好学习能力的存在。此外,我们进行了一系列真实的人类偏好学习试验,并观察到ICPL 超出了合成环境的应用范围,可以在人类参与的环境中有效工作。
arXiv:2410.03756v2 通知类型: 替换
摘要: 商业建筑占美国碳排放量的17%,其中约有一半来自供暖、通风和空调(HVAC)。HVAC设备构成了一个复杂的热力学系统,尽管模型预测控制和强化学习已被用于优化控制策略,但将其扩展到数千栋建筑仍然是一个重要的未解决挑战。目前大多数算法都针对特定建筑进行了过度优化,并依赖于专有数据或难以配置的仿真。我们提出了智能建筑控制套件,这是一个面向大规模解决方案的首个开源交互式HVAC控制基准。它由三个部分组成:从11栋建筑6年来的实测数据提取的真实世界数据、针对每栋建筑的轻量级数据驱动仿真器,以及作为仿真器替代品的模块化物理启发神经网络(PINN)建筑模型。这些建筑涵盖了各种气候、管理系统和规模,而仿真器和PINN模型都可以轻松扩展到新的建筑,确保使用此基准构建的解决方案对这些因素具有鲁棒性,并仅依赖于可完全扩展的建筑模型。这代表了一个从实验室扩展到所有建筑物的重大进展,在HVAC优化方面。为了便于使用,我们的基准与Gym标准兼容,我们的数据是TensorFlow Datasets的一部分。
arXiv:2409.18028v3 提示类型: 更新
摘要:在大型语言模型(LLM)用于复杂分析任务(如代码生成)的使用中,常见的做法是在模型的上下文窗口内采样整个任务的解决方案。以往的工作已经展示了在模型的上下文(链式思考)中执行子任务分解是有益的。在本文中,我们指出了LLM在同一上下文窗口内执行多个子任务的能力限制——上下文内组合的难度,这表明将分解问题分布在多代理系统中的LLM中存在优势。上下文内外部组合难度的差异通过生成复杂性度量进行量化,即在采样至少一个正确解所需的语言模型生成次数。我们发现,在同一上下文中解决组合问题的生成复杂性与在多个代理间分配问题的生成复杂性之间存在差距,且该差距随解决方案长度呈指数增长。我们从理论上证明了这些结果,并通过实验证明了它们。
arXiv:2407.09197v3 公告类型:替换
摘要:我们介绍了ACME:欧洲寻求庇护移民的聊天机器人。ACME依赖于计算论证,并致力于帮助移民识别他们可以申请的最高级别的保护。这将有助于更可持续的移民,通过减轻领土委员会、法院以及支持寻求庇护申请人的人道主义组织的负担。我们描述了背景环境、系统架构、底层技术以及用于与领域专家验证该工具的案例研究。
arXiv:2407.03340v2 通知类型: 修改
摘要: 地址人估计(即理解某人在对谁说话)是多参与者对话场景中人类活动识别的一个基本任务。具体而言,在人-机器交互领域,使社会机器人能够参与这样的互动环境变得更加重要。然而,通常将其实现为二元分类任务,限制了机器人估计是否被提及的功能,从而限制了其互动技能。为了使社会机器人获得人类的信任,重要的是表现出一定的透明性和可解释性。因此,在当前的机器学习应用和模型中,可解释的人工智能起着重要作用,不仅可以提供其决策的解释,还可以实现优秀的表现。在我们的工作中,我们:a) 提出了一种与之前最先进的方法相比性能改进的地址人估计模型;b) 进一步修改该模型,使其包含固有的可解释注意力机制片段;c) 将可解释的地址人估计整合到iCub机器人的多参与者对话模块化认知架构中;d) 在多参与者人-机器交互中验证该可解释模型的实时性能;e) 提出几种将可解释性和透明性整合到上述架构中的方法;f) 进行在线用户研究,以分析不同解释对人类参与者对机器人的认知效果的影响。
arXiv:2405.18180v2 Announce Type: replace
摘要:在许多真实场景中部署强化学习(RL)代理时,增强其在训练过程中安全探索的能力是一个关键挑战。当无法获得领域或任务的先验知识时,在未知的“黑盒”环境中训练RL代理更是增加了极大的安全风险。我们引入了ADVICE(自适应屏蔽与对比自编码器),这是一种新颖的后屏蔽技术,在训练过程中区分状态-动作对中的安全和不安全特征,并利用这些知识保护RL代理免于执行可能导致危险结果的动作。我们与最先进的安全RL探索技术的全面实验评估表明,ADVICE在训练过程中显著减少了安全违规行为(约50%),并在结果奖励方面具有竞争力。