arXiv:2502.07191v1 宣告类型: 新
摘要: 随着大型语言模型(LLMs)的发展,解决复杂推理任务越来越受到关注。推理时的计算方法(如 Best-of-N、束搜索等)尤其有价值,因为它们可以在不修改模型参数或不需要额外训练的情况下提高推理性能。然而,这些技术伴随着实现上的挑战,而且由于其计算复杂性和在不同任务上的有效性差异,大多数现有方法仍然停留在概念验证阶段,实际应用较少。在本文中,我们研究并比较了各种不同复杂度推理任务下的推理时计算策略。由于大多数当前方法依赖于提出者-验证者管道,首先生成候选解决方案(如推理解决方案),然后基于奖励信号(如RLHF奖励、过程奖励)选择最佳方案,我们的研究重点在于优化候选解决方案生成(如指导提示、温度和top-p等超参数)以及奖励机制(如自我评估、奖励类型)。通过多种模型(如Llama、Qwen和Mistral家族等)的大量实验(超过20,000个A100-80G GPU小时,超过1,000个实验),我们的消除分析表明,以前未被重视的策略可以显著提升性能(如调整温度可以将推理任务性能提高多达5%)。此外,我们通过系统地评估六种代表性方法在八个推理任务上的表现,建立了一个标准化的推理时计算基准。这些发现为未来的研究提供了更坚实的基础。代码可在https://github.com/usail-hkust/benchmark_inference_time_computation_LL 获取。
arXiv:2502.07190v1 通告类型: 新发布
摘要: 尽管大语言模型在各种自然语言处理任务上表现出了强大的性能,值得注意的是,这些任务主要依赖于利用大语言模型参数中编码的大量知识,而不是解决没有先验知识的新问题。在认知研究中,后一种能力被称为流体智力,被认为是评估人类智力的关键。最近关于流体智力评估的研究强调了大语言模型能力中的显著缺陷。在本文中,我们通过控制实验,以最典型的ARC任务为例,分析大语言模型在展示流体智力方面面临的挑战。我们的研究揭示了现有大语言模型存在的三大局限性:技能组合能力有限、不熟悉抽象输入格式以及从左到右解码的内在缺陷。我们的数据和代码可在 https://wujunjie1998.github.io/araoc-benchmark.github.io/ 找到。
arXiv:2502.07132v1 数据 harmonization 类型: 新
摘要:数据 harmonization 是一个至关重要的任务,涉及将来自不同源的数据集进行整合。尽管在这个领域进行了多年的研究,但由于模式不匹配、术语差异以及数据收集方法的不同,这一任务仍然是一项耗时且具有挑战性的任务。本文提出了作为实现专家自控数据 harmonization 的可能性,既能够赋予专家们自己 harmonize 数据的权力,又能够简化这一过程。我们引入了 Harmonia 系统,该系统结合了基于 LLM 的推理、交互式用户界面以及数据 harmonization 原语库,以自动化数据 harmonization 管道的合成。我们在临床数据 harmonization 场景中展示了 Harmonia,帮助其交互式地创建可重用的管道,将数据集映射到标准格式。最后,我们讨论了挑战和开放问题,并提出了进一步推进我们愿景的研究方向。
arXiv:2502.07056v1 宣告类型: 新
摘要: 本文简介了Deep Agent,这是一种先进的自主AI系统,专门设计用于通过新颖的分层任务管理架构来管理复杂的多阶段任务。该系统的基础是基于我们动态将高层次目标分解为可管理的子任务的Hierarchical Task DAG (HTDAG)框架,同时严格维护依赖性和执行的一致性。Deep Agent超越了传统的代理系统,通过三个关键创新实现:首先,它实施了一种递归的两阶段计划执行架构,使任务在条件变化时能够持续细化和适应。其次,它配备了自动API和工具创建(AATC)系统,该系统能够通过UI交互自动生成可重复使用的组件,大幅降低类似任务的操作成本。第三,它整合了提示微调引擎和自主提示反馈学习组件,这些组件能够根据特定场景优化大型语言模型提示,从而提高推理准确性和操作稳定性。这些组件被整合以形成一种服务基础设施,该基础设施能够管理用户上下文、处理复杂的任务依赖关系,并协调端到端的代理工作流程执行。通过这种复杂的架构,Deep Agent建立了一种自治理AI系统的新型范式,展示了在持续自我优化的过程中独立处理复杂多步骤任务的强大能力,同时保持了一致的效率和可靠性。
arXiv:2410.13772v2 类型:交叉
摘要:我们研究了在不了解系统非平稳性的先验知识的情况下,非平稳强化学习(NS-RL)的问题。考虑了一种最先进的黑箱算法——MASTER,并着重于研究在哪些条件下它可以实现其既定目标。具体来说,我们证明了MASTER的非平稳性检测机制在实际的选择时间段下不会被触发,从而导致类似于随机重启算法的性能。此外,我们展示了MASTER的遗憾界虽然最优阶,在最坏情况下仍然保持在不合理大的时间段上方。为了验证这些观察结果,我们在部分平稳多臂bandits的情况下测试了MASTER算法,以及使用随机重启或利用最快变化检测重启的方法。作为基准,提出了一种简单的最优阶随机重启算法,具有非平稳性的先验知识。通过模拟验证了MASTER算法的行为,并展示了利用最快变化检测的方法更加稳健,并且在所有测试中始终优于MASTER和其它随机重启方法。
arXiv:2301.06943v1 交叉公告类型
摘要:视网膜底片图像已被用于诊断和筛查糖尿病视网膜病变(DR)或糖尿病黄斑水肿(DME)等眼部疾病。然而,低质量的底片图像和风格不一致性可能会增加视网膜疾病诊断的不确定性,甚至可能导致眼科医生误诊。目前大多数现有的图像增强方法主要聚焦于通过高质量图像的引导来提高图像质量,但在医疗应用中收集高质量图像相当困难。在本文中,我们通过完全无监督的方式解决图像质量增强问题,即既没有配对图像也没有高质量图像。为此,我们探索了自监督任务在无需高质量参考图像的情况下提高底片图像质量的潜力。具体而言,我们通过一个辅助预训练的质量评估网络和风格聚类构建了多个局部领域的。为了实现鲁棒的低质量图像增强并解决风格不一致性问题,我们制定了两个自监督领域适应任务,通过探索低质量图像内部的固有监督信号来分离图像内容、低质量因素和风格信息。我们在EyeQ和Messidor数据集上进行了广泛的实验,并结果显示,当仅使用低质量图像时,我们的DASQE方法实现了新的最佳性能。
arXiv:2502.06773v1 宣布类型: 新闻
摘要: 最近的AI进展,如OpenAI的新模型,正将LLMs(大型语言模型)转变为LRMs(大型推理模型),这些模型在推理过程中进行推理,这会耗费额外的时间和计算资源以获得更高质量的输出。我们的目标是探索训练LRMs的算法框架。方法如自我一致性、PRM和AlphaZero表明推理是一种受引导的搜索。我们提出的问题是:在LLMs中启用搜索的最简单且可扩展的方法是什么?
我们提出了一种后训练框架,称为自游戏强化学习(RLSP,Reinforcement Learning via Self-Play)。RLSP包括三个步骤:(1)监督微调,使用人类或合成的推理过程示范,(2)使用探索奖励信号来鼓励多样性和高效的推理行为,以及(3)使用结果验证器进行强化学习训练,以确保正确性和防止奖励作弊。我们的关键创新是在PPO训练过程中将探索信号和正确性信号脱耦,并仔细平衡它们,以提高性能和效率。
在数学领域的实证研究中,RLSP 提高了推理能力。在Llama-3.1-8B-Instruct模型上,RLSP 可以在MATH-500测试集上提高23%的性能;在AIME 2024数学问题上,Qwen2.5-32B-Instruct因为RLSP提高了10%的性能。然而,这项工作更为重要的发现是,使用RLSP训练的模型,即使使用最简单的鼓励模型采取更多中间步骤的探索奖励信号,也显示了多种涌现行为,如回溯、思想的探索和验证。这些发现证明了当分阶段扩展时,RLSP框架可能足以使LLMs具备复杂推理能力。最后,我们提出了一种理论,该理论受到一个惊人结果的启发,该结果表明CoT(逐步推理)理论上确实增强了LLMs的计算能力,这种增强随着CoT中步骤的数量增加而增加[Li, 2024, Chained Thought; Merrill, 2023, Expressive]。
arXiv:2502.06727v1 声明类型: 新
摘要: 通常来说,硬计算处理的是精确数据,这为解决问题提供了理想方案。然而,在土木工程等领域中,现实世界的系统是不断变化的,这并不总是这样。因此,探索软计算方法和人工智能以解决土木工程中的不足是必要的。先进的计算模型的集成,包括人工神经网络(ANNs)、模糊逻辑、遗传算法(GAs)和概率推理,已经革命性地改变了土木工程领域。这些模型通过提供创新解决方案和改进的分析能力,显著推进了多学科领域的发展。这些领域包括:边坡稳定性分析、承载能力、水质和处理、交通系统、空气质量、结构材料等。ANNs 预测非线性并提供准确估计。模糊逻辑使用高效的决策过程为系统提供更精确的评估。最后,遗传算法基于进化过程优化模型以获得更好的结果,而概率推理则降低了统计不确定性。
arXiv:2502.06656v1 宣布类型: 新论文
摘要: 近年来,强大的人工智能系统的发展突出显示了人工智能行业中需要稳健的风险管理框架的需求。尽管公司已经开始实施安全性框架,但当前的方法往往缺乏其他高风险行业所具备的系统严谨性。本文提出了一种全面的人工智能风险管理框架,通过整合现有的风险管理原则与新兴的人工智能特定实践,填补了这一空白。该框架包括四大关键组成部分:(1) 风险识别(通过文献回顾、开放式红队评估和风险建模),(2) 使用定量指标和明确界定的阈值进行风险分析和评估,(3) 通过减缓措施、部署控制和保证流程来处理风险,(4) 通过建立清晰的组织结构和问责制来治理风险。借鉴成熟行业如航空或核能行业的最佳实践,同时考虑到人工智能的独特挑战,该框架为人工智能开发者提供了实现稳健风险管理的具体指南。文章详细说明了每一分组件在整个人工智能系统生命周期中的实施方法——从规划到部署——并强调在最终训练运行之前进行风险管理工作的必要性和可行性,以减轻其相关负担。
arXiv:2502.06655v1 宣告类型: 新
摘要: 指标污染已成为LLM评估社区中一个重要的关注点。先前的代理作为评估者通过将代理纳入问题生成过程来解决这一问题。尽管它们取得了成功,但代理作为评估者方法中的偏差仍很大程度上未被探索。在本文中,我们提出了一种评估偏差的理论框架,为设计无偏评估协议提供了宝贵的见解。此外,我们通过精心设计的探针任务,在最小化代理作为评估者的设置中,确定了代理作为评估者中的两种偏差类型。为解决这些问题,我们提出了无偏评估者这一评估协议,该协议为LLM提供了一个更全面、无偏和可解释的评估。大量的实验表明,当前的LLM仍有显著改进的空间。此外,我们证明无偏评估者不仅提供了基准污染的有力证据,还提供了可解释的评估结果。