arXiv:2503.19602v1 通知类型:新
摘要:大型语言模型(LLMs)的最新进展引入了推理大型语言模型(RLLMs),它们采用了扩展的思考过程,并具备反思和自我纠正的能力,显示出测试时扩展的有效性。RLLMs展现出了从训练中获得的内在逻辑链(CoT)推理能力,这引发了自然的问题:“对于聊天LLMs常用的上下文学习(ICL)方法CoT提示是否必要以增强RLLMs的推理能力?” 在这项工作中,我们首次对零样本CoT和少样本CoT对RLLMs在数学推理任务中影响进行了全面分析。我们考察了从15亿到320亿参数的模型,发现与担忧相反,CoT提示在大多数场景下显著增强了RLLMs的表现。我们的结果显示了不同的模式:大容量模型在简单任务上几乎没有改进,但在复杂问题上表现出显著提升,而小模型则表现出相反的行为。进一步的分析表明,CoT提示有效地控制了思考令牌和推理步骤的数量分布,在某些情况下减少了约90%的过度反思。此外,注意力分数分析揭示了RLLMs对与反思相关的词汇的过度拟合,这种过度拟合可以通过外部CoT指导来缓解。值得注意的是,我们的实验表明,对于RLLMs,单次样本CoT始终在表现上优于少样本CoT方法。我们的发现为通过合适的提示策略优化RLLMs的性能提供了重要的见解。
arXiv:2503.19584v1 宣布类型: 新闻
摘要: 本文介绍了一种多代理应用程序系统,旨在提高办公协作效率和工作效率。该系统集成了人工智能、机器学习和自然语言处理技术,实现了任务分配、进度监控和信息共享等功能。系统中的代理能够根据团队成员的需求提供个性化的协作支持,并集成数据分析工具以提高决策质量。论文还提出了一种智能代理架构,分离了计划和解决问题的功能,并通过多轮查询重写和业务工具检索等技术,增强了代理的多意图和多轮对话能力。此外,论文详细阐述了在办公协作场景中工具和多轮对话的设计,并通过实验和评估验证了该系统的有效性。最终,该系统在实际商业应用中展示了出色的表现,尤其是在查询理解、任务规划和工具调用方面。展望未来,该系统有望在动态环境和大规模多代理系统中解决复杂交互问题方面发挥更加重要的作用。
arXiv:2503.19470v1 宣布类型: 新
摘要: 大型语言模型(LLMs)在推理方面展示了令人瞩目的能力,如OpenAI-o1和DeepSeek-R1的成功所示。然而,将推理与外部搜索过程集成仍然具有挑战性,特别是在处理需要多步检索的复杂多跳问题时。我们提出了一种名为ReSearch的新型框架,该框架通过强化学习训练LLMs进行搜索推理,无需使用任何关于推理步骤的监督数据。我们的方法将搜索操作视为推理链中的核心组件,何时以及如何执行搜索由基于文本的思考指导,搜索结果随后影响进一步的推理。我们使用Qwen2.5-7B(-Instruct)和Qwen2.5-32B(-Instruct)模型训练ReSearch,并进行了广泛的实验。尽管仅使用一个数据集进行训练,但我们的模型在各种基准测试中表现出强大的通用性。分析表明,在强化学习过程中,ReSearch自然地诱发了诸如反思和自我修正等高级推理能力。
arXiv:2503.19326v1 宣告类型: 新
摘要: 最近的推理大语言模型(LLMs)通过长链推理展示了数学推理能力的显著改进。这些模型的推理令牌能够在推理链中实现自我纠正,从而增强其鲁棒性。这促使我们进行探索:推理LLMs对其输入推理链中的微妙错误有多脆弱?我们引入了“妥协的思考”(CPT)这一漏洞,当模型接收到包含篡改计算结果的推理令牌时,它倾向于忽略正确的推理步骤,转而采用错误的结果。通过跨多个推理LLMs的系统评估,我们设计了三种越来越明确的提示方法来衡量CPT的抗性,揭示出模型在识别和纠正这些篡改方面面临着显著的困难。值得注意的是,与现有研究认为结构改动比内容修改对模型性能影响更大的观点相反,我们发现局部结尾令牌篡改对推理结果的影响大于结构变化。此外,我们发现DeepSeek-R1中存在一个安全漏洞,篡改的推理令牌可以触发完全的推理停止。我们的工作增加了对推理鲁棒性的理解,并强调了推理密集型应用中的安全考虑。
arXiv:2503.19302v1 宣传类型: 新
摘要: 部分可观测马尔可夫决策过程(POMDPs)是一种在状态不确定性下的随机环境中进行顺序决策的一般数学模型。POMDPs 通常通过在线求解来解决,这使得算法能够实时适应新的信息。在线求解器通常使用基于重要性重采样的粒子滤波器来更新信念分布。由于直接从最新的观测和先前状态的理想状态分布中采样是不可行的,粒子滤波器通过预测和重采样步骤传播状态并调整权重来近似后验信念分布。然而,在实践中,当状态转换模型与后验信念分布严重不一致时,特别是在接收到的观测信息量大的情况下,重要性重采样技术往往会导致粒子稀疏化和样本贫瘠。我们提出了一种方法,通过迭代的蒙特卡罗步骤构造状态转换与最优分布之间的桥梁分布序列,更好地适应在线POMDP求解器中的噪声观测。我们的算法在多个具有挑战性的POMDP领域进行评估时,与最先进的方法相比,性能显著更优。
arXiv:2503.19193v1 公告类型: 新
摘要: 我们介绍了一种名为“We Browsing Lost Unformed Recollections”的提示-舌尖现象已知项目搜索与推理基准,该基准适用于通用人工智能助手。BLUR 引入了一套573个经过实际验证的问题,这些问题是多模态和多语言输入的搜索与推理,以及熟练使用工具的需要,以出色完成这些任务。人类很容易在这些问题上拿高分(平均得分98%),而表现最好的系统得分约为56%。为了促进通用人工智能助手解决这一富有挑战性和雄心勃勃的应用场景的进展,我们通过公共排行榜发布350个问题,保留其中250个问题的答案,并将其余问题留作私有测试集。
arXiv:2503.19174v1 宣布类型: 新增
摘要: 从自然语言规范生成SystemVerilog断言(SVAs)仍然是形式验证(FV)中的一个主要挑战,主要归因于规范固有的模糊性和不完整性。现有的基于LLM的方法,如AssertLLM,专注于仅从规范文档中提取信息,往往未能捕捉到RTL代码中存在的重要内部信号交互和设计细节,导致生成不完整或错误的断言。我们提出了一种新的方法,该方法从规范和RTL中构建一个知识图谱(KG),使用特定硬件的模式,并具有领域特定的实体和关系类型。我们从规范中创建了一个初始的KG,然后系统地将其与从RTL代码中提取的信息融合,从而形成一个统一且全面的KG。这种合并的表示能够更全面地理解设计,并允许一个多分辨率上下文合成过程,该过程旨在从KG中提取多样化的验证上下文。实验结果表明,我们的方法在SVA质量方面显著优于先前的方法。这种结构化的表示不仅提高了FV,还为未来的代码生成和设计理解等任务的研究铺平了道路。
arXiv:2503.19107v1 宣告类型: 新
摘要: 为了在动态和不确定的环境中生存,个体必须发展出既能平衡信息收集与决策承诺的有效决策策略。这类策略的模型往往更侧重于优化具体回报,比如奖励速率,或者收集信息以支持多种(可能未知的)目标。然而,这两种方法的相对优劣我们仍不清楚,部分原因在于直接比较往往局限于理想化的静态环境,而缺乏现实世界动态复杂性。在这里,我们比较了在动态觅食任务中规范性奖励寻求和信息寻求策略的表现。两种策略在环境不确定性变化时都表现出类似的探索和利用行为的转变。然而,我们发现它们采取的具体行动存在细微差异,导致表现上的显著差异:尽管奖励寻求策略在平均奖励上略胜一筹,但信息寻求策略提供了更为一致和可预测的结果。我们的发现支持了信息寻求行为的适应价值,这种行为可以在最小化回报损失的同时减轻风险。
arXiv:2503.18984v1 通知类型: 新
摘要: 证据理论是一种数学框架,用于处理法官评估证词或侦探评估线索时的模糊推理,而不是赌徒在玩概率游戏。与概率论相比,它在处理模糊信息和新型可能性方面更为 adept。此外,证词的到达和评估意味着存在一个通信渠道。
本文探讨了将证据理论应用于生物体之间及其内部的任意通信代码的可能性。本文在探讨无法预见的生物体、足够精明可以进行推断的动物以及能够读懂彼此想法的人类的通信方案方面进行了探索。
arXiv:2503.18971v1 宣布类型: 新增
摘要: 大型语言模型(LLMs)在各种自然语言任务中表现出色,但在需要结构化推理的长时间规划问题上经常遇到挑战。这种局限性吸引了自动化规划(AP)和自然语言处理(NLP)社区对整合神经符号方法的兴趣。然而,确定最优的AP部署框架可能是令人望而却步的。本文旨在提供一个及时的综述,并进行深入分析,将LLMs定位为提取和精炼规划模型的工具,以支持可靠的AP规划器。通过系统地回顾当前的研究状态,我们强调了研究方法,并识别了关键挑战和未来方向,希望为NLP和自动化规划的联合研究做出贡献。