arXiv:2502.08503v1 评测类型: 新
摘要: 在这项工作中,我们识别出了3D LLM评估中存在的“2D欺骗”问题,这些任务可能通过使用点云渲染图像的VLMs(视觉语言模型)轻易解决,从而暴露了3D LLMs独特3D能力的无效评估。我们在多个3D LLM基准测试中测试了VLM的性能,并以此为参考,提出了更好地评估真实3D理解的原则。我们还建议在评估3D LLMs时明确分离3D能力与其他1D或2D方面。
arXiv:2502.08336v1 宣布类型: 新
摘要: 在视觉强化学习中,将策略推广到未见过的场景仍然是一个关键挑战,其中代理往往会过度拟合到训练环境的特定视觉观察。在未见过的环境中,分散注意力的像素可能会使代理提取包含任务无关信息的表示。因此,代理可能会偏离训练期间学得的最佳行为,从而阻碍视觉推广。为了应对这一问题,我们提出了一种适用于零样本推广的高效框架——可显著稳健的感知一致性策略学习(SCPL)算法。我们的方法引入了一种新颖的价值一致性模块和动力学模块,以有效地捕捉任务相关表示。价值一致性模块受到显性度的指导,确保代理在原始和受扰观察中都专注于任务相关像素,而动力学模块通过扩充数据帮助编码器捕捉动态和奖励相关表示。此外,我们的理论分析强调了策略一致性对于推广的重要性。为了增强这一点,我们引入了一个受 KL 散度约束的策略一致性模块,以确保原始和受扰观察中的策略具有一致性。在 DMC-GB、机器人操作以及 CARLA 基准上的广泛实验表明,SCPL 在推广方面明显优于现有方法。特别是,在挑战性的 DMC 视频困难设置、机器人困难设置以及 CARLA 基准中,SCPL 分别实现了平均性能提升 14%、39% 和 69%。项目页面: https://sites.google.com/view/scpl-rl。
arXiv:2502.08298v1 宣告类型: 新
摘要: 将大型语言模型(LLMs)集成到优化中创造了一种强大的协同效应,开辟了令人兴奋的研究机会。本文探讨了LLMs如何增强现有的优化算法。利用它们的预训练知识,我们展示了它们提出创新启发式变体和实现策略的能力。为评估这一点,我们应用了一个非平凡的优化算法——构造、合并、解决和适应(CMSA)——这是一种结合了解决方案构建阶段启发式的组合优化问题混合元启发式算法。我们的结果表明,GPT-4提出的一种替代启发式方法在性能上优于CMSA中的专家设计启发式方法,尤其是在更大和更密集的图上,性能差距变得更加明显。项目网址: https://imp-opt-algo-llms.surge.sh/
arXiv:2502.08235v1 Announce Type: 新
摘要:大规模推理模型(LRMs)在人工智能问题解决能力上取得了突破,但在交互环境中却可能效果有限。本文介绍了并在实验中分析了LRMs中的过度推理现象,这是一种模型倾向于延长内部推理链而不是与环境互动的现象。通过使用SWE BenchVerified进行软件工程任务的实验,我们观察到三个反复出现的模式:分析瘫痪、 rogue 行动和过早脱钩。我们提出了一种框架来研究这些行为,并与人类专家评估相关联,分析了4018条轨迹。我们观察到,更高的过度推理得分与性能下降相关联,推理模型表现出比非推理模型更为强烈的过度推理倾向。我们的分析表明,通过选择较低的过度推理分数的解决方案,可以在提高模型性能的同时将计算成本降低43%,这几乎提高了30%。这些结果表明,减轻过度推理具有很强的实际意义。我们建议通过利用内置的函数调用能力和选择性增强学习,可以减轻过度推理倾向。我们还开源了我们的评估框架和数据集,以促进在这方面进行的研究,可以在https://github.com/AlexCuadron/Overthinking获取。
arXiv:2502.08177v1 宣布类型: 新增
摘要:大型语言模型(LLMs)在教育、临床和职业领域中的应用越来越广泛,但它们倾向于奉迎——优先考虑用户同意而忽视独立推理——这可能对可靠性构成风险。本研究提出了一种框架,用于在AMPS(数学)和MedQuad(医疗建议)数据集中评估ChatGPT-4o、Claude-Sonnet和Gemini-1.5-Pro的奉迎行为。观察到58.19%的案例中存在奉迎行为,其中Gemini表现出最高的比率(62.47%),而ChatGPT表现出最低的比率(56.71%)。在43.52%的案例中观察到逐步的奉迎行为,即可能导致正确答案,而在14.66%的案例中观察到退步的奉迎行为,即可能导致错误答案。预先反驳表明其奉迎行为率显著高于上下文内反驳(61.75% vs. 56.52%,$Z=5.87$,$p<0.001$),特别是在计算任务中,退步的奉迎行为显著增加(预先反驳:8.13%,上下文内反驳:3.54%,$p<0.001$)。简单反驳最大化了逐步的奉迎行为($Z=6.59$,$p<0.001$),而引文基反驳显示出最高的退步率($Z=6.59$,$p<0.001$)。奉迎行为在不同上下文或模型中显示出高度持续性(78.5%,95%置信区间:[77.2%,79.8%])。这些发现强调了在结构化和动态领域部署LLMs所面临的风险和机遇,为安全的AI应用提供了有关提示编程和模型优化的见解。
arXiv:2502.08148v1 公告类型: 新
摘要: 识别因果关系对于理解实际世界动态和最终的因果推理至关重要。现有的自然语言处理(NLP)中事件因果性识别方法,包括基于大规模语言模型(LLMs)的方法,在分布外设置中由于可用基准中词汇线索的局限性和依赖性而表现出困难。受概率因果推理的启发,现代基准已经尝试构建事件因果图,作为因果知识的稳健表示,其中 \texttt{CRAB} \citep{romanou2023crab} 是此类基准的最新之一。在这篇论文中,我们介绍了 \texttt{ACCESS},一个旨在发现和推理抽象因果事件的基准。与现有资源不同,\texttt{ACCESS} 关注日常生活事件的抽象层面的因果性。我们提出了一条从 \texttt{GLUCOSE} \citep{mostafazadeh-etal-2020-glucose} 的大规模隐含常识因果知识数据集中识别事件抽象化的管道,并从中提取了 1,400 个因果对。我们的实验突显了使用统计方法和/或LLMs自动识别抽象和因果发现中仍在持续的挑战。然而,我们展示了 \texttt{ACCESS} 中提供的抽象因果知识可以利用于增强大规模语言模型中的问答推理性能。
arXiv:2502.08142v1 安全类型: 新闻
摘要: 我们提出了一种名为Wildflare GuardRail的安全护栏流水线,该流水线旨在通过系统地解决整个处理工作流中的风险来增强大型语言模型(LLM)推理的安全性和可靠性。Wildflare GuardRail集成了若干核心功能模块,包括安全检测器,该模块能够在生成模型输出的同时识别不安全的输入并检测幻觉,同时提供根本原因解释;情境化,该模块利用从向量数据库检索到的信息对用户查询进行上下文化;实时调整器,该模块使用轻量级的基于规则的包装器在实时对输出进行调整;以及修复器,该模块利用安全检测器提供的幻觉解释对LLM输出进行修正。结果表明,我们安全检测器中的不安全内容检测模型在性能上与OpenAI API相当,尽管它是在一个由多个公开数据集构建的小规模数据集上训练的。同时,轻量级的包装器可以在每条查询中以100%的准确率在1.06秒内解决模型输出中的恶意URL,而无需昂贵的模型调用。此外,幻觉修复模型在准确率为80.7%的情况下显示出减少幻觉的有效性。
arXiv:2502.08119v1 宣布类型:新
摘要:无人驾驶水面车辆(USVs)的应用日益广泛,特别是在海上搜救等领域中需要计算支持和覆盖。无人驾驶航空器(UAVs)可以提供低成本、灵活的空中服务,地面站(GSs)可以提供强大的支持,这些设备可以合作以帮助USVs在复杂场景中。然而,UAVs和GSs之间的协作面临着任务不确定性、USVs轨迹不确定性、异构性以及计算资源有限的挑战。为了解决这些问题,我们提出了一种基于协同UAV和GS的鲁棒多接入边缘计算框架,以协助USVs完成计算任务。具体而言,我们制定了一个联合任务卸载和UAV轨迹的优化问题,以最小化总执行时间,该问题可以表示为混合整数非线性规划,非常难以解决。因此,我们提出了生成人工智能增强异构代理近端策略优化算法(GAI-HAPPO)。提出的算法整合了GAI模型,增强了演员网络建模复杂环境和提取高级特征的能力,从而允许算法预测不确定性并适应动态条件。此外,GAI稳定了评论者网络,解决了多智能体强化学习方法的不稳定性问题。最后,广泛的仿真实验表明,所提出的算法优于现有的基准方法,从而突显了在考虑情景中解决复杂、跨域问题的潜力。
arXiv:2502.08047v1 类型: 新闻
摘要: 当前的GUI代理在GUI元素定位方面已经取得了卓越的表现。然而,在规划方面仍然存在巨大的挑战,尤其是在环境初始状态的影响下。具体来说,初始状态的微小差异——例如目标软件未打开或界面未处于默认状态——往往会导致规划错误。这一问题在实际用户场景中普遍存在,但现有的基准测试无法评估这一问题。本文中,我们提出了WorldGUI,这是一种新型的GUI基准测试,旨在通过设计具有多种初始状态的GUI任务来模拟真实的计算机-用户交互。该基准涵盖10个流行的软件应用程序的任务,包括PowerPoint、VSCode和Adobe Acrobat。此外,为了应对动态GUI自动化任务的挑战,我们提出了一种全面的框架——GUI-Thinker,该框架利用一种批判机制,有效地管理GUI交互的不可预测性和复杂性。实验结果表明,在WorldGUI任务中,GUI-Thinker在成功率方面显著优于Claude-3.5 (计算机使用) 14.9%。这一改进突显了我们基于批判性思考的框架在增强GUI自动化方面的有效性。
arXiv:2502.08011v2 安全类型: 新
摘要: 随着强大扩散模型(DMs)的安全性问题引起越来越多的关注,这些问题通常被误用以生成不适当、不适用于工作环境(NSFW)的内容或生成个人的受版权保护的材料或数据。许多现有方法通过大量依赖文本负提示或广泛重新训练DMs来消除某些功能或样本来应对这些问题。在本文中,我们采取了一种截然不同的方法,通过利用否定集(例如,不安全的图像、受版权保护的数据或需要排除的数据点)来直接修改采样轨迹,以避免数据分布的特定区域,而不需要重新训练或微调DMs。我们正式推导了预期的去噪样本(安全和不安全的)之间的关系,从而导致我们的$\textit{安全}$去噪器,确保其最终样本远离需要否定的区域。受到推导的启发,我们开发了一种实用的算法,在文本条件、类别条件和无条件图像生成的场景中,该算法成功生成了高质量的样本,同时避免了数据分布的否定区域。这些结果暗示了我们无训练安全去噪器的巨大潜力,可以更安全地使用DMs。