arXiv:2504.02111v1 通知类型: 新
摘要: 本研究探讨了在系统引入输入干扰的情况下,大型语言模型(LLMs)在数学问题解决任务中的推理稳健性。使用GSM8K数据集作为受控测试平台,我们评估了当前最先进的模型在面对四类提示干扰时保持逻辑一致性和正确性的能力:无关背景、病态指令、事实相关但不重要的背景,以及后两者组合。我们在十三个开源和封闭源LLMs上进行的实验表明,引入模型上下文窗口中的无关背景显著降低了性能,这表明区分必要和无关细节仍然是一个紧迫的挑战。令人惊讶的是,性能下降对所需推理步骤的数量(作为推理任务复杂性的度量)的敏感性相对较低,并且与模型规模之间没有严格的关联。此外,我们观察到某些干扰无意中触发了类似逐步推理的行为,即使没有明确的提示也是如此。我们的研究结果突显了当前LLMs中的关键漏洞,并强调了提高对嘈杂、误导性和语境密集输入的稳健性的需要,为在实际应用中更强大和可靠的推理铺平了道路。
arXiv:2504.02058v1 宣布类型: 新
摘要: 确保通用人工智能(AGI)的安全发展往往依赖于基于公理形式化、可解释性和经验验证的共识对齐方法。然而,这些方法可能在结构上无法识别或整合那些超出其接受的认知框架的新颖解决方案。本文引入了一种认知闭合的功能性模型,在这种模型中,认知、机构、社会和基础设施过滤器结合在一起,使许多对齐提案对现有的评估系统变得难以理解。我们提出了一种既基于理论又基于经验的支持闭合模型,包括由AI系统进行的元分析,该分析是关于一个去中心化集体智能(DCI)框架的拒绝和非介入模式的模式。我们arg认为,反复未能评估类似DCI的模型不仅仅是一个社会学疏忽,而是一个结构吸引子,与我们试图避免的AGI失准风险相呼应。如果没有采纳DCI或其他类似的递归的认知矫正模型,我们可能正走在一条不可避免地走向不可逆失准的道路上。本文的发展和接受,首先通过模拟评审,然后通过正式渠道进行,提供了一个案例研究,支持其核心论点:认知闭合只能通过递归建模其所依赖的约束来克服。
arXiv:2504.01995v1 通知类型: 新
摘要:近年来,大规模语言模型(LLMs)在数学推理任务上的进步令人印象深刻。然而,当前的评估基准主要集中在最终答案的准确性上,往往忽视了数学问题解决过程中至关重要的逻辑严谨性。关于最先进的LLMs能够解决数学奥林匹克级别的问题的说法需要进一步考察。为了探讨这一问题,我们对LLMs生成的证明进行了定性和定量的人类评估,并开发了一种自动评估其推理能力的框架。我们的研究揭示,当前的LLMs在解决具有挑战性的奥林匹克级别问题方面严重不足,经常无法区分正确的数学推理与明显错误的解决方案。我们还发现,LLMs偶尔提供的正确最终答案往往是基于模式识别或启发式捷径,而不是真正的数学推理。这些发现突显了LLMs在高级数学推理方面的性能与人类专家之间的巨大差距,并强调了制定优先考虑数学论证的严谨性和连贯性的评估标准的重要性,而不只是最终答案的正确性。
arXiv:2504.01990v1 Announce Type: 新增
摘要:大型语言模型(LLMs)的出现催化了人工智能的变革性转变,为高级智能代理的发展铺平了道路,这些代理能够进行复杂的推理、稳健的感知以及在不同领域中多种多样的行动。随着这些代理越来越多地推动人工智能研究和实际应用,它们的设计、评估以及持续改进带来了复杂多维的挑战。本文综述提供了全面的概述,将智能代理置于一种模块化、受大脑启发的架构中,该架构结合了认知科学、神经科学和计算研究的原则。我们将探索分为四个相互关联的部分。首先,我们深入探讨智能代理的模块化基础,系统地将认知、感知和操作模块映射到类似的人脑功能,并阐明核心组件,如记忆、世界建模、奖励处理和类似于情绪的系统。其次,我们讨论自我提升和适应性进化机制,探讨代理如何自主完善其能力、适应动态环境并通过自动优化范式实现持续学习,包括新兴的自动化机器学习和由LLM驱动的优化策略。第三,我们研究协作和进化多智能体系统,探讨来自代理互动、合作和社会结构的集体智能,并突出人社会动态的类比。最后,我们应对构建安全、安全和有益的人工智能系统的关键需求,强调内在和外在的安全威胁、伦理对齐、稳健性和必要的实际缓解策略,以实现可信的实际应用部署。
arXiv:2504.00457v2 宣告类型: replace-cross
摘要: 我们引入了DD3G,一种将多视图扩散模型(MV-DM)精简为3D生成器的方法,使用了高斯插值技术。DD3G通过模拟MV-DM的常微分方程(ODE)轨迹,压缩并整合了来自MV-DM的大量视觉和空间几何知识,确保精简的生成器比仅基于3D数据训练的生成器有更好的泛化能力。不同于之前的近似优化方法,我们对MV-DM和3D生成器的表示空间进行了对齐,从而将教师的概率流转移给学生,避免了由于概率采样引起优化目标的一致性问题。引入概率流以及3D高斯中的各种属性耦合为生成过程带来了挑战。为了解决这一问题,我们提出了PEPD生成器,该生成器包括模式提取和渐进解码阶段,这使得概率流的高效融合成为可能,并能在0.06秒内将单张图像转换为3D高斯。此外,为了减少知识损失并克服稀疏视图监督,我们设计了一个联合优化目标,通过明确监督和隐式验证确保生成样本的质量。利用现有的2D生成模型,我们收集了120,000张高质量的RGBA图像进行精简。在合成和公开数据集上的实验表明了我们方法的有效性。我们的项目可以在以下链接访问:https://qinbaigao.github.io/DD3G_project/
arXiv:2504.00336v2 宣告类型: replace-cross
摘要:癫痫是一种影响全球约6500万人的常见神经系统疾病。鉴于相关并发症的普遍性和严重性,快速准确地检测癫痫发作至关重要。最近,基于深度学习的自动化癫痫发作检测方法已经出现了,然而,大多数现有方法需要大量的后续处理,并且不能有效地处理EEG数据中的关键长程模式。在此项工作中,我们提出了SeizureTransformer,这是一种简单的模型,由 (i) 一个包含1D卷积的深度编码器;(ii) 一个残差CNN堆栈和一个变压器编码器,用于将先前的输出嵌入具有上下文信息的高层表示;以及 (iii) 一个精简的解码器,该解码器将这些特征转换成一系列概率,直接指示每个时间步是否出现癫痫发作。在公共和私有EEG癫痫发作检测数据集上的广泛实验表明,我们的模型在2025年由国际癫痫和其他神经系统疾病人工智能会议上组织的“癫痫发作检测挑战赛”中排名首位,突显了其在实时、精确癫痫检测方面的潜力。
arXiv:2503.24361v2 声明类型: replace-cross
摘要:大规模现实世界机器人的数据集具有训练通用机器人模型的巨大潜力,但扩大现实世界人类数据的收集既费时又资源密集。模拟在补充大规模数据方面具有巨大潜力,尤其是在生成AI和自动化数据生成工具的进步使得能够大规模创建机器人行为数据集的情况下。然而,仅在模拟中训练策略并将其实现在现实世界中通常需要大量的手工努力来弥合现实差距。一个充满希望的替代方案是在模拟和真实世界数据的混合中共同训练策略。初步研究表明,与仅使用少量真实世界数据训练的策略相比,这种策略能够显著提高策略的性能。然而,社区缺乏对模拟和现实共同训练方法的系统理解,以及如何利用模拟数据的收益进行真实机器人学习。本文提供了一个简单而有效的配方,利用模拟数据解决基于视觉的机器人 manipulation 任务。我们通过对各种模拟和真实世界数据集进行全面实验来验证共同训练策略,从而得出这个配方。在两条跨领域的研究路线——机器人臂和类人机器人上,通过多样化的任务,我们展示了模拟数据能够通过平均38%的优势提升现实世界任务的表现,即使模拟和真实世界数据之间存在显著差异。有关视频和额外结果,可以访问 https://co-training.github.io/
arXiv:2503.23368v2 宣告类型: 替换交叉
摘要:近年来,视频扩散模型(VDMs)取得了显著进展,使其能够生成高度逼真的视频,并引起了社区对其作为世界模拟器的潜在性的关注。然而,尽管具有这些能力,VDMs 由于缺乏对物理的理解,往往无法生成物理上合理的视频,导致错误的动力学和事件序列。为了应对这一限制,我们提出了一种新颖的两阶段图像到视频生成框架,该框架明确地融入了物理知识。在第一阶段,我们采用一种视觉语言模型(VLM)作为粗粒度的运动规划器,整合了思考链和物理意识推理,以预测近似实际物理动态的真实世界运动轨迹/变化,同时确保帧间的连贯性。在第二阶段,我们使用预测的运动轨迹/变化来引导VDM的视频生成。由于预测的运动轨迹/变化是粗略的,在推理时将添加噪声以提供给VDM更多的自由度,以便生成更精细的运动细节。广泛的实验结果表明,我们的框架可以生成物理上合理的运动,而对比评价则突显了我们方法在现有方法上的显著优越性。更多视频结果可在我们项目页面上获取:https://madaoer.github.io/projects/physically_plausible_video_generation。
arXiv:2503.21393v2 宣布类型: replace-cross
摘要:大规模语言模型(LLMs)在语言翻译方面表现突出,包括低资源语言。关于通过LLMs生成的翻译质量评估的研究相对有限,这包括Gemini、GPT和谷歌翻译。在这项研究中,我们通过使用对印度语言的选定LLMs进行语义和情感分析,解决了这一不足之处,这些印度语言包括梵语、泰卢固语和印地语。我们选择了专家翻译良好的著名文本,并使用LLMs生成其英语翻译,然后与选定的专家(人类)翻译进行比较。我们的研究发现表明,虽然LLMs在翻译准确性方面取得了显著进步,但在保留情感和语义完整性方面仍存在问题,尤其是在比喻性和哲学性语境中。情感分析显示,GPT-4o和GPT-3.5在保留《薄伽梵歌》(梵语-英语)翻译中的情感方面比谷歌翻译表现更好。对于泰卢固语-英语翻译的《塔马斯》(Tamas)和英语翻译的《大哲理》(Maha P)我们也观察到了类似的趋势。从情感角度来看,GPT-4o在翻译这三个语言时的表现与GPT-3.5相似。我们发现,与谷歌翻译相比,LLMs在捕捉情感方面通常表现更佳。
arXiv:2503.19474v2 宣告类型: replace-cross
摘要:在多模态意图识别(MIR)领域,目标是通过结合各种模态(如语言文本、身体手势和音调)来识别人类意图。然而,现有的方法在充分捕捉不同模态之间的内在联系以及忽略相应的意图语义表示方面面临困难。为了解决这些局限性,我们提出了基于锚点的多模态嵌入与语义同步(A-MESS)框架。我们首先设计了一个基于锚点的多模态嵌入(A-ME)模块,该模块采用基于锚点的嵌入融合机制来整合多模态输入。此外,我们还开发了一种语义同步(SS)策略,该策略采用三元对比学习管道,通过将多模态表示与大型语言模型生成的标签描述同步来优化过程。综合实验表明,我们的A-MESS在达到最新技术水平的同时,为多模态表示及其下游任务提供了重要见解。