LLM2D

arXiv 论文列表

作者: Beomjun Kim, Kangyeon Kim, Sunwoo Kim, Heejin Ahn
arXiv:2504.20924v2 安全类型: 修订 摘要:确保人工智能系统安全最近已成为实现实用部署的关键优先事项,特别是在物理人工智能应用中。当前的人工智能安全方法通常仅处理预定义的具体领域安全条件,限制了它们在不同环境中的泛化能力。我们提出了一种新的人工智能安全框架,该框架确保人工智能系统遵守任何用户定义的约束,并在任何期望的概率范围内满足这些约束,而且适用于各种领域。在该框架中,我们将一个人工智能组件(例如,神经网络)与一个优化问题结合,生成既能最小化目标又能以超过用户定义阈值的概率满足用户定义约束的响应。为了评估人工智能组件的可信度,我们提出了内部测试数据、一个补充的安全标签数据集以及一种保守的测试方法,该方法提供了使用内部测试数据的统计有效性。我们还提出了一种损失函数的近似方法及其梯度的计算方法,以便进行训练。我们通过特定的温和条件证明了概率约束满足是保证的,并证明了安全性与内部测试数据数量之间的规模定律。我们通过在不同领域的实验展示了该框架的有效性:生产决策中的需求预测、SafetyGym模拟器中的安全强化学习以及保护人工智能聊天机器人输出。通过这些实验,我们证明了该方法能够保证用户指定约束的安全性,在低安全阈值区域中比现有方法高出几个数量级,并且随着内部测试数据量的增加能够有效扩展。
发布时间: 5/2/2025
查看原文
作者: Fei Liu, Qingfu Zhang, Xialiang Tong, Kun Mao, Mingxuan Yuan
arXiv:2504.19636v2 Announce Type: replace 摘要:大规模语言模型(LLMs)在算法设计方面展现了显著潜力。然而,在将其集成到迭代算法搜索框架中时,基础的适应度景观——这对理解搜索行为至关重要——仍被严重忽视。本文中,我们使用图论方法分析了LLM辅助算法搜索(LAS)的适应度景观,其中节点表示算法,边表示它们之间的转换。我们在六项算法设计任务和六种常用的大规模语言模型上进行了全面评估。研究发现,LAS景观具有高度的多模态性和崎岖性,特别是在组合优化任务中尤为明显,在任务和大规模语言模型之间存在明显的结构变化。例如,在启发式设计任务中,表现出色的算法较为密集地聚集在一起,而在符号回归任务中,则显示出稀疏、散乱的分布。此外,我们展示了种群规模如何影响探索-利用权衡以及精英算法的演变轨迹。这些见解不仅推动了对LAS景观的理解,还为设计更有效的LAS方法提供了实用指导。
发布时间: 5/2/2025
查看原文
作者: Jiaxin Wu, Ting Zhang, Rubing Chen, Wengyu Zhang, Chen Jason Zhang, Xiao-Yong Wei, Li Qing
arXiv:2503.23668v4 公告类型: 修改 摘要: 当前的分子理解方法主要侧重于人类感知的描述方面,提供了广泛的主题级洞见。然而,指称方面——将分子概念与特定的结构组件联系起来——仍然 largely unexplored。为解决这一差距,我们提出了一种分子定位基准,旨在评估模型的指称能力。我们将分子定位与NLP、化学信息学和分子科学中已建立的标准相一致,展示了NLP技术在科学AI运动中推动分子理解的潜力。此外,我们构建了迄今为止最大的分子理解基准,包含117,000个问答对,并开发了一个多智能体定位原型作为概念验证。该系统超过了现有的模型,包括GPT-4o,并且其定位输出已被集成到增强传统任务,如分子描述和ATC(Anatomical, Therapeutic, Chemical)分类中。
发布时间: 5/2/2025
查看原文
arXiv:2501.16961v2 宣告类型: 替换 摘要:推理的鲁棒性仍然是大型语言模型面临的一个重大挑战,解决这一问题对于AI驱动的推理系统在实际应用中的可行性至关重要。我们引入了语义自我验证(SSV)这一新颖的方法,以解决将语言模型与逻辑求解器的严谨性相结合的关键挑战:准确地将自然语言中的推理问题转化为求解器的形式语言。SSV 使用基于一致性的方法,通过模型生成的具体实例并由求解器验证,生成强大的抽象形式化问题。除了在总体推理准确性上显著超越现有最佳水平之外,这种方法的一个关键创新之处在于,我们在开放推理基准上展示了其在大量情况下具有近乎完美的精确验证能力。我们提出这种“近乎确定的推理”作为减少许多情况下手动验证需求的新方法,使我们更接近于更可靠和自主的AI推理系统。
发布时间: 5/2/2025
查看原文
作者: Antonio Norelli
arXiv:2411.11672v2 宣告类型: 替换 摘要: 本论文基于过去十年深度学习的爆炸性发展,从AlphaGo到ChatGPT,实证考察了实现人工科学家愿景所需的根本概念:一种能够自主生成原创研究并促进人类知识扩展的机器。这一调查始于Olivaw,一个类似于AlphaGo Zero的代理,它可以从未开始地发现Othello的知识,但无法与他人交流这些知识。这一见解导致了解释性学习(EL)框架的开发,这是一种科学家在尝试向同行解释新现象时面临的挑战的正式化。有效的EL处方使我们能够攻克Zendo,一种流行的纸板游戏,模拟了科学研究的过程。这一成功带来了一个根本的洞察:一个人工科学家必须发展自己的解释其发现的语言,而不是依赖现有的固定解释器。质疑学习解释器的过程,我们开始关注现代多模态模型的内部工作机制。这 culminates 归结为一个简单的想法,即构建类似于CLIP的模型,其中解释和感知被明确地分离:一种成本效益高的方法,仅使用少量多模态数据和不需进一步训练便将两个单模态模型耦合在一起。最后,我们讨论了ChatGPT及其兄弟 еще没有实现的变成人工科学家的方面,并引入了一个关于解释类似Zendo的解释的基准测试——Big-Bench符号解释任务,在这一任务中,LLMs的表现与随机猜测相当,而人类却完全解决了这个问题。
发布时间: 5/2/2025
查看原文
作者: Dongzhi Jiang, Ziyu Guo, Renrui Zhang, Zhuofan Zong, Hao Li, Le Zhuo, Shilin Yan, Pheng-Ann Heng, Hongsheng Li
arXiv:2505.00703v1 类型: cross 摘要: 近来大型语言模型的发展展示了如何通过思维链(CoT)和强化学习(RL)来提高性能。然而,将这种推理策略应用于视觉生成领域仍 largely unexplored。在本文中,我们提出了 T2I-R1,一种通过带有双层思维链(CoT)推理过程的 RL 驱动的新型增强推理的文本到图像生成模型。具体而言,我们识别了两个可以用于生成过程中不同阶段增强的思维链层次结构:(1) 语义层次的思维链,用于提示的高层次规划;(2) 令牌层次的思维链,用于分块生成期间的低层次像素处理。为了更好地协调这两个层次的思维链,我们引入了 BiCoT-GRPO,并通过一组生成奖励无缝优化了同一训练步骤中的两个生成思维链。通过将我们的推理策略应用于基准模型 Janus-Pro,我们在 T2I-CompBench 上实现了 13% 的性能提升,并在 WISE 基准上实现了 19% 的性能提升,甚至超过了最先进的模型 FLUX。1. 代码可在 https://github.com/CaraJ7/T2I-R1 获取
发布时间: 5/2/2025
查看原文
作者: Yanbang Li, Ziyang Gong, Haoyang Li, Haoyang Li, Xiaoqi Huang, Haolan Kang, Guangping Bai, Xianzheng Ma
arXiv:2505.00693v1 类别: cross 摘要: 最近,自然语言已成为人类与机器人交互的主要媒介。然而,其在机器人控制中的固有空间精度不足引入了如歧义性和冗长性等挑战。为了解决这些限制,我们提出了机器人视觉指令(RoVI),这是一种新的范式,通过面向对象的、手绘的符号表示来引导机器人任务。RoVI 通过二维草图有效地将时空信息编码为人类可理解的视觉指令,利用箭头、圆形、颜色和数字来指导3D机器人操作。为了使机器人更好地理解 RoVI,并根据 RoVI 生成精确的动作,我们提出了视觉指令体感知工作流(VIEW),这是一种针对 RoVI 条件策略的管道。该方法利用视觉-语言模型 (VLM) 解释 RoVI 输入,通过关键点提取从2D像素空间解码时空约束,然后将它们转换为可执行的3D动作序列。此外,我们还精心制作了一个包含 15K 实例的专门数据集,用于微调小 VLM 以便在边缘设备上部署,使其能够有效学习 RoVI 的能力。我们的方法在实际和模拟环境中对 11 个新型任务进行了严格的验证,展示了显著的泛化能力。值得注意的是,VIEW 在涉及多步操作、干扰和轨迹跟踪要求的未见任务的实际场景中实现了 87.5% 的成功率。本文的代码和数据集将很快发布。
发布时间: 5/2/2025
查看原文
作者: Wayne Wu, Honglin He, Chaoyuan Zhang, Jack He, Seth Z. Zhao, Ran Gong, Quanyi Li, Bolei Zhou
arXiv:2505.00690v1 宣告类型: cross 摘要: 微移动性是一种利用轻型移动机器在城市公共空间中运行的技术,如送货机器人和电动滑板车,它作为车辆移动的有希望的替代方案出现。当前的微移动性主要依赖于人类的手动操作(亲自或远程控制),在繁忙的城市环境中充满了不可预测的障碍物和行人时,这会引发安全性和效率的担忧。通过人工智能代理协助人类操作微移动设备,可以为提高安全性和效率提供一种可行的解决方案。在本文中,我们提出了一种可扩展的城市仿真解决方案,以推进自主微移动性。首先,我们构建了URBAN-SIM - 一个高性能的机器人学习平台,用于大规模培训嵌入式代理在交互式城市场景中的能力。URBAN-SIM包含三个关键模块:分层城市生成管道、交互动态生成策略以及异步场景采样方案,以提高机器人在仿真中学习的多样性和现实性以及效率。接着,我们提出了URBAN-BENCH - 一套必要的任务和基准测试,用以评估人工智能代理在实现自主微移动性方面的各种能力。URBAN-BENCH包括八项基于代理核心能力的任务:城市移动、城市导航和城市穿越。我们评估了四种具有异构形态的机器人,例如轮式和腿式机器人,这些任务中。在多种地形和城市结构上的实验揭示了每种机器人的优势和局限性。
发布时间: 5/2/2025
查看原文
作者: Tiange Luo, Lajanugen Logeswaran, Justin Johnson, Honglak Lee
arXiv:2505.00684v1 视觉测试时缩放类型:交叉 摘要:我们介绍了RegionFocus,这是一种视觉测试时缩放方法,用于Vision Language Model Agents。理解网页因GUI图像的视觉复杂性和界面元素的大量存在而具有挑战性,这使得准确的动作选择变得困难。我们的方法动态地聚焦于相关的区域,减少了背景杂乱,提高了语义关联的准确性。为支持这一过程,我们提出了一种图像作为地图的机制,在每个步骤中可视化关键地标,提供透明的动作记录,并使代理有效选择动作候选方案。即使使用简单的区域选择策略,在UI-TARS和Qwen2.5-VL两种最先进的开放视觉语言模型代理的基础上,我们在Screenspot-pro和WebVoyager基准测试中分别观察到了28+\%和24+\%的性能提升,突显了视觉测试时缩放在交互式设置中的有效性。通过将RegionFocus应用于Qwen2.5-VL-72B模型,我们在ScreenSpot-Pro基准测试中实现了61.6\%的新最先进的语义关联性能。我们的代码将在https://github.com/tiangeluo/RegionFocus公开发布。
发布时间: 5/2/2025
查看原文
arXiv:2505.00668v1 交叉领域公告类型 摘要:城市空气污染仍然是一个紧迫的全球性问题,特别是在像德里这样人口密集和交通繁忙的都市地带,有害污染物的暴露对公众健康产生了严重影响。作为全球最污染的城市之一,德里由于机动车辆排放、工业活动和建筑尘土等因素,长期遭受空气质量问题的困扰,这些问题加剧了其本已脆弱的大气条件。传统的污染缓解策略,如静态空气净化装置,常因布局不佳和难以适应动态城市环境而未能充分发挥其效果。本研究提出了一种新的深度强化学习(DRL)框架,用于优化空气净化亭的布局,以提高德里城市地区的空气质量指数(AQI)。我们采用了一种强化学习算法—— proximal policy optimization(PPO),基于多个空间和环境因素(如人口密度、交通模式、工业影响和绿地限制)迭代学习并识别出高影响位置。我们的方法通过AQI改进、空间覆盖率、人口和交通影响以及空间熵等多维度性能评估指标,与传统的布局策略(包括随机和基于AQI的贪婪方法)进行了对比。实验结果表明,基于强化学习的方法在布局和有效性方面超过了基准方法,实现了空气净化基础设施的平衡和有效分布。值得注意的是,DRL框架在AQI减少和高覆盖率部署之间实现了最优权衡,确保了城市各地区的环境效益公平性。这些发现强调了基于AI的空间优化在推动智慧城市发展和数据驱动的城市空气质量管理中的潜在作用。
发布时间: 5/2/2025
查看原文