LLM2D

arXiv 论文列表

作者: Anja Surina, Amin Mansouri, Lars Quaedvlieg, Amal Seddas, Maryna Viazovska, Emmanuel Abbe, Caglar Gulcehre
arXiv:2504.05108v1 宣告类型: 新 摘要: 寻找解决复杂问题的有效算法一直是数学和计算机科学中的一个突出挑战,多年来这需要大量的专业知识。近年来,使用大规模语言模型(LLMs)进行进化搜索的进步显示了加速在各个领域发现算法的潜力,特别是在数学和优化领域。然而,现有的方法将LLM视为静态生成器,错过了根据进化探索获得的信号来更新模型的机会。在本文中,我们提出通过强化学习(RL)微调持续改进基于LLM的进化搜索的操作符——LLM。我们的方法利用进化搜索作为探索策略来发现改进的算法,而基于这些发现,RL优化LLM策略。我们在三个组合优化任务——背包问题、旅行商问题和平铺问题——上的实验表明,结合RL和进化搜索提高了改进算法发现的效率,展示了增强的RL进化策略在协助计算机科学家和数学家进行更高效的算法设计方面的潜力。
发布时间: 4/8/2025
查看原文
作者: Sugyeong Eo, Hyeonseok Moon, Evelyn Hayoon Zi, Chanjun Park, Heuiseok Lim
arXiv:2504.05047v1 公告类型:新 摘要:多智能体协作已成为增强大型语言模型(LLMs)推理能力的一个有前途的框架。尽管这种方法提高了推理能力,但由于迭代的智能体交互,它带来了显著的计算开销。此外,对于不需要协作的情询,参与辩论会加剧错误生成的风险。为了解决这些挑战,我们提出了必要时才辩论(Debate Only When Necessary,DOWN),这是一种能够根据智能体初始响应的信心分数选择性激活辩论过程的自适应多智能体辩论框架。在辩论被触发的查询中,智能体使用参与智能体的响应及其信心分数来细化其输出。实验结果表明,这一机制显著提高了效率,同时保持或甚至超过了现有多智能体辩论系统的性能。我们还发现,根据信心进行辩论可以减轻错误传播,增强可靠响应的选择性整合。这些结果将DOWN确立为一种高效的多智能体推理优化策略,有助于基于LLM的协作的实际部署。
发布时间: 4/8/2025
查看原文
作者: Zhiwei Cao, Minghao Li, Feng Lin, Qiang Fu, Jimin Jia, Yonggang Wen, Jianxiong Yin, Simon See
arXiv:2504.04982v1 公告类型:新 摘要:作为关键基础设施的数据中心(DC)在推动人工智能(AI)和数字经济的增长中发挥着重要作用。从互联网数据中心(IDC)到人工智能数据中心(AIDC)的演变引入了新的运营和管理挑战,以提高业务韧性并降低总拥有成本。因此,未来数据中心需要超越传统基于最佳实践的方法的新范式。在本研究中,我们提出并开发了一个新颖的物理AI(PhyAI)框架,以推动数据中心运营和管理的进步。我们的系统利用了最先进的工业产品和我们内部的研发能力。具体来说,它呈现了三个核心模块,即:1)一种工业级的内部仿真引擎,以高度准确的方式模拟数据中心的运行,2)基于NVIDIA PhysicsNemo构建的AI引擎,用于物理感知机器学习(PIML)模型的训练和评估,以及3)基于NVIDIA Omniverse构建的数字孪生平台,用于我们提出的5级数字孪生框架。该系统提供了一个可扩展和适应性强的解决方案,以数字化、优化并自动化未来的数据中心运营和管理,通过为未来的数据中心提供实时数字孪生。为了展示其有效性,我们提供了一个案例研究,介绍了一种用于实时预测大规模数据中心的热特性和气流特征的代理模型。我们的结果显示,相比于传统的耗时计算流体力学/传热(CFD/HT)仿真,其性能更为优越,中位绝对温度预测误差为0.18℃。这一新兴的方法将为未来数据中心物理AI的进步打开几个潜在的研究方向。
发布时间: 4/8/2025
查看原文
作者: Aditya Hemant Shahane, Prathosh A. P, Sandeep Kumar
arXiv:2504.04954v1 通告类型: 新 摘要: 图的数据正在迅速增长,与之相关的独特标签类别也在不断增加。诸如电子商务、医疗保健、推荐系统以及各种社交媒体平台的应用程序正迅速转向图表示数据,因为图能够捕捉结构和属性信息。图分析中的一个关键任务是节点分类,即对未标记节点进行分类,归入预定义的类别。在实践中,新的类别有时会以少量标签(已见过的类)或甚至没有标签(未见过的类)的方式逐步出现,这可能是由于它们是新的或尚未进行深入探索造成的。传统方法假设有大量的标注数据用于训练,但这种情况并不总是可行的。我们探索了一个更广泛的目标:在有限监督下进行图类别增量学习(GCL),通过有限的标注实例对基础类别进行元训练来解决这一挑战。在增量流中,新类可以具有少量样本或零样本表示。我们提出的方法 GOTHAM 通过找到最接近的原型表示来有效地处理这些未标记节点,这些原型在属性空间中作为类别代表。对于文本属性图(TAGs),我们的框架还整合了语义信息以增强表示。通过采用教师-学生知识蒸馏来缓解遗忘,GOTHAM 在各种任务中取得了令人鼓舞的结果。在 Cora-ML、Amazon 和 OBGN-Arxiv 等数据集上的实验展示了我们的方法在有限监督下处理不断发展图数据的有效性。代码仓库可在此获得:\href{https://github.com/adityashahane10/GOTHAM--Graph-based-Class-Incremental-Learning-Framework-under-Weak-Supervision}{\[蓝色 \small 代码\]}
发布时间: 4/8/2025
查看原文
作者: Yousef Alhessi, S\'olr\'un Halla Einarsd\'ottir, George Granberry, Emily First, Moa Johansson, Sorin Lerner, Nicholas Smallbone
arXiv:2504.04942v1 公告类型: 新 摘要: 自动猜想有用的、有趣的和新颖的引理将极大地改进自动推理工具,并降低在证明助手中形式化数学的门槛。然而,这对神经和符号方法来说都是一个非常具有挑战性的任务。我们提出了第一个实用的神经-符号引理猜想工具Lemmanaid,该工具结合了大型语言模型(LLMs)和符号方法,并将其在Isabelle证明助手的证明库上进行了评估。我们训练一个LLM生成描述引理形状的模板,并使用符号方法填充细节。我们将Lemmanaid与一个旨在生成完整引理陈述的LLM以及以前的全符号猜想方法进行了比较。我们的结果表明,神经技术和符号技术是互补的。通过利用符号和神经方法的最好部分,我们可以为广泛的输入领域生成有用的引理,从而促进计算机辅助的理论开发和形式化。
发布时间: 4/8/2025
查看原文
arXiv:2504.04918v1 宣告类型: 新 摘要: 随着语言模型变得越来越大,获得高质量训练数据的成本显著增加。收集人类反馈既昂贵又耗时,手动标签可能不够准确,导致有用性和危害性之间的不平衡。Anthropic于2022年12月引入的宪法AI通过使用AI为另一个AI提供反馈,大大减少了对人类标注的需求。然而,最初的实现是为一个大约有520亿参数的模型设计的,关于较小模型(如3-8B的LLaMA)上宪法AI的表现信息有限。在本文中,我们使用较小的3-8B的LLaMA模型复制了宪法AI的工作流程。结果显示,宪法AI有效地增加了模型的危害性减少,在MT-Bench 中,攻击成功率降低了40.8%。然而,与原始研究类似,增加危害性的减少伴随着有用性的降低。有用的度量指标(Turn 1 和 Turn 2 分数的平均值)与基线相比下降了9.8%。此外,我们在最终的DPO-CAI 模型中观察到了模型崩溃的明显迹象,表明较小的模型可能由于输出质量不足,在自我改进方面遇到困难,使得有效的微调更加具有挑战性。我们的研究建议,与推理和数学能力一样,自我改进是一种 emergent 属性。
发布时间: 4/8/2025
查看原文
作者: Yunxiang Liu, Hongkuo Niu, Jianlin Zhu
arXiv:2504.04862v1 宣布类型: 新论文 摘要: 准确的交通代理运动预测对于自动驾驶系统的安全性和稳定性至关重要。在本文中,我们引入了GAMDTP,这是一种新型的基于图注意力机制的网络,专门用于动态轨迹预测。具体而言,我们通过门控机制将自我注意的结果和mamba-ssm融合起来,利用两者的优势在每个图卷积层中更高效、更准确地提取特征。GAMDTP将高精度地图(HD图)数据和代理的历史轨迹坐标编码,并解码网络的输出以生成最终的预测结果。此外,近期的方法主要集中在动态融合历史预测结果上,并依赖于包括提案和修正的两阶段框架。为了进一步提高两阶段框架的性能,我们还设计了一种评分机制,在提案和修正过程中评估预测质量。在Argoverse数据集上的实验表明,GAMDTP达到了最先进的性能,在动态轨迹预测方面具有更高的准确性。
发布时间: 4/8/2025
查看原文
作者: Roie Kazoom, Raz Lapid, Moshe Sipper, Ofer Hadar
arXiv:2504.04858v1 威胁类型:新 摘要:对抗性patches攻击通过嵌入局部扰动来误导深度模型,对视觉系统构成重大威胁。传统的防御方法通常需要重新训练或微调,这使得它们在实际部署中不太实用。我们提出了一种名为Visual Retrieval-Augmented Generation (VRAG)的无训练框架,该框架整合了视觉-语言模型(VLMs)以检测对抗性patches。通过检索视觉上相似的patches和与存储的攻击相类似的图像,VRAG可以在不断扩展的数据库中完成生成推理,以识别多种攻击类型,而无需额外的训练或微调。我们广泛评估了开源大规模VLMs,包括Qwen-VL-Plus、Qwen2.5-VL-72B和UI-TARS-72B-DPO,以及Gemini-2.0这一封闭源代码模型。值得注意的是,开源UI-TARS-72B-DPO模型达到高达95%的分类准确率,为开源对抗性patches检测设定了新的最先进的水平。Gemini-2.0则达到了最高的整体准确率,为98%,但仍然是封闭源代码模型。实验结果表明,VRAG在最少的人工标注下有效地识别各种对抗性patches的能力,为对抗性patches攻击的稳健、实用防御铺平了道路。
发布时间: 4/8/2025
查看原文
作者: Haoxuan Li, Mingyu Derek Ma, Jen-tse Huang, Zhaotian Weng, Wei Wang, Jieyu Zhao
arXiv:2504.04855v1 公告类型: 新 摘要: 在结构化数据中检测偏差是一项复杂且耗时的任务。现有的自动化技术在数据类型多样性方面受到限制,并且高度依赖于人工逐案处理,导致缺乏普适性。目前,基于大型语言模型(LLM)的代理已经在数据科学领域取得了显著进展,但它们检测数据偏差的能力仍然没有得到充分探索。为了解决这一缺口,我们引入了第一个端到端的多智能体协同框架BIASINSPECTOR,该框架旨在根据特定用户需求自动检测结构化数据中的偏差。首先,它制定一个多阶段计划来分析用户指定的偏差检测任务,然后用一组多样且合适的工具来实现。它提供了详细的分析结果,包括解释和可视化。为了解决目前缺乏标准化框架来评估LLM代理检测数据偏差能力的问题,我们进一步提出了一项全面基准,其中包括多种评价指标和大量测试用例。大量实验表明,我们的框架在结构化数据偏差检测方面实现了卓越的整体性能,为更公平的数据应用设立了新里程碑。
发布时间: 4/8/2025
查看原文
作者: \'Angel Aso-Mollar, Eva Onaindia
arXiv:2504.04850v1 宣布类型: 新 摘要: 在本文中,我们提出了一种集中式多智能体学习框架,用于学习一个策略来建模多个需要协调以解决特定任务的智能体的并发行为。集中式方法通常会遭受由所有个体行动可能组合定义的动作空间爆炸的问题,这被称为联合动作。我们的方法通过顺序抽象来解决协调问题,克服了集中式方法通常面临的比例问题。这种方法引入了一个名为“监督器”的元智能体,将联合动作抽象为按顺序为每个智能体分配动作。这种顺序抽象不仅简化了集中式的联合动作空间,还增强了框架的比例性和效率。我们的实验结果证明了所提出的方法能够在各种不同规模的多智能体学习环境中成功协调智能体。
发布时间: 4/8/2025
查看原文