arXiv 论文列表

作者: Xiaoyun Xu, Shujian Yu, Zhuoran Liu, Stjepan Picek

arXiv:2312.04960v4 Announce Type: replace-cross 摘要：视觉变换器（ViTs）已成为一种基础架构，并作为现代多模态模型（如视觉-语言模型）的核心。尽管它们的性能令人印象深刻，但ViTs在对抗攻击方面表现出明显的脆弱性，这需要开发专门针对其独特架构的对抗训练（AT）策略。虽然一个直接的解决方案可能涉及将现有的AT方法应用于ViTs，但我们的分析揭示了与最先进的（SOTA）方法如Generalist（CVPR 2023）和DBAT（USENIX Security 2024）之间存在显著的不兼容性。本文对ViTs的对抗鲁棒性进行了系统性的研究，并在其基于自编码器的半监督预训练中提供了新颖的互信息（MI）分析。具体来说，我们展示了在基于ViT的自编码器中，对抗样本与其潜在表示之间的互信息应通过推导出的互信息边界进行约束。基于这一洞察，我们提出了一种半监督AT方法MIMIR，该方法采用互信息惩罚，通过掩码图像建模与自编码器结合实现对抗预训练。在CIFAR-10、Tiny-ImageNet和ImageNet-1K上的广泛实验表明，MIMIR可以一致地提供改进的自然准确性和鲁棒准确性，其中MIMIR在ImageNet-1K上的结果优于SOTA的AT结果。值得注意的是，MIMIR在对抗未预见的攻击和常见破坏数据方面显示出优越的鲁棒性，并且也可以抵御适应性攻击，其中攻击者完全了解防御机制。

发布时间: 4/16/2025

查看原文

语言MPC：大规模语言模型作为自主驾驶的决策制定者

作者: Hao Sha, Yao Mu, Yuxuan Jiang, Li Chen, Chenfeng Xu, Ping Luo, Shengbo Eben Li, Masayoshi Tomizuka, Wei Zhan, Mingyu Ding

arXiv:2310.03026v3 宣告类型: replace-cross 摘要：现有的基于学习的自动驾驶（AD）系统在理解高层信息、处理罕见事件以及提供可解释性方面面临挑战。为了解决这些问题，本文利用大型语言模型（LLMs）作为复杂AD场景下的决策组件，这些场景需要人类常识理解。我们设计了认知路径以使LLMs能够进行全面推断，并开发了将LLM决策转换为可执行驾驶命令的算法。通过这种方法，LLM决策通过导向参数矩阵适应无缝地与低级控制器集成。大量的实验结果表明，我们提出的方法不仅在单车辆任务中持续超过了基准方法，而且在处理复杂的驾驶行为，甚至是多车辆协调方面也发挥了帮助作用，这得益于LLMs的常识推理能力。本文提出了一种初步的方法，旨在利用LLMs作为安全、高效、泛化能力和互操作性方面复杂AD场景的有效决策者。我们希望本文能够为该领域的未来研究提供启示。项目页面：https://sites.google.com/view/llm-mpc

发布时间: 4/16/2025

查看原文

基于胡格损失训练的深度学习二分类器的基本极限

作者: Tilahun M. Getu, Georges Kaddoum, M. Bennis

arXiv:2309.06774v2 宣布类型: replace-cross 摘要：尽管深度学习（DL）在许多学科中取得了多项突破，但关于DL为何以及如何实验证据上取得成功的基本理解仍然不清楚。为了攻击这一基本问题并解开DL实验证据成功背后的秘密，已经做出了朝着统一DL理论的重大创新。虽然这些创新几乎涵盖了优化、泛化和逼近等基本进步，但没有任何工作量化了基于DL算法解决模式分类问题的测试性能。为了部分克服这一基本挑战，本文揭示了使用hinge损失训练的基于DL的二元分类器的测试性能基本极限。对于基于深层ReLU前馈神经网络（FNN）和具有ReLU和Tanh激活函数的深层FNN的二元分类器，我们推导出了它们各自的新型渐近测试性能极限，并通过广泛的计算机实验进行了验证。

发布时间: 4/16/2025

查看原文

有限时间内时序差分学习与经验回放的分析

作者: Han-Dong Lim, Donghwan Lee

arXiv:2306.09746v2 更新类型: 替换-交叉摘要: 前向差分（TD）学习通常被认为是强化学习（RL）中最受欢迎的算法之一。尽管它的应用非常广泛，但直到最近，研究人员才开始积极研究其在有限时间内的行为，包括均方误差和样本复杂度的有限时间界。在经验上，经验重放一直是深度RL算法成功的关键因素，但其对RL的理论影响尚未完全理解。在本文中，我们提供了一个简化的马尔可夫噪声项分解，并为带有经验重放的TD学习提供了有限时间错误界。具体而言，在马尔可夫观察模型下，我们证明了对于平均迭代和最终迭代两种情况，常数步长引起的误差可以通过回放缓冲区的大小以及从经验回放缓冲区中抽取的微型批量来有效控制。

发布时间: 4/16/2025

查看原文

FairPy：一种评估大型语言模型预测偏差及其缓解工具包

作者: Hrishikesh Viswanath, Tianyi Zhang

arXiv:2302.05508v2 通告类型: replace-cross 摘要：近期的研究表明，大型预训练语言模型（LLMs），如BERT和GPT-2，在标记预测方面表现出偏见，这些偏见通常是其训练语料库中存在数据分布的反映。为应对这一问题，已经提出了一系列数学框架来量化、识别和减轻这种偏见的可能性。在本文中，我们提供了一项针对广泛使用的LLMs，如BERT、GPT-2等的全面综述。此外，我们介绍了Fairpy，一个模块化和可扩展的工具包，它提供了即插即用的接口，用于集成这些数学工具，使用户能够评估预训练和自定义语言模型。Fairpy支持现有的去偏算法的实现。该工具包是一个开源项目，并可在以下地址公开获取：\href{https://github.com/HrishikeshVish/Fairpy}{https://github.com/HrishikeshVish/Fairpy}

发布时间: 4/16/2025

查看原文

突破数据障碍——通过任务通用化构建GUI代理

作者: Junlei Zhang, Zichen Ding, Chang Ma, Zijie Chen, Qiushi Sun, Zhenzhong Lan, Junxian He

arXiv:2504.10127v2 通知类型: 重置摘要：图形用户界面（GUI）代理提供了跨平台的解决方案，用于自动化复杂的数字任务，具有显著的潜在能力来转变生产力工作流。然而，它们的性能通常受限于高质量轨迹数据的稀缺性。为了解决这一限制，我们建议在专门的中期训练阶段对视觉语言模型（VLMs）进行数据丰富、推理密集型任务的训练，然后研究将这些任务纳入如何促进GUI规划场景的一般化。具体而言，我们探索了一系列具有现成指令调优数据的任务，包括GUI感知、多模态推理和文字推理。通过在11个中期训练任务上进行广泛的实验，我们展示了以下几点：（1）任务的一般化证明非常有效，能够在大多数场景中显著提高性能。例如，多模态数学推理在AndroidWorld上绝对提高了6.3%。令人惊讶的是，仅基于文本的数学数据显著提高了GUI网络代理的效果，分别在WebArena上实现了5.6%的改进，在AndroidWorld上实现了5.4%的改进，这表明从文字域到视觉域的跨模态一般化效果显著；（2）与先前的假设相反，GUI感知数据（先前认为与GUI代理任务紧密相关，并广泛用于训练）对最终性能的影响相对较有限；（3）基于这些见解，我们确定了最有效的中期训练任务，并制定了优化混合数据集，分别在WebArena上实现了8.0%的绝对性能改进，在AndroidWorld上实现了12.2%的改进。我们的工作提供了关于GUI代理跨域知识转移的重要见解，并提供了解决这一新兴领域中数据稀缺挑战的一种实用方法。相关代码、数据和模型将可在 https://github.com/hkust-nlp/GUIMid 获取。

发布时间: 4/16/2025

查看原文

MMKB-RAG：一种多模态知识增强检索生成框架

作者: Zihan Ling, Zhiyao Guo, Yixuan Huang, Yi An, Shuai Xiao, Jinsong Lan, Xiaoyong Zhu, Bo Zheng

arXiv:2504.10074v2 更新类型: 替换摘要：大型语言模型（LLMs）和多模态LLMs的最近进步是显著的。然而，这些模型仍然仅依赖于参数化的知识，这限制了它们生成最新信息的能力，并增加了产生错误内容的风险。检索增强生成（RAG）部分缓解了这些问题，通过引入外部数据源，但对数据库和检索系统依赖可能会引入无关或不准确的文档，最终损害了性能和推理质量。在本文中，我们提出了一种新的多模态知识增强检索增强生成（MMKB-RAG）框架，该框架利用模型固有的知识边界来动态生成检索过程中的语义标签。该策略使检索到的文档能够联合过滤，仅保留最相关和准确的引用。在基于知识的视觉问答任务上的广泛实验表明了我们方法的有效性：在E-VQA数据集上，我们的方法在Single-Hop子集上提高了4.2%的性能，在完整数据集上提高了0.4%的性能；在InfoSeek数据集上，它分别在Unseen-Q子集、Unseen-E子集和完整数据集上实现了7.8%、8.2%和8.1%的性能提升。这些结果突显了与当前前沿的多模态LLM和RAG框架相比，在准确性和鲁棒性方面的显著改进。

发布时间: 4/16/2025

查看原文

生成式AI代理有效吗？个人金融顾问？

作者: Takehiro Takayanagi, Kiyoshi Izumi, Javier Sanz-Cruzado, Richard McCreadie, Iadh Ounis

arXiv:2504.05862v2 宣告类型：替换摘要：基于大型语言模型的代理正在成为一种低成本机制，用于提供个性化的对话建议，并且已经在相对简单的场景中（如电影推荐）展现了令人印象深刻的能力。但这些代理在需要专业知识且错误会有重大风险的复杂高风险领域中表现如何呢？这篇论文探讨了在金融领域大型语言模型顾问的有效性，重点关注三个不同的挑战：（1）在用户的自身需求也不一定明确的情况下，引导用户偏好；（2）为具有不同投资偏好的用户提供个性化指导；（3）利用顾问的人格建立关系并培养信任。通过一项基于实验室的用户研究，共有64名参与者参与，我们发现，在引导偏好方面，大型语言模型顾问往往能够匹配人类顾问的表现，尽管它们在解决冲突的用户需求方面存在困难。在提供个性化建议时，大型语言模型能够积极影响用户行为，但展示了明显的失败模式。我们的结果显示，准确捕捉偏好是关键，否则，大型语言模型顾问几乎没有影响，甚至可能将投资者引导至不合适的资产。更为令人担忧的是，用户似乎对所提供的建议质量不敏感，甚至更糟糕的是两者之间存在倒挂的关系。事实上，用户报告称，具有外向人格的大型语言模型更受欢迎，用户满意度更高，情感信任也更强，尽管这些代理提供的建议更差。

发布时间: 4/16/2025

查看原文

通过物理AI转变未来数据中心的运营与管理

作者: Zhiwei Cao, Minghao Li, Feng Lin, Jimin Jia, Yonggang Wen, Jianxiong Yin, Simon See

arXiv:2504.04982v2 宣布类型: 替换摘要：作为关键基础设施的数据中心在推动人工智能（AI）和数字经济的增长方面发挥着至关重要的作用。从互联网数据中心（Internet DC）到人工智能数据中心（AI DC）的演变，为提高业务弹性和降低总体拥有成本带来了新的运营和管理挑战。因此，未来数据中心必须超越基于最佳实践的传统方法，引入新的范式。在本研究中，我们提出了一个新型的物理AI（PhyAI）框架，以提高数据中心的运营和管理。我们的系统利用了先进的工业产品能力和我们内部的研究与开发。具体而言，它包含三个核心模块：1）一个工业级的内部仿真引擎，可高度准确地模拟数据中心的运行；2）基于NVIDIA PhysicsNemo构建的AI引擎，用于物理知情机器学习（PIML）模型的训练和评估；3）在NVIDIA Omniverse基础上构建的数字孪生平台，用于我们提出的五层数字孪生框架。该系统提供了一个可扩展且适应性强的解决方案，通过实现未来数据中心的实时数字孪生，实现未来数据中心的数字化、优化和自动化。为了展示其有效性，我们提供了一个关于构建用于实时预测大型数据中心的热力学和空气流动特性的代理模型的案例研究。我们的结果显示，其性能优于传统的耗时计算流体动力学/热传递（CFD/HT）仿真，中位绝对温度预测误差为0.18℃。这种方法为未来数据中心的物理AI研究开辟了多个潜在的研究方向。

发布时间: 4/16/2025

查看原文

逆向搜索：探索未走之路以实现更深入高效的推理

作者: Ximing Lu, Seungju Han, David Acuna, Hyunwoo Kim, Jaehun Jung, Shrimai Prabhumoye, Niklas Muennighoff, Mostofa Patwary, Mohammad Shoeybi, Bryan Catanzaro, Yejin Choi

arXiv:2504.04383v2 提示类型: 替换摘要：大型推理模型通过长而复杂的推理轨迹展现了令人瞩目的推理能力。在这种推理轨迹的监督微调，也称为蒸馏，可以是一种成本效益高的方法，用于提高学生模型的推理能力。然而，实证观察表明，这些推理轨迹往往是次优的，过度地在不同思路之间切换，导致了思考不足、思考过度，甚至出现退化反应。我们介绍了Retro-Search，一种受到蒙特卡洛树搜索(MCTS)启发的搜索算法，用于从大型推理模型中蒸馏出更高质量的推理路径。Retro-Search回顾性地修订推理路径，以发现更好的、更短的轨迹，从而可以引导出推理能力增强的学生模型，并且 inference 过程更短，因此更快。我们的方法可以启用两种用例：自我改进，其中模型在其自己的Retro-Search修订的思考轨迹上进行微调；以及弱到强改进，其中较弱的模型通过Retro-Search修订更强模型的思考轨迹。对于自我改进，R1-distill-7B在其自己的Retro-Search修订的轨迹上进行微调，平均推理长度减少了31.2%，并在七个数学基准上提升了7.7%的性能。对于弱到强改进，我们使用R1-distill-32B作为Retro-Search器，从OpenThoughts数据集中回顾性修订R1-671B的轨迹，R1-671B的一个20倍更小的模型，Qwen2.5-32B，在这种经过改进的数据上进行微调，性能与R1-distill-32B相当，推理长度减少了11.3%，并在原本的OpenThoughts数据上进行微调的基础上提升了2.4%的性能。我们的工作反驳了最近出现的认为在大型推理模型时代搜索算法不再相关的观点，通过展示即使对于前沿模型，仍然存在算法改进的机遇。

发布时间: 4/16/2025

查看原文