arXiv 论文列表

作者: Reiji Suzuki, Takaya Arita

arXiv:2505.05863v1 类型: 交叉摘要: 我们提出了一种模型，将其视为一种尝试，利用大型语言模型（LLMs）丰富的语言表达，扩展进化博弈理论和基于代理的模型。我们的模型使代理之间多样且无限的互动选项能够涌现并进化。在该群体中，每个代理都持有由LLM生成的短词（或短语），并在空间环境中移动。当代理变得邻近时，他们的互动结果根据LLM基于他们词汇之间关系的输出确定，失败方的词将被胜利方的词取代。词的变异也可能基于LLM的输出发生。我们假设“强壮的动物种类”将存活下来进行了初步实验。结果显示，从初始包含知名物种的人群中，许多物种逐渐且跃迁式地涌现出来。每次试验展示了不同人群的独特进化，其中一种大型物种在多次试验中成为主导，这些物种包括陆地动物、海洋生物或适应于各种极端环境的生态专业化的灭绝物种。我们还进行了长期实验，涉及大量人口，展示了多样物种的涌现和共存。

发布时间: 5/12/2025

查看原文

AgentXploit：端到端的黑盒AI代理红队演练

作者: Zhun Wang, Vincent Siu, Zhe Ye, Tianneng Shi, Yuzhou Nie, Xuandong Zhao, Chenguang Wang, Wenbo Guo, Dawn Song

arXiv:2505.05849v1 类型: 交叉摘要：大型语言模型（LLMs）的强大规划和推理能力促进了能够利用外部工具并与其他日益复杂的环境交互的基于代理系统的开发。然而，这些强大的功能也引入了一个关键的安全风险：间接提示注入攻击，这是一种高级攻击向量，通过操纵上下文信息而非直接用户提示来损害这些代理的核心——LLM。在本文中，我们提出了一种通用的黑盒 fuzzing 框架 AgentXploit，旨在自动发现和利用跨各种LLM代理的间接提示注入漏洞。我们的方法首先构建一个高质量的初始种子库，然后使用基于蒙特卡洛树搜索（MCTS）的种子选择算法，迭代细化输入，从而最大化发现代理弱点的可能性。我们在两个公开基准测试 AgentDojo 和 VWA-adv 上评估了 AgentXploit，分别针对基于 o3-mini 和 GPT-4o 的代理，其成功率分别为 71% 和 70%，几乎是基线攻击性能的两倍。此外，AgentXploit 在未见任务和内部LLM上表现出很强的可迁移性，并且在对抗防御方面也显示出有希望的结果。除了基准测试评估之外，我们在实际环境中应用了我们的攻击，成功地误导代理访问任意的URL，包括恶意站点。

发布时间: 5/12/2025

查看原文

MxMoE：混合精度量化 untuk 混合精度 MoE 的准确性和性能协同设计

作者: Haojie Duanmu, Xiuhong Li, Zhihang Yuan, Size Zheng, Jiangfei Duan, Xingcheng Zhang, Dahua Lin

arXiv:2505.05799v1 推广类型: cross 摘要: 由于参数数量庞大和计算需求高，专家混合模型（Mixture-of-Experts，MoE）面临着部署挑战。我们探索了MoE模型的量化方法，并强调了两个关键洞见：1）线性层表现出不同的量化敏感性，2）专家激活频率的差异导致了计算特性的异质性。基于这些观察，我们提出了MxMoE，这是一种兼顾算法和系统视角的MoE模型的混合精度优化框架。MxMoE 导航由参数敏感性、专家激活动态和硬件资源定义的设计空间，以得出高效的混合精度配置。此外，MxMoE 自动生成优化的混合精度 GroupGEMM 核心，这使得能够使用不同精度并行执行 GEMM 操作。评估结果显示，MxMoE 超过了现有方法，在2.25位量化下，Wikitext-2 的 perplexity 比 GPTQ 低2.4倍，并且相较于全精度，最快可实现3.4倍的加速。此外，在等效准确性的5位权重-激活量化下，相较于均匀量化，MxMoE 可实现高达29.4%的加速。我们的代码可在 https://github.com/cat538/MxMoE 获取。

发布时间: 5/12/2025

查看原文

带有用户的HVAC管理人工智能：提升舒适度和能源效率

作者: Xinyu Liang, Frits de Nijs, Buser Say, Hao Wang

arXiv:2505.05796v1 交叉发布公告类型摘要：供暖、通风和空调（HVAC）系统在全球建筑能耗中约占38%，使其成为能耗最密集的服务之一。随着对能效和可持续性的日益重视，以及对提高人员舒适度的需要，传统HVAC系统面临重大挑战。这些系统往往无法根据实时的电力市场价格变化或个人舒适度偏好进行动态调整，导致能源成本增加和舒适度下降。为应对这一挑战，我们提出了一种人在回路（Human-in-the-Loop, HITL）的人工智能框架，通过结合实时用户反馈和应对波动的电价来优化HVAC性能。不同于需要预定义的占用信息或舒适度水平的传统系统，我们的方法基于持续的用户输入进行学习和适应。通过将占用预测模型与强化学习相结合，系统可以提高操作效率并根据电力市场的动态调整能源成本，从而有助于需求响应计划。通过模拟，我们证明了我们的方法在基线方法相比能够实现显著的成本降低，同时保持或提高人员的舒适度。这种基于反馈的方法确保了个性化的舒适度控制，无需预定义设置，并提供了一个可扩展的解决方案，平衡了个人偏好、经济效益和环境目标。

发布时间: 5/12/2025

查看原文

下一代LLMs将如何发展？基于光子芯片的下一代AI计算硬件

作者: Renjie Li, Wenjie Wei, Qi Xin, Xiaoli Liu, Sixuan Mao, Erik Ma, Zijian Chen, Malu Zhang, Haizhou Li, Zhaoyu Zhang

arXiv:2505.05794v1 交叉类型：研究型摘要：大型语言模型（LLMs）正迅速将当前计算硬件的极限推向新的高度。例如，训练GPT-3据估计消耗了大约1300 MWh的电力，而未来模型可能需要城市级别的（吉瓦级）电力预算。这些需求推动了对超越传统冯·诺依曼架构的计算范式的探索。本文综述了为下一代生成型AI计算而优化的新兴光子硬件。我们讨论了集成光子神经网络架构（例如，Mach-Zehnder干干干涉仪网格、激光器、波长复用微环谐振器），这些架构能够执行超高速矩阵操作。我们还考察了有前景的替代神经形态设备，包括突触神经网络电路和磁电-光子混合突触，这些设备结合了记忆和处理功能。我们回顾了将二维材料（石墨烯、TMD）集成到硅光子平台以实现可调调制器和片上突触元素的过程。本文在此背景下分析了基于变换器的LLM架构（自注意力层和前馈层），确定了将动态矩阵乘法映射到这些新型硬件基板上的策略和挑战。然后，我们解析了主流LLM（如ChatGPT、DeepSeek和LLaMA）的机制，强调它们的架构相似点和差异。我们综合了最先进的组件、算法和集成方法，阐明了将这些系统扩展到超大型LLM模型过程中的关键进展和开放问题。我们发现，光子计算系统在吞吐量和能源效率方面可能比电子处理器高出一个数量级甚至更多，但需要在内存方面取得突破，特别是在长上下文窗口和长标记序列方面，以及对超大数据集的存储方面。

发布时间: 5/12/2025

查看原文

FlowHFT：在多变市场条件下由流策略诱导的最优高频交易

作者: Yang Li, Zhi Chen, Steve Yang

arXiv:2505.05784v1 介绍类型: 横跨领域摘要: 高频交易(HFT)是一种持续监测市场状态并在毫秒级速度上提交要约和报价订单的投资策略。传统HFT方法使用历史数据拟合模型，并假设未来市场状态将遵循相似的模式。这限制了任何单一模型的效果仅限于它所训练的特定条件。此外，这些模型只有在特定的市场条件下才能实现最优解，例如假设股票价格的随机过程、稳定的订单流和缺乏突然的波动性。然而，现实世界中的市场是动态的、多样的且经常波动。为了解决这些挑战，我们提出了一种基于流匹配策略的新颖模仿学习框架——FlowHFT。FlowHFT同时从多个专家模型中学习策略，每个专家模型在特定的市场场景中具有专长。因此，我们的框架可以根据当前的市场状态灵活调整投资决策。此外，FlowHFT结合了一种网格搜索微调机制。这使其能够在复杂或极端的市场场景中细化策略并获得更优的表现，即使在专家策略可能不理想的市场条件下也是如此。我们测试了FlowHFT在多种市场环境中。我们首先展示了流匹配策略在随机市场环境中适用，从而使FlowHFT能够在不同的市场条件下学习交易策略。值得注意的是，我们的单一框架在每个市场条件下都始终优于最佳专家策略的表现。

发布时间: 5/12/2025

查看原文

PyResBugs: 一种由自然语言驱动的残差Python错误数据集用于故障注入

作者: Domenico Cotroneo, Giuseppe De Rosa, Pietro Liguori

arXiv:2505.05777v1 类型: cross 摘要：本文介绍了PyResBugs，这是一个经过精心收集的残余漏洞数据集，即在传统测试中未被检测到但在生产中后期浮现的缺陷，数据集来源于主要的Python框架。数据集中的每个漏洞都与其相应的无故障（已修复）版本配对，并标注有多层次的自然语言（NL）描述。这些NL描述使自然语言驱动的故障注入成为可能，提供了一种在软件系统中模拟真实世界故障的新方法。通过弥合软件故障注入技术与现实代表性的差距，PyResBugs 为研究人员提供了高质量的资源，推动了Python系统中基于AI的自动化测试的发展。

发布时间: 5/12/2025

查看原文

使用OCT预测糖尿病黄斑水肿治疗反应：APTOS比赛的数据集和方法

作者: Weiyi Zhang, Peranut Chotcomwongse, Yinwen Li, Pusheng Xu, Ruijie Yao, Lianhao Zhou, Yuxuan Zhou, Hui Feng, Qiping Zhou, Xinyue Wang, Shoujin Huang, Zihao Jin, Florence H. T. Chung, Shujun Wang, Yalin Zheng, Mingguang He, Danli Shi, Paisan Ruamviboonsuk

arXiv:2505.05768v1 类别: cross 摘要: 糖尿病黄斑水肿（DME）显著影响糖尿病患者的视觉功能。视网膜治疗的反应因人而异，突出了根据患者进行分层以预测治疗效果和实施个性化策略的需要。据我们所知，本研究是首次探索预处理分层以预测DME治疗反应的研究。为推进这一研究，我们在2021年组织了亚太视网膜学联合会（APTOS）大数据竞赛。竞赛重点是利用眼底OCT图像提高抗VEGF治疗反应的预测准确性。我们提供了包含来自2000名患者、标记量级为数千张OCT图像的数据集，涵盖四个子任务。本文详细介绍了比赛的结构、数据集、领先方法和评估指标。该竞赛吸引了强劲的科学界参与，最初有170个团队注册，最终有41个团队进入决赛。表现最佳的团队达到了80.06%的AUC，突显了AI在个性化DME治疗和临床决策中的潜力。

发布时间: 5/12/2025

查看原文

基于LLM的多代理系统missive robotic自主性

作者: Junhong Chen, Ziqi Yang, Haoyuan G Xu, Dandan Zhang, George Mylonas

arXiv:2505.05762v1 Announce Type: 横向摘要：自大型语言模型（LLMs）问世以来，基于此类模型的各种研究一直保持了显著的学术关注和影响，尤其是在人工智能和机器人领域。在本文中，我们提出了一种使用LLMs的多智能体框架，以构建一个集成系统，用于机器人任务分析、机械设计和路径生成。该框架包括三个核心智能体：任务分析师、机器人设计师和强化学习设计师。输出格式化为多种模态结果，如代码文件或技术报告，以增强可理解性和实用性。为了比较地评估其通用性，我们使用了GPT和DeepSeek两种模型进行了实验。结果表明，在提供合适的任务输入时，所提出系统能够设计出具有控制策略的可行机器人，展示了在研究和工业应用中增强机器人系统开发效率和可访问性的巨大潜力。

发布时间: 5/12/2025

查看原文

进化思考：大型语言模型与进化算法的整合

作者: Antonio Jimeno Yepes, Pieter Barnard

arXiv:2505.05756v1 类型: cross 摘要: 大型语言模型（LLMs）展示了在理解和生成自然语言和代码方面的惊人能力，但LLMs的推理容易产生幻觉，并且难以应对复杂的、新颖的情景，经常陷入部分或不正确的解决方案中。然而，进化算法（EAs）固有的探索广泛且复杂的搜索空间的能力使其在传统优化方法可能失效的情景中特别有效。然而，当应用于复杂问题时，EAs会探索一个广阔的搜索空间。为了解决评估大型群体的计算瓶颈，特别是对于复杂的进化任务尤为关键，我们引入了一个高效的评估框架。该实现保持与现有基础定义的兼容性，确保生成有效的个体。利用LLMs，我们提出了一种增强的进化搜索策略，使其能够更专注于广泛解空间的探索。实验证据表明，LLMs有助于生成更优的候选解决方案。

发布时间: 5/12/2025

查看原文