arXiv 论文列表

作者: Makoto Sato

arXiv:2504.21012v2 宣告类型: replace-cross 摘要：直觉的人类思维是什么？探讨这个问题的一种方法是将人类和大型语言模型（LLMs）的认知动态进行比较。然而，这种比较需要一种在受控条件下定量分析AI认知行为的方法。尽管有迹象表明某些提示可以显著改变LLM的行为，但这些观察主要仍为定性的。在这里，我们提出了一种两部分框架来探讨这一现象：触发LLM响应快速转变的过渡提示（TIP），以及使用另一个LLM评估这种变化的过渡量化提示（TQP）。通过受控实验，我们考察了LLM在嵌入两个语义上相距甚远的概念（例如，数学无周期性与传统工艺）时的反应，这些概念或被融合在一起或单独呈现——通过改变其语言质量和情感调性。人类倾向于在有意义地融合这些概念时产生一个新概念（一种概念融合的形式）时经历更多的参与，而当前的LLMs在语义融合和非融合提示之间显示出响应性方面的显著差异并不明显。这表明，LLMs可能尚未复制人类直觉中所见的概念整合过程。我们的方法能够进行精细、可重复的认知响应度测量，并可能有助于阐明人工智能与人类思维中直觉和概念飞跃的关键差异是如何出现的。

发布时间: 5/2/2025

查看原文

思考追踪提示：通过问题分解探究基于提示的知识精炼

作者: Tyler McDonald, Ali Emami

arXiv:2504.20946v2 通知类型: 更新-交叉摘要：知识蒸馏使较小的神经网络能够在减少计算需求的情况下模拟大型教师模型的性能。传统的大型语言模型（LLMs）方法通常需要大量的微调，这限制了它们的可访问性。为了解决这个问题，我们引入了思维过程追溯（Trace-of-Thought Prompting），这是一种新颖的框架，旨在将高资源教师模型（超过80亿参数）的关键推理能力转移到低资源学生模型（至多80亿参数）上。这种方法利用问题分解来提高可解释性并促进人工参与干预。在GSM8K和MATH数据集上的实证评估表明，学生模型在GSM8K上的准确性提高了高达113%，在MATH上的准确性提高了21%，特别是对于较小的模型如Llama 2和Zephyr，显示出显著改进。我们的结果表明，开源低资源模型最终既作为学生模型又作为教师模型的可能性是有希望的路径，这可能减少我们对高资源专有模型的依赖。

发布时间: 5/2/2025

查看原文

LLMs能用于评估RAG系统吗？一种方法和数据集综述

作者: Lorenz Brehme, Thomas Str\"ohle, Ruth Breu

arXiv:2504.20119v2 宣告类型: replace-cross 摘要：检索增强生成（RAG）在过去几年中取得了显著进展。RAG系统包含多个组件，如索引、检索和生成，以及众多其他参数，这些都为系统的系统性评估和质量提升带来了巨大挑战。先前的研究表明，评估RAG系统对于记录进步、比较配置和识别适合特定领域应用的有效方法至关重要。本研究系统地审查了63篇学术文章，以提供当前RAG评价方法的全面概述，重点关注四个关键领域：数据集、检索器、索引和数据库、以及生成器组件。我们观察到可以通过利用能够同时生成评价数据集和进行评价的LLM自动评价方法的可行性，对RAG系统的每个组件来说都是可行的。此外，我们发现还需要进一步的实际研究，以向公司提供关于实施和评估RAG系统的明确指导。通过综合RAG关键组件的评估方法，并强调创建和适应领域特定数据集进行基准测试，我们对系统性评估方法的发展和RAG系统的评价严谨性做出了贡献。此外，通过研究利用LLM的自动方法与人类判断之间的互动，我们对自动化与人类输入之间的平衡进行讨论，澄清各自的贡献、限制和挑战，以实现稳健和可靠的评价做出了贡献。

发布时间: 5/2/2025

查看原文

GenTorrent: 通过过度网络扩展大型语言模型服务

作者: Fei Fang, Yifan Hua, Shengze Wang, Ruilin Zhou, Yi Liu, Chen Qian, Xiaoxue Zhang

arXiv:2504.20101v2 通知类型: 替换交叉摘要: 尽管在开源和成本效益高的大型语言模型（LLMs）的研究与开发方面取得了显著进展，但服务可扩展性仍然是一个关键挑战，尤其对于那些寻求部署和测试其LLM创新的小型组织和个人来说。受利用分散式overlay节点来增加吞吐量和可用性的peer-to-peer网络的启发，我们提出了一种名为GenTorrent的LLM服务overlay，它利用分散式贡献者的计算资源。我们识别出了四项固有的研究问题，以使这样的分散式基础设施得以实现：1) overlay网络组织；2) LLM通信隐私；3) overlay路由以提高资源效率；4) 服务质量验证。本工作首次针对分散式LLM服务的这些基本问题进行了系统研究。在一组分散节点上实现的原型的评估结果表明，GenTorrent相比于没有overlay路由的基本设计相比，实现了超过50%的延迟降低。此外，安全功能对服务延迟和吞吐量的开销很小。我们认为本作开辟了未来AI服务能力民主化和规模化的新方向。

发布时间: 5/2/2025

查看原文

BRIDGE：评估大型语言模型在理解临床实践文本中的表现

作者: Jiageng Wu, Bowen Gu, Ren Zhou, Kevin Xie, Doug Snyder, Yixing Jiang, Valentina Carducci, Richard Wyss, Rishi J Desai, Emily Alsentzer, Leo Anthony Celi, Adam Rodman, Sebastian Schneeweiss, Jonathan H. Chen, Santiago Romero-Brufau, Kueiyu Joshua Lin, Jie Yang

arXiv:2504.19467v2 宣告类型: replace-cross 摘要: 大型语言模型（LLMs）在医疗应用方面具有巨大的潜力，并且正在迅速发展，新的模型以加快的速度被发布。然而，当前在临床环境中对LLMs的评估仍然有限。大多数现有的基准测试依赖于医学考试风格的问题或来自PubMed的文本，无法捕捉现实世界电子健康记录（EHR）数据的复杂性。其他基准测试则集中在特定的应用场景上，限制了其在更广泛的临床应用中的普遍适用性。为了解决这一差距，我们介绍了BRIDGE，这是一个综合性的多语言基准测试，包含来自九种语言的现实世界临床数据源的87项任务。我们系统地评估了52个最先进的LLM（包括DeepSeek-R1、GPT-4o、Gemini和Llama 4）在各种推理策略下的表现。在总共13,572个实验中，我们的结果揭示了模型大小、语言、自然语言处理任务和临床专科之间显著的性能差异。值得注意的是，我们展示了开源LLM可以达到与专有模型相当的性能，而基于较旧架构的医学微调LLM往往不如更新的一般用途模型。BRIDGE及其相应的排行榜为新LLM在现实世界临床文本理解中的开发和评估提供了一个基础资源和独特参考。 BRIDGE排行榜: https://huggingface.co/spaces/YLab-Open/BRIDGE-Medical-Leaderboard

发布时间: 5/2/2025

查看原文

PINN - 一种贝叶斯物理导向神经网络的域分解方法

作者: J\'ulia Vicens Figueres, Juliette Vanderhaeghen, Federica Bragone, Kateryna Morozovska, Khemraj Shukla

arXiv:2504.19013v3 Announce Type: replace-cross 摘要：物理信息神经网络（PINNs）是一种用于解决具有嘈杂和稀疏初始和边界数据的偏微分方程（PDEs）的新计算方法。尽管在大规模多尺度问题中高效地量化认识论和统计不确定性仍然具有挑战性。我们提出了一种使用贝叶斯框架计算PDEs全局不确定性的新方法\$PINN，通过将局部贝叶斯物理信息神经网络（BPINN）与域分解相结合。通过在相邻子域接口处施加通量连续性条件，以获得子域间解的连续性。为了证明\$PINN的有效性，我们在1D和2D空间域上的PDEs上进行了一系列计算实验。尽管我们采用了保守的PINNs（cPINNs），但该方法可以无缝扩展到其他域分解技术。结果表明，所提出的方法通过并行计算每个子域的局部不确定性来更高效地恢复全局不确定性。通过向训练数据中添加多达15%的不相关随机噪声并在不同域大小下进行测试，验证了\$PINN的鲁棒性。

发布时间: 5/2/2025

查看原文

WASP: 针对提示注入攻击的网络代理安全基准测试

作者: Ivan Evtimov, Arman Zharmagambetov, Aaron Grattafiori, Chuan Guo, Kamalika Chaudhuri

arXiv:2504.18575v2 宣告类型: replace-cross 摘要：Web 导航 AI 代理使用语言和视觉基础模型来提高生产力，但这些模型已知易受间接提示注入的影响，这些注入会使它们执行与合法用户不同的指令。现有针对这一威胁的研究往往集中在单一孤立的攻击目标上，测试的注入指令要么过于简单，要么并非真正恶意，并且通常给予攻击者不合理的访问权限。为了更好地聚焦于对抗性研究，我们构造了一个新的基准叫做 WASP（Web Agent Security against Prompt injection attacks），它引入了现实的 Web 代理劫持目标，并提供了一个孤立的测试环境，该环境不会影响真实用户或实时网络。作为 WASP 的一部分，我们还开发了针对各种最先进的模型实现流行的 Web 代理系统（VisualWebArena、Claude Computer Use 等）的基本攻击。我们的评估表明，即使使用具备高级推理能力的模型或使用具有指令层次结构缓解措施的模型支持的 AI 代理也容易受到低技术门槛的人工撰写的提示注入的影响。然而，WASP 中的现实目标也使我们能够观察到，代理当前还不具备完成攻击者目标的能力。代理在 16% 到 86% 的时间开始执行攻击性指令，但在 0% 到 17% 的时间实现目标。基于这些发现，我们认为对抗性研究应该展示出更为强大的攻击，这些攻击能够在给定攻击者能力现实限制的情况下更一致地保持对代理的控制。

发布时间: 5/2/2025

查看原文

一个测试和适应REST APIs作为LLM工具的框架

作者: Jayachandu Bandlamudi, Ritwik Chaudhuri, Neelamadhav Gantayat, Kushal Mukherjee, Prerna Agarwal, Renuka Sindhgatta, Sameep Mehta

arXiv:2504.15546v2 宣告类型: replace-cross 摘要: 大型语言模型（LLMs）使自主代理能够使用外部工具或功能执行复杂的流程工作，这些工具或功能通常通过企业系统中的REST API提供。然而，直接将这些API作为工具使用面临着挑战，因为它们具有复杂的输入结构、详尽的响应以及经常模糊的文档说明。现有的工具测试基准未能充分解决这些复杂性，导致评估API在代理驱动自动化中的准备工作存在关键缺口。在本文中，我们提出了一种新的测试框架，旨在评估和增强REST API作为LLM代理工具的功能准备。我们的框架将API转换为工具，为API生成全面的测试用例，将测试用例转换为适合代理的自然语言指令，丰富工具定义并评估代理正确调用API及其输入和响应的能力。为了提供可操作的见解，我们分析了750个测试用例的结果，详细分类了错误，包括输入误解、输出处理不一致和结构不匹配。此外，我们将这些测试用例分类，以简化工具集成的调试和优化。这项工作为企业API作为工具的启用奠定了基础，提高了它们在基于代理的应用程序中的可使用性。

发布时间: 5/2/2025

查看原文

向最优电路生成迈进：多智能体协作与集体智能相结合

作者: Haiyan Qin, Jiahao Feng, Xiaotong Feng, Wei W. Xing, Wang Kang

arXiv:2504.14625v3 宣告类型: replace-cross 摘要：大规模语言模型（LLMs）已变革了代码生成，但在硬件设计中的应用却导致门电路数量比人类设计多38%到1075%。我们介绍了一种名为CircuitMind的多智能体框架，通过三项关键创新实现了与人类竞争的效率：语法锁定（限制生成为基本逻辑门），检索增强生成（实现基于知识的设计），以及双重奖励优化（平衡正确性和效率）。为了评估我们的方法，我们引入了TC-Bench，这是首个利用TuringComplete生态系统集体智慧的门级基准测试——这是一个拥有数十万用户的竞争性电路设计平台。实验表明，CircuitMind使55.6%的模型实现能够达到或超过顶级人类专家的综合效率指标。更为令人惊讶的是，我们的框架将14B Phi-4模型提升至超越GPT-4o mini和Gemini 2.0 Flash，而无需特殊训练，其效率可与顶级人类专家的前25%相媲美。这些创新确立了硬件优化的新范式，即协同AI系统利用集体的人类智慧实现最优电路设计。我们的模型、数据和代码可在https://github.com/BUAA-CLab/CircuitMind获取。

发布时间: 5/2/2025

查看原文

ReasoningV：高效自适应混合推理模型下的Verilog代码生成

作者: Haiyan Qin, Zhiwei Xie, Jingjing Li, Liangchen Li, Xiaotong Feng, Junzhan Liu, Wang Kang

arXiv:2504.14560v3 宣告类型: 替换-交叉摘要：大型语言模型（LLMs）在Verilog代码生成方面取得了显著进展，但在数据质量、推理能力和计算效率方面仍面临挑战。本文提出了一种新的模型ReasoningV，该模型采用了一种结合受训内生能力和动态推理适应的混合推理策略，用于Verilog代码生成。我们的框架引入了三项互补创新：(1) ReasoningV-5K，一个包含5,000个功能经过验证的实例的高质量数据集，这些实例的推理路径是通过多维过滤PyraNet样本生成的；(2) 结合参数高效的微调以掌握基础知识，并进行全面参数优化以增强推理能力的两阶段训练方法；(3) 一种自适应推理机制，该机制根据问题复杂性动态调整推理深度，最多可减少75%的token消耗，同时保持性能。实验结果表明，ReasoningV在VerilogEval-human中的@1准确率为57.8%，性能与领先商用模型Gemini-2.0-flash（59.5%）相当，并且超越了之前最佳的开源模型10.4个百分点。ReasoningV提供了一条更可靠且易于访问的途径，以促进基于AI的硬件设计自动化，您可以在https://github.com/BUAA-CLab/ReasoningV 获得我们的模型、数据和代码。

发布时间: 5/2/2025

查看原文