arXiv 论文列表

作者: Asma Yamani, Malak Baslyman, Moataz Ahmed

arXiv:2504.00513v1 交叉领域公告类型: 摘要: 人工智能系统在各个行业和领域中获得了广泛采用。创建高质量的人工智能系统需求对于使人工智能系统与业务目标和消费者价值观相一致，并促进社会责任至关重要。然而，由于人工智能系统的不确定性以及对敏感数据的高度依赖，需要更多研究来解决人工智能系统需求的提取和分析问题。鉴于许多人工智能系统具有专有性质，缺乏开放源代码的需求文档和技术要求文档，限制了更广泛的研究和调查。随着大型语言模型（LLMs）作为人类生成文本的有前途的替代方案出现，本文探讨了使用LLMs根据学术论文摘要生成人工智能系统用户故事的潜在用途。我们使用三种LLM进行了实证评估，并从26个领域的42个摘要中生成了1260个用户故事。我们使用质量用户故事（QUS）框架评估这些用户故事的质量。此外，我们识别了相关的非功能性需求（NFRs）和伦理原则。我们的分析表明，研究的LLMs能够生成受到不同利益相关者需求启发的用户故事，提供了为研究目的生成用户故事和在人工智能系统的需求提取初期阶段提供支持的有前途的方法。我们整理并汇集了各种LLM生成的故事集成了一个数据集（UStAI），该数据集现在已公开可供使用。

发布时间: 4/10/2025

查看原文

CPU 设计空间探索中的多目标优化：只需关注点（Attention is All You Need）

作者: Runzhen Xue, Hao Wu, Mingyu Yan, Ziheng Xiao, Xiaochun Ye, Dongrui Fan

arXiv:2410.18368v1 Announce Type: cross 摘要：架构空间探索（DSE）使架构师能够系统地评估各种设计选项，指导如何选择最合适的配置以满足特定目标，如优化性能、功率和面积。然而，现代CPU日益增长的复杂性大幅增加了微架构参数的数量，并扩展了总体设计空间，这使得DSE更加复杂和耗费时间。现有的DSE框架在大规模设计空间中遇到困难，因为模型不够准确，且对参数影响的见解有限，阻碍了在短时间内有效地识别出最优微架构设计。在这项工作中，我们引入了AttentionDSE。它的主要思想是使用注意力机制建立微架构参数与其对预测性能贡献之间的直接映射。这种方法提高了性能模型的预测准确性和可解释性。此外，权重可以根据设计变化动态调整，使模型能够响应设计变化，并有效地指出导致性能瓶颈的关键微架构参数/组件。因此，AttentionDSE能够准确、有针对性地并快速地发现最优设计。在SPEC 2017的实验中，AttentionDSE将探索时间显著减少了80%以上，并且在参数数量不断增加的情况下，其预测准确性和效率优于最先进的DSE框架，同时在Pareto Hypervolume上实现了3.9%的改善。

发布时间: 4/10/2025

查看原文

CMAT：增强小型语言模型的多代理协作调优框架

作者: Xuechen Liang, Meiling Tao, Yinghui Xia, Tianyu Shi, Jun Wang, JingSong Yang

arXiv:2404.01663v5 类别: cross 摘要：开源大型语言模型(LLMs)在自然语言处理领域取得了显著进展，展示了在各种任务上的出色表现。尽管LLMs取得了重大进展，但它们的有效运行仍然高度依赖于人类输入以准确引导对话流程，其中代理调优是一种关键的优化技术，涉及对模型进行人工调整以更好地响应这种指导。为了解决这种依赖性，我们的工作引入了TinyAgent模型，该模型是在精心策划的高质量数据集上训练而成的。我们还提出了协作多代理调优(CMAT)框架，这是一种创新系统，旨在通过基于环境反馈的自适应权重更新来增强语言代理的能力。该框架促进了多个智能代理之间的协作学习和实时自适应，增强了它们的上下文感知能力和长期记忆。在这项研究中，我们提出了一种新的通信代理框架，将多代理系统与环境反馈机制相结合，提供了一种可扩展的方法来探索协作行为。值得一提的是，尽管TinyAgent-7B模型的参数较少，其性能堪比GPT-3.5，这表明LLMs的效率和效果有了显著提高。

发布时间: 4/10/2025

查看原文

AssistanceZero： scalable解决辅助游戏方法

作者: Cassidy Laidlaw, Eli Bronstein, Timothy Guo, Dylan Feng, Lukas Berglund, Justin Svegliato, Stuart Russell, Anca Dragan

arXiv:2504.07091v1 声明类型: 新摘要：辅助游戏是一种有前途的选择，可以替代带有来自人类反馈的强化学习（RLHF）来训练AI助手。辅助游戏通过明确将助手与用户的交互建模为一个两玩家游戏，解决了RLHF中的关键缺陷，如欺骗性行为的动机，其中助手无法观察到他们共同的目标。尽管它们具有潜力，但辅助游戏仅在简单设置中被探索过。将它们扩展到更复杂的环境具有挑战性，因为这需要解决不确定性下的不可计算决策问题，并准确地建模人类用户的的行为。我们提出了第一个可扩展的辅助游戏解决方法，并将其应用于一个新的、具有超过$10^{400}$个可能目标的Minecraft基础辅助游戏。我们的方法，AssistanceZero，在AlphaZero的基础上引入了一个神经网络来预测人类行为和奖励，使它能够在不确定性下进行规划。我们证明，在Minecraft基础辅助游戏中，AssistanceZero在无模型的RL算法和模仿学习中表现出色。在一项人类研究中，我们训练的AssistanceZero助手显著减少了参与者在完成Minecraft建筑任务时所采取的行动次数。我们的结果表明，辅助游戏是训练有效AI助手的有效框架，在复杂环境中是可行的。我们的代码和模型可在https://github.com/cassidylaidlaw/minecraft-building-assistance-game 获取。

发布时间: 4/10/2025

查看原文

SkillWeaver: 网站代理可以通过发现和磨练技能来自我提升

作者: Boyuan Zheng, Michael Y. Fatemi, Xiaolong Jin, Zora Zhiruo Wang, Apurva Gandhi, Yueqi Song, Yu Gu, Jayanth Srinivasa, Gaowen Liu, Graham Neubig, Yu Su

arXiv:2504.07079v1 Announce Type: 新摘要：为了在复杂环境中生存和发展，人类通过环境探索、经验和技能的分层抽象以及合作构建不断增加的技能库，进化出了精巧的自我提升机制。尽管取得了最近的进步，但自主网络代理仍然缺乏关键的自我提升能力，难以抽象程序性知识、改进技能以及进行技能组合。在这项工作中，我们介绍了SkillWeaver，这是一种以技能为中心的框架，使代理能够通过自主合成可重用的API技能来进行自我提升。给定一个新网站，代理自主发现技能，执行技能进行实践，并从实践经验中提炼出稳健的API。迭代探索不断增加了一套轻量级且即插即用的API库，显著提高了代理的能力。在WebArena和真实网站上的实验表明，SkillWeaver的有效性，分别实现了相对成功率改善的31.8%和39.8%。此外，强大的代理合成的API能显著增强较弱的代理通过可转移技能，使得WebArena上的成功率改善高达54.3%。这些结果表明了将多样的网站交互提炼成API的有效性，这些API可以在各种网络代理之间无缝共享。

发布时间: 4/10/2025

查看原文

$\Pi$-NeSy: 一种可能性神经符号方法

作者: Isma\"il Baaj, Pierre Marquis

arXiv:2504.07055v1 通知类型: 新摘要: 在本文中，我们介绍了一种神经符号方法，该方法结合了由神经网络执行的低级感知任务和由可能性规则系统执行的高级推理任务。目的是能够为每个输入实例推断其属于目标（元）概念的程度。这个（元）概念由可能性规则系统连接到中间概念。使用神经网络推断输入实例的每个中间概念的概率。低级感知任务与高级推理任务之间的连接在于，通过Softmax激活模型的神经网络输出被转换为可能性分布。使用中间概念在解释方面有价值：通过规则系统，可以证明将输入实例分类为（元）概念的成员是因为中间概念已被识别。从技术方面看，我们的贡献在于设计高效的方法来定义与可能性规则系统相关的矩阵关系和方程系统。相应的矩阵和方程是用于从可能性规则系统进行推理和根据训练数据样本学习规则参数的关键数据结构。此外，利用处理模糊关系方程不一致系统的最新结果，提出了根据多个训练数据样本学习规则参数的方法。在MNIST加法问题和MNIST数独谜题问题上的实验表明，与最先进的神经符号方法相比，我们的方法更为有效。

发布时间: 4/10/2025

查看原文

基于案例推理的LLM代理综述：理论基础、架构组件与认知整合

作者: Kostas Hatalis, Despina Christou, Vyshnavi Kondapalli

arXiv:2504.06943v1 事件类型: 新摘要：由大型语言模型（LLMs）驱动的代理最近在各种任务中展示了令人印象深刻的性能。然而，在需要特定结构化知识、灵活性或问责制决策的任务中，它们仍然面临限制。虽然代理能够感知其环境、形成推理、规划并执行行动以实现目标，但它们往往面临诸如幻觉及跨交互缺乏上下文记忆的问题。本文探讨了如何通过案例基于推理（CBR）将新问题的解决策略与以往经验相结合，将其整合进LLM代理框架中。这种集成使LLM能够利用显性知识，从而增强其效果。我们系统地回顾了这些增强型代理的理论基础，识别了关键框架组件，并提出了一个基于案例检索、适应和学习的CBR过程的数学模型。我们还对CBR增强代理与其他方法（如思维链推理和标准检索增强生成）进行了评估，分析了它们各自的优点。此外，我们探讨了如何利用目标驱动的自主机制来利用CBR的认知维度（包括自我反思、内省和好奇心），进一步增强LLM代理的能力。作为对神经符号混合系统持续研究的贡献，本文认为CBR是一种能够增强自主LLM代理推理能力和认知方面的可行技术。

发布时间: 4/10/2025

查看原文

FamilyTool: 多跳个性化工具使用基准

作者: Yuxin Wang, Yiran Guo, Yining Zheng, Zhangyue Yin, Shuo Chen, Jie Yang, Jiajun Chen, Xuanjing Huang, Xipeng Qiu

arXiv:2504.06766v1 工具学习类型: 新摘要: 将工具学习与大型语言模型 (LLM) 相结合，通过利用外部工具扩展了它们处理复杂任务的能力。然而，现有的工具学习基准未能充分解决关键的现实个性化场景，尤其是那些需要多跳推理和适应动态环境中归纳知识的场景。为了弥合这一差距，我们引入了 FamilyTool，一个基于家庭知识图谱 (KG) 的新型基准，模拟个性化、多跳工具使用场景。FamilyTool 挑战 LLM 通过跨越 1 到 3 跳关系的查询（例如，推断家庭联系和偏好），并在一个归纳 KG 设置中引入模型必须在不重新训练的情况下适应未见过的用户偏好和关系，这是先前方法中的一个常见限制，限制了泛化能力。我们还提出了 KGETool：一个简单的 KG 增强评估管道，系统评估 LLM 在这些设置下的工具使用能力。实验结果显示最先进的 LLM 在多跳复杂性增加时性能显著下降，在归纳场景下泛化缺陷尤为严重。这些发现突显了当前 LLM 在处理个性化、不断变化的现实场景方面的限制，并强调了在工具学习框架方面取得进步的迫切需求。FamilyTool 作为评估和推进 LLM 代理在复杂、动态环境中推理、适应性和可扩展性的关键资源。代码和数据集可在 Github 上获取。

发布时间: 4/10/2025

查看原文

正确的预测，错误的推理：揭示RA疾病诊断中LLM的偏差

作者: Umakanta Maharana, Sarthak Verma, Avarna Agarwal, Prakashini Mruthyunjaya, Dwarikanath Mahapatra, Sakir Ahmed, Murari Mandal

arXiv:2504.06581v1 宣布类型: 新摘要: 大型语言模型（LLMs）提供了一种有前景的预筛查工具，能够改进早期疾病检测并为贫困社区提供增强的医疗服务。各疾病早期诊断仍然是医疗卫生中的一个重要挑战，主要原因在于早期症状的非特异性、专家医疗人员的短缺以及需要长期临床评估，这些因素都可能导致治疗延迟并负面地影响患者结果。LLMs 在多种疾病的预测方面表现出令人印象深刻的准确性，这有望革新临床预筛查和各种医疗状况的决策过程。在本文中，我们研究了LLMs 在风湿性关节炎（RA）诊断方面的能力，使用了实际患者的病患数据。收集了患者的病患数据并伴随着医疗专家的诊断，LLMs 的表现与专家对RA疾病的诊断进行了比较评价。我们注意到一个有趣的疾病诊断模式，并发现意外的“预测和解释不一致”。我们使用不同的LLM代理进行了多次分析。表现最好的模型在大约95%的时间内准确预测了风湿性关节炎（RA）疾病。然而，当医疗专家评估模型生成的推理时，他们发现几乎68%的推理是错误的。这项研究强调了LLMs 高预测准确性与其错误推理之间的明显不一致，提出了在临床环境中依赖LLM解释的关键问题。**LLMs提供错误的推理以得出正确的RA疾病诊断答案。**

发布时间: 4/10/2025

查看原文

缺省前提加剧过度思考：推理模型丧失了批判性思维能力吗？

作者: Chenrui Fan, Ming Li, Lichao Sun, Tianyi Zhou

arXiv:2504.06514v1 Announce Type: 新增摘要：我们发现，无论是通过强化学习还是监督学习训练的推理大语言模型，在缺乏前提条件（MiP）的不完整问题上的响应长度急剧增加，最终导致冗余且无效的思考。这一新引入的场景极大地加剧了普遍存在的过度思考问题，我们将其命名为MiP-过度思考。这种失败与“测试时扩展法则”相悖，但在我们收集的多个包含MiP的数据集上广泛观察到，这表明廉价的过度思考和缺乏批判性思维的危害。令人惊讶的是，那些未特别为推理训练的模型在MiP场景中表现得更好，产生更短的响应，能迅速识别出不完整的查询。这暗示了当前推理大语言模型的训练食谱存在严重缺陷，未能充分鼓励有效的思考，导致思考模式的滥用。为了进一步研究这些失败的原因，我们对不同类型的LLM进行了精细分析，研究推理长度、过度思考模式和关键思考的位置。此外，我们扩展的消融研究揭示了推理模型响应间的过度思考具有传染性。这些结果加深了对过度思考的理解，并提供了缓解这一问题的新见解。

发布时间: 4/10/2025

查看原文