arXiv 论文列表

作者: Cheng Qian, Emre Can Acikgoz, Qi He, Hongru Wang, Xiusi Chen, Dilek Hakkani-T\"ur, Gokhan Tur, Heng Ji

arXiv:2504.13958v1 宣布类型:跨领域摘要：当前的大语言模型（LLMs）通常通过监督微调（SFT）来获取工具使用能力。然而，SFT在应对不熟悉或复杂的工具使用场景时难以泛化。最近在强化学习（RL）领域的进展，特别是R1-like模型，展示了令人振奋的推理和泛化能力。然而，工具使用的奖励设计面临着独特的挑战：多个工具可能被调用，并带有不同的参数，粗粒度的奖励信号，如答案匹配，无法提供有效的学习所需的细粒度反馈。本文我们提出了第一个在RL范式下关于工具选择和应用任务中的奖励设计的全面研究。我们系统地探索了一系列广泛的奖励策略，分析了它们的类型、规模、粒度和时间动态。基于这些洞察，我们提出了一种适用于工具使用任务的原理化奖励设计，并将其应用于使用群体相对策略优化（GRPO）训练LLMs。通过对多种基准的实证评估表明，我们的方法能够实现稳健、可扩展和稳定的训练，相比基线模型提高了17%的性能，相比监督微调模型提高了15%的性能。这些结果突显了在提升大语言模型工具使用能力和泛化性能中精心设计奖励的重要性。所有代码均已开源，以促进未来的研究。

发布时间: 4/22/2025

查看原文

命名即框架：网络安全语言问题如何在AI治理中重演

作者: Liane Potter

arXiv:2504.13957v1 宣告类型: 交叉摘要：语言并非中立；它塑造理解、结构化权力并影响治理。本文认为，诸如网络安全和人工智能（AI）之类的误用术语不仅仅是语义上的奇点；它们通过模糊人类能动性、夸大期望和扭曲问责制带来了重大的治理风险。本文借鉴了网络安全语言陷阱的教训，例如“最薄弱环节”叙事，指出AI话语也陷入类似的陷阱，受到诸如“对齐”、“黑箱”和“幻觉”等隐喻的影响。这些术语将对抗性、难以理解或过于技术化的假设嵌入治理结构中。为此，本文提倡一种以语言为主导的AI治理方法：一种质疑主导隐喻、凸显人类角色并共同开发一个精确、包容和反思性的词汇表的方法。本文认为，语言改革并非治理的附带因素，而是构建透明、公平和预见性监管框架的核心要素。

发布时间: 4/22/2025

查看原文

创伤千声：长期暴露疗法对话的大规模合成数据集

作者: Suhas BN, Dominik Mattioli, Saeed Abdullah, Rosa I. Arriaga, Chris W. Wiese, Andrew M. Sherrill

arXiv:2504.13955v1 类别: cross 摘要：用于心理健康支持的人工智能系统的发展受到治疗性对话数据有限访问的阻碍，特别是在创伤治疗方面。我们提出了千声创伤，一个基于 PTSD（创伤后应激障碍）持续暴露疗法协议的合成基准数据集，共包含3000个治疗对话。数据集包括500个独特的案例，每个案例通过六种对话视角来探讨治疗过程中从最初焦虑到高峰痛苦再到情感处理的不同阶段。我们使用确定性和概率生成方法，涵盖了多元的人口统计学特征（年龄18-80岁，平均年龄49.3岁，男49.4%，女44.4%，非二元性别占比6.2%），20种创伤类型，以及10种与创伤相关的行为。分析结果显示创伤类型的现实分布（目睹暴力10.6%，欺凌10.2%）和症状（噩梦23.4%，药物滥用20.8%）。临床专家验证了数据集在治疗方面的信效度，强调了其情感深度，同时也提出了使数据更具真实性的改进建议。我们还开发了一个情感轨迹基准，其中包含标准化的评估指标来评估模型响应。这个保护隐私的数据集填补了创伤治疗心理健康数据的关键缺口，为推进患者面向的应用和临床训练工具提供了宝贵的资源。

发布时间: 4/22/2025

查看原文

递归神经网络中的生成系统动力学

作者: Michele Casoni, Tommaso Guidi, Alessandro Betti, Stefano Melacci, Marco Gori

arXiv:2504.13951v1 Announce Type: cross 摘要：在本研究中，我们探讨了递归神经网络（RNNs）的连续时间动态，重点关注具有非线性激活函数的系统。本工作的目标是在不会收敛到静止的固定点的情况下，识别递归神经网络表现出持续振荡行为的条件。我们确立了反对称权重矩阵对于在无论是线性还是非线性配置中都能确保稳定极限环的本质性。我们进一步证明，类双曲正切（奇函数、有界和连续）的激活函数通过在状态空间中确保运动不变性，来维持这些振荡动力学。数值模拟展示了非线性激活函数不仅能够维持极限环，还能通过图示增强系统积分过程的数值稳定性，减轻与向前欧拉法相关的那些不稳定性。分析实验结果强调了在设计能够捕捉复杂时序依赖性的神经架构时的实用考虑，即在递归模型中增强记忆技能的策略。

发布时间: 4/22/2025

查看原文

Open-Medical-R1：如何在医药领域选择数据进行RLVR训练

作者: Zhongxi Qiu, Zhang Zhang, Yan Hu, Heng Li, Jiang Liu

arXiv:2504.13950v1 类别: cross 摘要: 本文探讨了在医疗领域使用经过验证奖励的强化学习（RLVR）训练时的最佳数据选择策略。尽管RLVR在增强大型语言模型的推理能力方面表现出非凡的潜力，但大多数之前的实现大多集中在数学和逻辑谜题上，对于医学等特定领域应用的探索有限。我们研究了四种不同的数据采样策略，源自MedQA-USMLE：随机采样（基线）、以及使用Phi-4、Gemma-3-27b-it和Gemma-3-12b-it模型进行过滤。我们将Gemma-3-12b-it作为基模型，并采用组相对策略优化（GRPO），在包括MMLU、GSM8K、MMLU-Pro和CMMLU等多个基准上评估性能。我们的研究结果表明，使用过滤数据训练的模型通常优于使用随机选择样本训练的模型。值得注意的是，使用Gemma-3-12b-it进行自我过滤训练在医疗领域取得了优异性能，但在不同基准上表现出较差的稳健性，而使用同一系列中的更大模型进行过滤则整体上表现出了更好的稳健性。这些结果为RLVR在专门领域的有效数据组织策略提供了宝贵见解，并强调了在实现最佳性能时进行精心数据选择的重要性。您可以访问我们的仓库（https://github.com/Qsingle/open-medical-r1）以获取代码。

发布时间: 4/22/2025

查看原文

通过沃尔什系数影响分析揭示现实世界和理论问题中的隐藏结构

作者: M. W. Przewozniczek, F. Chicano, R. Tin\'os, J. Nalepa, B. Ruszczak, A. M. Wijata

arXiv:2504.13949v1 类型：交叉摘要：灰盒优化通过瓦尔什分解获得非线性变量依赖关系，并利用这些依赖关系提出具有联合非线性影响于适应度值的变量掩码。这些掩码显著提高了变异操作符的效果。在某些问题中，所有变量之间都是非线性依赖的，使上述掩码无用。我们分析了此类问题的现实实例特征，并表明它们的许多依赖性可能源自噪声。由噪声引起的依赖性与优化过程无关，并且可以忽略。为了识别它们，我们提出通过测量变量依赖强度来扩展瓦尔什分解的使用，从而使可以构建加权动态变量交互图（wdVIG）。wdVIGs能够根据混合个体调整依赖性强度，从而允许过滤出无关的依赖性，并重新启用基于依赖性的掩码操作。我们通过大型基准套件验证了wdVIG的潜力。对于存在噪声的问题，wdVIG掩码可以提高优化器的效果。如果所有依赖性对优化都是相关的，即问题没有噪声，则wdVIG掩码的影响与其同类最先进的结构相似。

发布时间: 4/22/2025

查看原文

使用定制化GPT发展建筑AI生成图像的提示技巧

作者: Juan David Salazar Rodriguez, Sam Conrad Joyce, Julfendi Julfendi

arXiv:2504.13948v1 交叉型公告摘要：本研究探讨了定制化的GPT模型如何增强建筑学学生在生成AI驱动图像时的提示技巧。随着生成式AI工具的广泛应用，提示工程在建筑教育中变得越来越重要。本研究采用了一种混合方法实验设计，将建筑学学生分为三个不同的组别：一个对照组未提供任何结构化支持；一个提供了结构化提示指南的组别；一个既提供了结构化指南又可以与交互式AI人物互动的组别。学生们参与了反向工程任务，首先猜测提供的图像提示，然后自行生成提示，旨在促进批判性思维和提示技巧的提升。研究变量包括花费在提示上的时间、字数、提示相似度和明确度。定量分析包括对这些变量之间的相关性评估，以及通过单因素方差分析（ANOVA）来评价各组之间的差异。尽管几项相关性显示出有意义的关系，但并非所有相关性都具有统计显著性。方差分析结果表明，在使用AI人物和结构化提示指南支持的组别中，字数、相似度和明确度都有统计显著的提升。定性反馈补充了这些发现，表明学生的信心和批判性思维技能都有所提升。这些结果表明，定制的GPT交互显著提高了学生清晰有效地传达建筑概念的能力。

发布时间: 4/22/2025

查看原文

从职位标题到下颌线：利用上下文空白研究生成式AI系统

作者: Shahan Ali Memon, Soham De, Sungha Kang, Riyan Mujtaba, Bedoor AlShebli, Katie Davis, Jaime Snyder, Jevin D. West

arXiv:2504.13947v1 Announce Type: 横向摘要：在本文中，我们引入了一种推测性设计方法，用于研究生成式人工智能系统的行为，将设计定位于一种探究方式。我们提议将看似无关的领域结合在一起，以产生故意的内容空缺，使用这些任务作为探针，引发AI模型的行为。我们通过一个案例研究进行了演示：探测ChatGPT系统（GPT-4和DALL-E），以从专业简历（CV）中生成头像。与传统方法不同，我们的方法评估系统在极端不确定性条件下的行为——被迫发明整个缺失内容时，揭示了微妙的刻板印象和价值观导向的假设。我们定性分析了系统如何解释简历中的身份和能力标志，并在缺乏上下文（如物理描述）的情况下将其转化为视觉肖像。我们展示了在这种内容空缺的背景下，AI系统生成了有偏见的表示，可能依赖于刻板印象关联或明显的幻觉。

发布时间: 4/22/2025

查看原文

评价菜单OCR和翻译：大型视觉-语言模型中人工评估与自动化评估对齐的基准

作者: Zhanglin Wu, Tengfei Song, Ning Xie, Weidong Zhang, Mengli Zhu, Shuang Wu, Shiliang Sun, Hao Yang

arXiv:2504.13945v1 类型: cross 摘要：大型视觉语言模型（LVLMs）的快速发展显著推动了文档理解的应用，特别是在光学字符识别（OCR）和多语言翻译方面的应用。然而，目前对LVLMs的评估，如广泛使用的OCRBench，主要集中在验证其简短文本响应和简单布局长文本响应的正确性，而对其理解复杂布局设计的长文本能力的评估至关重要却经常被忽视。在本文中，我们提出了一种专门的评估框架Menu OCR和翻译基准（MOTBench），突显了菜单翻译在跨文化交流中的关键作用。MOTBench 要求LVLMs 准确识别并翻译菜单上每道菜及其价格和单位项目，从而对其视觉理解和语言处理能力进行全面评估。我们的基准涵盖了中英文菜单的集合，这些菜单具有复杂的布局、多种字体，并且在不同语言中包含文化特定的元素，同时还附有人工精确注释。实验结果表明，我们的自动评估结果与专业的人类评估高度一致。我们评估了多种公开的最先进的LVLMs，并通过分析它们的输出来确定其表现的优势和不足，为未来LVLM的发展提供了有价值的见解。MOTBench可在 https://github.com/gitwzl/MOTBench 获得。

发布时间: 4/22/2025

查看原文

混合比喻：非音乐应用的音频接口

作者: Tace McNamara, Jon McCormack, Maria Teresa Llano

arXiv:2504.13944v1 Announce Type: 交叉摘要：NIME会议传统上专注于音乐和音乐表达的接口。在本文中，我们反转了这一传统，询问能否将为音乐开发的接口成功应用于非音乐应用？为了回答这个问题，我们设计并开发了一种新设备，该设备借鉴了模拟合成器和音频混音的接口隐喻，以物理方式控制大型语言模型的无形方面。我们比较了两种版本的设备，一种带有音频启发的增强，另一种没有，然后在一个星期内让一组艺术家分别使用这两种版本。我们的结果显示，音频样式的控制提供了对LLM更直接、更具体和更身临其境的控制，使用户能够创造性地实验和玩弄该设备与其非混音版本。我们的项目展示了跨感官隐喻如何支持在设计新技术接口时的创造性思维和身体实践。

发布时间: 4/22/2025

查看原文