arXiv 论文列表

作者: Kaira M. Samuel, Faez Ahmed

arXiv:2504.12503v1 宣布类型: cross 摘要：使用机器学习的工程问题通常涉及计算密集型方法，但依赖于有限的数据集。随着新设计和约束条件的出现，工程数据会发生变化，因此模型必须随着时间的推移不断融入新的知识。然而，高昂的计算成本使得从头重新训练模型变得不切实际。连续学习（CL）提供了一个有希望的解决方案，它使模型能够从序列数据中学习，同时缓解灾难性遗忘的问题，即模型会忘记之前学习的映射。本研究通过将几种连续学习方法应用于代表性回归任务，将连续学习引入工程设计。我们将这些策略应用于五个工程数据集，并构建了九个新的工程连续学习基准，以评估它们缓解遗忘和提高泛化的能力。初步结果显示，将现有的连续学习方法应用于这些任务可以改善性能，超过朴素基线。特别是，重放策略在某些基准中实现了与从头重新训练相当的性能，同时将训练时间减少了近一半，这表明其在实际工程工作流中的潜力。本研究中使用的代码和数据集可以在以下链接获取：https://github.com/kmsamuel/cl-for-engineering-release。

发布时间: 4/18/2025

查看原文

以人性化的方式与AI共写：在整个写作过程中使研究与用户需求保持一致

作者: Mohi Reza, Jeb Thomas-Mitchell, Peter Dushniku, Nathan Laundry, Joseph Jay Williams, Anastasia Kuzminykh

arXiv:2504.12488v1 宣布类型: 交叉摘要：随着像ChatGPT这样的生成AI工具日益成为日常写作不可或缺的部分，人们愈发关注在使用这些工具时如何保护作者的自主权和所有权。然而，对AI协助如何影响写作过程的不同方面及其如何塑造作者自主权的理解仍处于初步阶段。为填补这一空白，我们采用PRISMA方法系统性地回顾了109篇人机交互（HCI）论文。从这些文献中，我们识别出四类总体设计策略，以支持AI写作：结构化的指导、引导性的探索、积极的合作写作以及批判性反馈。这些策略被映射到写作过程中的四大认知过程：规划、转化、审查和监控。我们还通过采访来自不同领域的15名作者补充了这一分析。我们的发现揭示了作者在写作过程中对AI干预程度的不同需求：内容导向的作者（如学术人员）在规划阶段更注重拥有权，而形式导向的作者（如创意人员）在转化和审查阶段更重视控制权。作者的偏好也受到背景下目标、价值观以及原创性与作者身份观念的影响。通过探讨在何时拥有权重要、作者希望拥有什么以及AI互动如何塑造自主权，我们揭示了研究与用户需求之间的契合和差距。我们的发现为针对AI协作写作开发以人为本的写作工具提供了实用的设计指导，使其符合人类的视角。

发布时间: 4/18/2025

查看原文

人们期望人工智能具备什么？来自德国和美国的公众对人工智能调解中的对齐观点的看法

作者: Andreas Jungherr, Adrian Rauchfleisch

arXiv:2504.12476v1 宣告类型: 交叉摘要：生成人工智能 Recent 的进展提高了公众意识，形成了关于它们对社会影响的期望和担忧。这些讨论的核心问题是人工智能对齐——人工智能系统在安全、公平和社会价值观方面满足公众期望的程度。然而，人们对人工智能系统的期望知之甚少，且不清楚这些期望在不同国家之间的差异。我们提出了来自德国和美国两项调查的证据，这些调查涉及公众对人工智能系统关键功能特性的重要看法。我们探讨了人工智能审核中的四种对齐类型的支持：准确性和可靠性、安全性、偏见减轻以及积极设想的促进。美国受访者报告的AI使用率更高，并且对于所有对齐特性提供了更一致的支持，这反映了更广泛的科技开放性和社会对AI的更高参与度。在两国中，准确性和安全性都获得了最有力的支持，而更具规范性目标——如公平性和积极设想——则获得了更加谨慎的支持，特别是在德国。我们还探讨了个人对AI的经验、对言论自由的态度、政治意识形态、党派归属和性别如何影响这些偏好。在德国，AI使用和对言论自由的支持解释了更多的变化。相比之下，美国的回应显示出更大的态度统一性，这表明较高的AI接触可能巩固了公众的期望。这些发现有助于人工智能治理和跨国公众偏好差异的讨论。更广泛地说，我们的研究证明了将人工智能对齐讨论与公共态度实证联系起来的价值，并且明确发展出以规范为基础的期望，可以进一步理论化和政策讨论，以治理生成内容的人工智能。

发布时间: 4/18/2025

查看原文

融合文本属性图中结构信号和语义信号的BiGTex方法

作者: Azadeh Beiranvand, Seyed Mehdi Vahidipour

arXiv:2504.12474v1 类型: cross 摘要: 文本属性图（TAGs）在表示学习中提出了独特的挑战，因为它们要求模型同时捕捉节点关联文本的语义丰富性和图的结构依赖性。虽然图神经网络（GNNs）在建模拓扑信息方面表现出色，但在处理无结构文本方面却能力不足。相反，大型语言模型（LLMs）在文本理解方面表现出色，但通常不了解图结构。在这个工作中，我们提出了BiGTex（双向图文本），这是一种新颖的架构，通过堆叠图-文本融合单元，紧密整合了GNNs和LLMs。每个单元允许文本和结构表示之间的相互注意，使得信息能够在两个方向流动，文本影响结构，而结构指导文本的解释。所提出的架构通过参数高效微调（LoRA）进行训练，保持LLM冻结，但适应特定任务信号。在五个基准数据集上的广泛实验表明，BiGTex在节点分类方面达到了最先进的性能，并且在链接预测任务上表现出有效的泛化能力。进一步的消融研究还强调了软提示和双向注意在模型成功中的重要性。

发布时间: 4/18/2025

查看原文

密集反向传播提高稀疏专家混合模型的训练效果

作者: Ashwinee Panda, Vatsal Baherwani, Zain Sarwar, Benjamin Therien, Supriyo Chakraborty, Tom Goldstein

arXiv:2504.12463v1 Announce Type: cross 摘要：混合专家（MoE）预训练比密集Transformer预训练更具可扩展性，因为MoE学习将输入导向其前向参数的一个稀疏子集。然而，这意味着MoE只接收稀疏的反向更新，导致训练不稳定性和次优性能。我们提出了一种轻量级的近似方法，给MoE路由器提供密集梯度更新，同时继续稀疏激活其参数。我们称这种方法为Default MoE，它用专家输出的指数移动平均值作为默认输出来替换缺失的专家激活。这使得路由器可以为每个标记从每个专家获得信号，从而显著提高了训练性能。我们的Default MoE在多种设置下优于标准的TopK路由，而无需显著增加计算开销。代码：https://github.com/vatsal0/default-moe。

发布时间: 4/18/2025

查看原文

关于线性表示和语言模型中预训练数据频率的研究

作者: Jack Merullo, Noah A. Smith, Sarah Wiegreffe, Yanai Elazar

arXiv:2504.12459v1 交叉公告类型摘要：预训练数据直接影响语言模型（LMs）的行为和质量，但我们仅理解这种关系的基本原理。虽然大部分工作集中于预训练数据对下游任务行为的影响，但我们研究了它与LM表示之间的关系。先前的研究发现，在语言模型中，有些概念以“线性”的方式编码在表示中，但这些表示是如何形成的？我们研究了预训练数据频率与模型对事实关系的线性表示之间的连接。我们发现，线性表示的形成与预训练词频之间存在强烈关联；特别是对于主语-关系-宾语事实三元组，主语-宾语共现频率以及上下文中的学习准确性与线性表示高度相关。这一现象在预训练的所有阶段都存在。在OLMo-7B和GPT-J中，我们发现当关系中的主语和宾语共现至少1000次和2000次时（无论这些共现何时发生在预训练中），线性表示会一致形成（但并非总是如此）。最后，我们在完全训练的语言模型上训练了一个预测线性表示质量的回归模型，以预测某种词在预训练中的出现频率。我们的模型即使在来自具有不同预训练数据集的其他模型的输入上也能实现低误差，提供了估计封闭数据模型的先前未知训练数据属性的新方法。我们得出结论，语言模型中线性表示的强度包含了关于模型预训练语料库的信号，这可能为控制和改进模型行为提供新的途径：特别地，通过调整模型的训练数据以满足特定频率阈值来操控它们的行为。

发布时间: 4/18/2025

查看原文

从前馈神经网络导出等效符号基础决策模型

作者: Sebastian Seidel, Uwe M. Borghoff

arXiv:2504.12446v1 类型: cross 摘要：人工智能（AI）已成为推动各行业变革的重要力量，这得益于深度学习和自然语言处理的进步，以及大规模数据和计算资源的驱动。尽管AI的采用速度飞快，但AI系统的透明度不足给信任和接受带来了重大挑战。本文探索了关联主义和符号主义在人工智能的交汇点，重点是从前向神经网络（FNNs）中推导出可解释的符号模型，如决策树。决策树提供了一种透明的框架来阐明神经网络的操作，同时保持其功能的完整性。推导过程以逐步方式进行，并通过几个例子进行说明。本文提出了一种系统的方法，通过利用FNN中的分布式表示来识别符号组件，包括填充项、角色及其相互关系，从而弥合神经和符号范式之间的鸿沟。过程追踪了网络层中神经元激活值和输入配置的变化，并将激活及其底层输入映射到决策树的边。生成的符号结构有效地捕捉了FNN的决策过程，并通过逐步细化每个隐藏层的子路径来实现 deeper 网络的可扩展性。为了验证理论框架，使用Keras .h5数据并在Java JDK/JavaFX环境内模拟TensorFlow开发了一个原型。这个原型证明了从神经网络中提取符号表示的可行性，增强了对AI系统的信任，并促进了责任的承担。

发布时间: 4/18/2025

查看原文

稀疏性在少量样本适应中优于低秩投影

作者: Nairouz Mrabah, Nicolas Richet, Ismail Ben Ayed, \'Eric Granger

arXiv:2504.12436v1 宣告类型: cross 摘要：将视觉-语言模型（VLMs）适应新的领域，尤其是在有限的标记样本情况下，仍旧是一个重大挑战，主要是由于严重的过拟合和计算约束。现有的最新解决方案，如低秩重参数化，虽然能够缓解这些问题，但通常难以实现良好的泛化，并且需要大量的超参数调整。在本文中，提出了一种新颖的稀疏优化（SO）框架。与低秩方法通常将更新约束在一个固定的子空间不同，我们的SO方法利用高稀疏性，动态调整极少的参数。我们提出了两个关键的范式。首先，我们提倡“局部稀疏性和全局密集性”，即在每次迭代中仅更新少量参数，同时保持模型的整体表达性。作为第二个范式，我们提倡“局部随机性和全局重要性”，这种方法通过随机选择来稀疏化梯度，基于重要性修剪一阶矩。这种组合显著减轻了过拟合，并确保在小数据集环境中稳定适配。在11个多样化的数据集上的广泛实验表明，SO方法在少量样本适应性能方面达到了最新的技术水平，同时减少了内存开销。

发布时间: 4/18/2025

查看原文

位置：LLM 中最昂贵的部分应该是其训练数据

作者: Nikhil Kandpal, Colin Raffel

arXiv:2504.12427v1 宣告类型: cross 摘要：训练最先进的大型语言模型（LLM）由于计算、硬件、能源和工程需求不断增加而变得越来越昂贵。然而，一个经常被忽视（且鲜少有人支付）的成本是这些模型训练数据背后的人工劳动。每个LLM都是基于难以想象的人类努力构建的：从书籍、学术论文、代码库、社交媒体和其他来源中提取的数十万亿个精心撰写的单词。本文旨在为这种劳动赋予货币价值，并主张生产LLM最昂贵的部分应该是对数据生产者的劳动给予的补偿。为了支持这一观点，我们研究了2016年至2024年间发布的64个LLM，估算从头开始为这些模型创建训练数据集的成本。即使在非常保守的工资率估计下，这些模型训练数据集的成本也是训练模型本身成本的10-1000倍，为LLM提供商带来了巨大的财务负担。面对训练数据价值和其创造者应得补偿之间巨大的差距，我们强调并讨论了可能有助于未来实现更公平实践的研究方向。

发布时间: 4/18/2025

查看原文

不只是翻译，还要激辩：将大型语言模型作为AI解释的对立派倡导者

作者: Ashley Suh, Kenneth Alperin, Harry Li, Steven R Gomez

arXiv:2504.12424v1 摘要类型: cross 摘要: 这篇立场论文指出了在可解释人工智能（XAI）研究中的一种趋势，即使用大型语言模型（LLMs）将解释性技术（如特征归因权重）的输出翻译成自然语言解释。虽然这种方法可能提高用户的易用性或可读性，但最近的发现表明，将解释翻译成人类似乎的解释并不能必然增进用户的理解，反而可能导致对AI系统的过度依赖。当LLMs在不展示模型局限性、不确定性或不一致性的前提下总结XAI输出时，它们可能会强化解释可解释性的幻觉，而非促进有意义的透明度。我们认为，- 而不是仅仅翻译XAI输出 - LLMs 应该发挥建设性的批判者或魔鬼代言人的角色，其作用是积极质疑AI解释，提出替代解释、潜在偏见、训练数据局限性以及模型推理可能失效的情况。在这种角色中，LLMs 可以促进用户对AI系统及其生成的解释进行批判性参与，从而有可能减少由于错误解释或无根据解释引起的过度依赖。

发布时间: 4/18/2025

查看原文