arXiv 论文列表

作者: Shenao Zhang, Zhihan Liu, Boyi Liu, Yufeng Zhang, Yingxiang Yang, Yongfei Liu, Liyu Chen, Tao Sun, Zhaoran Wang

大型语言模型 (LLM) 在许多自然语言处理任务中取代了传统方法。然而，在命名实体识别 (NER) 中，现有的基于 LLM 的方法......

发布时间: 10/11/2024

作者: Mohsen Sadr, Peyman Mohajerin Esfehani, Hossein Gorji

许多数值算法和学习任务都依赖于蒙日-坎托罗维奇问题的求解和相应的瓦瑟斯坦距离。虽然自然的方法是将该问题视为一个无限维线性规划，但这种方法由于样本量呈多项式增长以及对内存的密集要求，严重限制了计算性能。我们提出了一种基于投影型梯度下降方案的解决蒙日-坎托罗维奇问题的新框架。微观动力学建立在条件期望的概念之上，其中探索了与意见动力学的联系，并利用它来构建紧凑的数值方案。我们证明了所设计的动力学可以以良好的计算性能恢复随机映射。除了理论洞察之外，所提供的动力学为构建计算最优传输映射和瓦瑟斯坦距离的数值方案的创新方法铺平了道路。

发布时间: 10/11/2024

查看原文

闭环学习：通过语言模型模拟学生修改来学习生成写作反馈

作者: Inderjeet Nair, Jiaye Tan, Xiaotian Su, Anne Gere, Xu Wang, Lu Wang

提供反馈被广泛认为是提高学生写作技能的关键。语言模型 (LM) 的最新进展使得自动生成可操作且与人类指定属性高度一致的反馈成为可能。然而，这些模型生成的反馈是否真正有效地提高了学生修改的质量尚不清楚。此外，由于缺乏关于哪些具体属性可以提高修改性能的共识，因此以一组精确的指令提示 LM 生成反馈并非易事。为了解决这些挑战，我们提出了 PROF，它通过从 LM 模拟的学生修改中学习来生成反馈。PROF 的目标是通过直接最大化学生整体修改性能的有效性（由 LM 模拟）来迭代优化反馈生成器。我们重点关注一篇经济学论文作业，通过实证检验了 PROF 的有效性，观察到我们的方法不仅在提高学生写作的有效性方面超过了各种基线方法，而且还展现出增强的教学价值，即使它没有明确为此方面进行训练。

发布时间: 10/11/2024

查看原文

扩展您的内核：卷积神经网络中面向通用表示的大内核设计

作者: Yiyuan Zhang, Xiaohan Ding, Xiangyu Yue

本文提出了一种在设计现代卷积神经网络 (ConvNets) 时采用大型卷积核的范式。我们证明，使用少量大型卷积核，而不是堆叠多个较小的卷积核，可能是一种更优的设计策略。我们的工作提出了一套针对大型卷积核 ConvNets 的架构设计指南，以优化其效率和性能。我们提出了 UniRepLKNet 架构，它提供专门针对大型卷积核 ConvNets 的系统架构设计原则，强调其在不进行深层堆叠的情况下捕获广泛空间信息的独特能力。这使得模型不仅在 ImageNet 上取得了 88.0% 的准确率、ADE20K 上取得了 55.6% 的 mIoU 和 COCO 上取得了 56.4% 的 box AP，而且在时间序列预测、音频、点云和视频识别等多种模态上也表现出令人印象深刻的可扩展性和性能。这些结果表明，大型卷积核 ConvNets 具有比视觉 Transformer 更快的推理速度，并拥有通用的建模能力。我们的发现表明，大型卷积核 ConvNets 具有更大的有效感受野和更高的形状偏差，从而摆脱了小型卷积核 CNN 的典型纹理偏差。所有代码和模型均可在 https://github.com/AILab-CVC/UniRepLKNet 上公开获取，以促进社区的进一步研究和开发。

发布时间: 10/11/2024

查看原文

柯尔莫哥洛夫-阿诺德网络中（随机）梯度下降的收敛性

作者: Yihang Gao, Vincent Y. F. Tan

柯尔莫哥洛夫-阿诺德网络 (KANs) 是一种最近提出的神经网络架构，由于其作为多层感知器 (MLPs) 的可行替代方案的潜力及其在各种科学任务中的广泛适用性，在深度学习领域引起了极大的关注。实证研究表明，通过随机梯度下降 (SGD) 优化的 KANs 能够在各种机器学习 (例如回归、分类和时间序列预测等) 和科学任务 (例如求解偏微分方程) 中实现接近零的训练损失。在本文中，我们通过对求解回归和物理信息任务的两层 KANs 的梯度下降 (GD) 和 SGD 进行严格的收敛分析，对经验成功进行了理论解释。对于回归问题，我们使用神经切线核视角证明，当 KANs 的隐藏维度足够大时，GD 实现了目标函数的全局线性收敛。我们进一步将这些结果扩展到 SGD，证明了类似的全局收敛期望。此外，我们分析了物理信息 KANs 的 GD 和 SGD 的全局收敛性，这揭示了由于更复杂的损失结构而带来的额外挑战。这是第一项工作建立了应用于优化 KANs 和物理信息 KANs 的 GD 和 SGD 的全局收敛保证。

发布时间: 10/11/2024

查看原文

复合学习单元：超越参数更新的泛化学习，将大型语言模型转变为自适应推理器

作者: Santosh Kumar Radha, Oktay Goktas

人类学习的关键在于从错误中汲取教训，通过反馈进行调整，并不断完善理解，而这些过程在传统的静态机器学习模型中往往缺失。本研究引入了复合学习单元 (CLUs)，旨在将推理模型（例如大型语言模型 (LLMs)）转变为能够进行泛化、持续学习的学习者，无需传统的参数更新，同时通过持续的交互和反馈来增强其推理能力。CLUs 基于一种架构，允许推理模型维护和发展动态知识库：一个用于广泛、可复用见解的通用知识空间，以及一个用于特定任务学习的提示特定知识空间。通过目标驱动的交互，CLUs 迭代地细化这些知识空间，使系统能够动态适应复杂任务，提取细致入微的见解，并自主地借鉴过往经验。我们通过一项密码推理任务证明了 CLUs 的有效性，其中 CLUs 通过反馈不断发展其理解，以揭示隐藏的转换规则。虽然传统模型难以掌握底层逻辑，但 CLUs 通过参与迭代、目标导向的过程而脱颖而出。专门的组件——负责知识检索、提示生成和反馈分析——在强化反馈循环中协同工作。这种方法使 CLUs 能够保留过去失败和成功的记忆，自主地适应，并有效地应用复杂的推理，从错误中持续学习，同时也能在突破的基础上不断进步。

发布时间: 10/11/2024

查看原文

IntrinsicVoice：赋予大型语言模型实时语音交互能力

作者: Xin Zhang, Xiang Lyu, Zhihao Du, Qian Chen, Dong Zhang, Hangrui Hu, Chaohong Tan, Tianyu Zhao, Yuxuan Wang, Bin Zhang, Heng Lu, Yaqian Zhou, Xipeng Qiu

当前构建具有语音交互能力的 LLM 的方法严重依赖于语音响应生成之前或期间的显式文本自回归生成，以保持内容质量，但这不幸地带来了计算开销并增加了多轮交互的延迟。为了解决这个问题，我们引入了 IntrinsicVoice，一种具有内在实时语音交互能力的 LLM。IntrinsicVoice 旨在通过缩小文本和语音之间的模态差距，促进预训练 LLM 的文本能力向语音模态的转移。我们的新颖架构 GroupFormer 可以将语音序列缩短到与文本序列相当的长度，同时生成高质量音频，从而显著减少语音和文本之间的长度差异，加快推理速度，并缓解长文本建模问题。此外，我们构建了一个名为 \method-500k 的多轮语音到语音对话数据集，其中包含近 500k 轮语音到语音对话，以及一种跨模态训练策略，以增强语音和文本之间的语义一致性。实验结果表明，IntrinsicVoice 可以在多轮对话场景中生成高质量的语音响应，延迟低于 100 毫秒。演示地址：https://instrinsicvoice.github.io/。

发布时间: 10/11/2024

查看原文

具有外部性的策略性分类

作者: Yiling Chen, Safwan Hossain, Evi Micha, Ariel Procaccia

我们提出了一种新的战略分类问题变体：一个主体揭示一个分类器，$n$ 个代理报告他们（可能被操纵的）特征以进行分类。受现实世界应用的启发，我们的模型至关重要地允许一个代理的操纵影响另一个代理；也就是说，它明确地捕捉到代理之间的外部性。主体-代理交互被正式地建模为一个 Stackelberg 博弈，由此产生的代理操纵动力学被建模为一个同时博弈。我们表明，在某些假设下，该代理操纵博弈的纯 Nash 均衡是唯一的，并且可以有效地计算出来。利用这一结果，为学习者建立了 PAC 学习保证：非正式地，我们表明，即使随机数量的代理正在操纵他们的方式来达到一个纯 Nash 均衡，也可能学习到在分布上最小化损失的分类器。我们还评论了通过基于梯度的方法优化此类分类器。这项工作为更现实地分析在共同环境中相互作用的多个战略行为者面前具有鲁棒性的分类器奠定了理论基础。

发布时间: 10/11/2024

查看原文

基于截断拉普拉斯机制的私有语言模型

作者: Tianhao Huang, Tao Yang, Ivan Habernal, Lijie Hu, Di Wang

针对自然语言处理任务的深度学习模型容易受到各种隐私攻击。为了防止隐私泄露，研究人员已经研究了词级扰动，依赖于嵌入空间中差分隐私（DP）的正式保证。然而，许多现有的方法要么在使用拉普拉斯或高斯机制时在高隐私制度下取得了不令人满意的性能，要么诉诸于比规范 DP 隐私强度更弱的 DP 放松。这引发了一个问题，即是否可以设计一种新的私有词嵌入方法来克服这些限制。在本文中，我们提出了一种新的私有嵌入方法，称为高维截断拉普拉斯机制。具体来说，我们介绍了截断拉普拉斯机制的非平凡扩展，该机制以前仅在单维空间情况下进行过研究。从理论上讲，我们表明我们的方法与之前的私有词嵌入方法相比具有更低的方差。为了进一步验证其有效性，我们使用三个数据集对私有嵌入和下游任务进行了综合实验。值得注意的是，即使在高隐私制度下，我们的方法与非私有场景相比，效用仅略有下降。

发布时间: 10/11/2024

查看原文

利用原子-分子量子性质对图Transformer进行预训练，以改进ADMET模型

作者: Alessio Fallani, Ramil Nugmanov, Jose Arjona-Medina, J\"org Kurt Wegner, Alexandre Tkatchenko, Kostiantyn Chernichenko

我们评估了预训练图 Transformer 架构对原子级量子力学特征的影响，用于模拟药物样化合物的吸收、分布、代谢、排泄和毒性（ADMET）特性。我们将此预训练策略与其他两种策略进行比较：一种基于分子量子特性（特别是 HOMO-LUMO 间隙），另一种使用自监督原子掩蔽技术。在对治疗数据公共 ADMET 数据集进行微调后，我们评估了不同模型的性能改进，观察到使用原子量子力学特性预训练的模型通常会产生更好的结果。然后，我们分析了潜在表示，并观察到监督策略在微调后保留了预训练信息，并且不同的预训练在各层的潜在表达能力方面产生了不同的趋势。此外，我们发现使用原子量子力学特性预训练的模型通过注意力权重捕获了输入图的更多低频拉普拉斯特征模态，并产生了更好的分子内原子环境表示。将分析应用于更大的非公开微粒体清除数据集，说明了所研究指标的通用性。在这种情况下，模型的性能与表示分析一致，并突出显示，尤其是对于掩蔽预训练和原子级量子特性预训练，具有相似公共基准性能的模型类型在大型制药数据上的性能可能会有所不同。

发布时间: 10/11/2024

查看原文