arXiv 论文列表

作者: Anh Tong, Thanh Nguyen-Tang, Dongeun Lee, Duc Nguyen, Toan Tran, David Hall, Cheongwoong Kang, Jaesik Choi

arXiv:2503.01329v2 宣告类型: replace-cross 摘要：基于变换器架构的大语言模型（LLMs）的近期进展引发了对其内部工作机制的理解兴趣。在本文中，我们引入了一种使用高度灵活的非自主神经常微分方程（ODEs）来建模变换器架构的新方法。我们提出的模型通过神经网络参数化所有注意力和前馈块的权重，将这些权重表示为连续层索引的函数。通过对模型动力学的谱分析，我们揭示了特征值模量的增加，这挑战了现有理论研究中广泛存在的权重共享假设。我们还利用李雅普unov指数来检查token级别的敏感性，从而增强模型的可解释性。我们的神经ODE变换器在各种配置和数据集上的性能与或优于vanilla变换器，同时提供了灵活的可微调能力，可以适应不同的架构约束。

发布时间: 4/17/2025

查看原文

Lotus 在 SemEval-2025 任务 11：使用 Llama-3 生成的解释进行多标签情绪分类的 RoBERTa 方法

作者: Niloofar Ranjbar, Hamed Baghbani

arXiv:2502.19935v3 宣布类型: replace-cross 摘要：本文提出了一种新型的多标签情绪检测方法，其中使用Llama-3生成解释性内容，以澄清模糊的情绪表达，从而提高RoBERTa的情绪分类性能。通过纳入解释性上下文，我们的方法提高了F1分数，尤其是在恐惧、喜悦和悲伤等情绪方面，并优于仅基于文本的模型。添加解释性内容有助于解决模糊性，应对情绪线索重叠等挑战，并提高多标签分类，标志着情绪检测任务中的显著进步。

发布时间: 4/17/2025

查看原文

是的，Q-learning 有助于offline-in-context RL

作者: Denis Tarasov, Alexander Nikulin, Ilya Zisman, Albina Klepach, Andrei Polubarov, Nikita Lyubaykin, Alexander Derevyagin, Igor Kiselev, Vladislav Kurenkov

arXiv:2502.17666v2 传达类型: 替换-跨域摘要: 在这项工作中，我们探讨了在可扩展的离线情境化强化学习(Offline In-Context RL, ICRL)框架中整合强化学习(Reinforcement Learning, RL)方法的可能性。通过在超过150个源自GridWorld和MuJoCo环境的数据集中进行实验，我们展示了优化RL目标在各种数据集覆盖率、结构、专业知识水平和环境复杂性背景下，相比广泛认可的算法蒸馏(Algorithm Distillation, AD)基线方法，平均改善了约40%的性能。我们的结果还揭示出基于离线下强化学习的方法在各种情况下都优于在线方法，这些在线方法并非特别针对离线场景进行设计。这些发现强调了将学习目标与RL最大化奖励的目标对齐的重要性，并证明离线下强化学习在ICRL设置中是一个有前途的方向。

发布时间: 4/17/2025

查看原文

自动输入重写提高大语言模型的翻译效果

作者: Dayeon Ki, Marine Carpuat

arXiv:2502.16682v2 通告类型: replace-cross 摘要: 我们能否通过自动重写输入来利用大语言模型（LLM）来改进机器翻译（MT）？用户通常认为，对于现成的MT系统来说，写得好的文本更容易翻译。虽然LLM能够以多种方式进行文本重写，但在MT的背景下，这些能力主要被用来通过后续编辑来重写输出。我们报告了一项关于使用3种开源权重的LLM将英语翻译成6种目标语言的21种输入重写方法的实证研究。我们表明，文本简化是最重要的通用MT重写策略，并且在使用质量评估来评估可翻译性时，它可以得到进一步改进。进一步的人类评估表明，简化的重写以及它们的MT输出都几乎保留了源文本和MT的原始意义。这些结果表明，使用LLM辅助的输入重写是提高翻译质量的一种有前途的方向。

发布时间: 4/17/2025

查看原文

BioMaze：评估与增强用于生物途径推理的大语言模型

作者: Haiteng Zhao, Chang Ma, Fangzhi Xu, Lingpeng Kong, Zhi-Hong Deng

arXiv:2502.16660v4 宣传类型：替换交叉摘要：近年来，大规模语言模型（LLMs）在各种生物领域的应用得到了探索，但它们在复杂生物系统中的推理能力，如通路系统的推理能力，仍然很少被探索，这对于预测生物现象、提出假设和设计实验至关重要。本研究探讨了LLMs在通路推理方面的潜力。我们介绍了BioMaze数据集，包含来自真实研究的5100个复杂通路问题，涵盖了各种生物背景，包括自然动态变化、干扰、额外的干预条件以及多尺度研究目标。对CoT和图增强推理等方法的评估表明，LLMs在通路推理方面面临挑战，尤其是在受扰动的系统中。为解决这一问题，我们提出了一种名为PathSeeker的LLM代理模型，通过基于子图的交互式导航增强推理，能够更有效地处理生物系统中的复杂性，实现科学对齐的方法。数据集和代码可在https://github.com/zhao-ht/BioMaze获取。

发布时间: 4/17/2025

查看原文

MomentSeeker：长视频中关键moment检索的综合基准和强基线

作者: Huaying Yuan, Jian Ni, Yueze Wang, Junjie Zhou, Zhengyang Liang, Zheng Liu, Zhao Cao, Zhicheng Dou, Ji-Rong Wen

arXiv:2502.12558v3 宣布类型: replace-cross 摘要：检索增强生成（RAG）在解决长视频理解相关挑战方面展现了巨大的潜力。这些方法可以从长视频中检索有用的关键时刻来完成其呈现的任务，从而使多模态大型语言模型（MLLMs）能够在经济有效的前提下生成高质量的答案。在这项工作中，我们提出了一个名为 MomentSeeker 的综合基准，用于评估检索模型在处理通用长视频时刻检索（LVMR）任务方面的能力。MomentSeeker 提供了三项关键优势。首先，它包含了平均时长超过 500 秒的长视频，使其成为首个专门针对长视频时刻检索的基准。其次，它涵盖了广泛的任务类别（包括时刻搜索、字幕对齐、图像条件下的时刻搜索和视频条件下的时刻搜索）以及多样的应用场景（如体育、电影、动画和第一人称视角），使其成为一个全面的工具，用于评估检索模型的通用 LVMR 表现。此外，评估任务是通过人工注释精心挑选的，确保了评估的可靠性。我们进一步在合成数据上微调了一个基于 MLLM 的 LVMR 检索器，其在我们的基准上显示出了强大的性能。我们使用基于我们基准的多种流行的多模态检索器进行了广泛的实验，结果突显了 LVMR 的挑战以及现存方法的局限性。我们创建的资源将与社区共享，以促进这一领域的未来研究。

发布时间: 4/17/2025

查看原文

解锁函数向量的潜力以-characterize and mitigate catastrophic forgetting in continual instruction tuning

作者: Gangwei Jiang, Caigao Jiang, Zhaoyi Li, Siqiao Xue, Jun Zhou, Linqi Song, Defu Lian, Ying Wei

arXiv:2502.11019v2 宣告类型: replace-cross 摘要: 持续学习中的灾难性遗忘(CF)对机器学习构成了重大挑战，模型在学习新任务时会忘记之前学到的信息。尽管大型语言模型(LLMs)具有先进的能力，但在持续学习过程中，它们仍然面临着CF的挑战。目前大多数现有研究都集中在通过单一训练序列来分析遗忘模式，从而忽视了不同任务对模型行为的复杂影响。我们的研究探讨了CF在各种场景中的影响，发现模型的遗忘受到特定训练任务和模型本身的双重影响。为此，我们通过分析函数矢量(FV)，即LLM中函数的紧凑表示，为CF的发生提供了一个依赖模型的指标。通过理论和实证分析，我们证明了LLMs中的CF主要源于功能激活的偏差，而不是任务处理功能的覆盖。利用这些见解，我们提出了一种新的函数矢量指导训练方法，引入正则化技术以稳定FV并减轻遗忘。在四个基准测试上的实验证明了我们提出的训练方法的有效性，支持了我们关于CF和模型功能动态的理论框架。我们计划在未来不久提供我们的代码。

发布时间: 4/17/2025

查看原文

RLSA-PFL：具有模型不一致性检测的鲁棒轻量级安全聚合在隐私保护联邦学习中的应用

作者: Nazatul H. Sultan, Yan Bo, Yansong Gao, Seyit Camtepe, Arash Mahboubi, Hang Thanh Bui, Aufeef Chauhan, Hamed Aboutorab, Michael Bewong, Dineshkumar Singh, Praveen Gauravaram, Rafiqul Islam, Sharif Abuadbba

arXiv:2502.08989v2 公告类型: 替换-交叉摘要： federated learning (联邦学习)允许用户通过共享本地模型而非暴露其私人数据的方式，协同训练一个全局机器学习模型。这种分布式学习特别适用于数据隐私至关重要的场景，并且受到了行业和学术界的广泛关注。然而，研究表明联邦学习存在隐私漏洞，对手可以从共享的模型参数中推断出敏感信息。在本文中，我们提出了一种基于掩码的安全聚合方案，利用轻量级密码原语来缓解隐私风险。与现有方法相比，我们的方案具有以下几个优势。首先，它只需要一个设置阶段即可完成整个联邦学习训练会话，显著减少了通信开销。其次，通过使用中间服务器层和轻量级密钥协商方法，减少了用户侧的开销，无需用户之间的交互。第三，该方案对用户掉线具有高度鲁棒性，用户可以在任何联邦学习轮次中加入。第四，它可以检测并防御恶意服务器活动，包括最近发现的模型不一致性攻击。最后，我们的方案在半诚实行为和恶意行为的情境下均能保证安全性。我们提供了安全分析，以正式证明该方法的鲁棒性。此外，我们实现了一个端到端的该方案原型。我们进行了全面的实验和比较，结果表明该方案在通信和计算开销、功能和安全性方面优于现有解决方案。

发布时间: 4/17/2025

查看原文

用大型语言模型转变科学：AI辅助科学发现、实验、内容生成和评估综述

作者: Steffen Eger, Yong Cao, Jennifer D'Souza, Andreas Geiger, Christian Greisinger, Stephanie Gross, Yufang Hou, Brigitte Krenn, Anne Lauscher, Yizhi Li, Chenghua Lin, Nafise Sadat Moosavi, Wei Zhao, Tristan Miller

arXiv:2502.05151v2 通知类型: 替换交叉摘要：随着大型多模态语言模型的出现，科学正处于基于AI的技术转型的门槛上。最近，提出了一系列新的AI模型和工具，承诺能够使全球的研究人员和学术界成员更有效地、更高效地开展研究。这包括研究周期的所有方面，尤其是在以下几个方面的内容：(1) 搜索相关文献；(2) 生成研究思路并开展实验；生成(3) 文本和(4) 多模态内容（例如，科学图形和图表）；以及(5) 基于AI的自动同行评审。在这项综述中，我们对这些令人兴奋的最新发展进行了深入的概述，这些发展有望从根本上改变科学研究过程。我们的综述涵盖了上述五个方面，指出了与这些工具相关的数据集、方法、结果（包括评估）及其局限性和未来的研究范围。关于这些工具的不足之处所引发的伦理问题和潜在滥用风险（虚假科学、剽窃、研究成果诚信受损）在我们的讨论中占据了特别突出的地位。我们希望我们的综述不仅能成为该领域的新人参考指南，还能成为推动“AI4Science”领域新AI项目的催化剂。

发布时间: 4/17/2025

查看原文

将评分视为行动：通过连续时间强化学习微调生成扩散模型

作者: Hanyang Zhao, Haoxian Chen, Ji Zhang, David D. Yao, Wenpin Tang

arXiv:2502.01819v2 宣告类型: replace-cross 摘要：从人类反馈中进行强化学习（RLHF），将扩散模型与输入提示相结合，已成为构建可靠生成型AI模型的关键步骤。该领域中的大多数研究工作采用离散时间形式，容易产生误差，且通常不适用于具有高级/黑盒求解器的模型。本研究的目标是通过连续时间RL开发一种严谨的方法来微调扩散模型，将其形式化为一个随机会话控制问题，奖励函数使最终结果（终端状态）与输入提示相匹配。核心思想是将评分匹配视为控制或动作，从而将连续时间RL中的政策优化和正则化联系起来。为了实现这一思想，我们提出了一种新的连续时间RL的政策优化框架，并通过利用扩散模型的结构特性来增强价值网络的设计空间。通过在Stable Diffusion v1.5的大规模Text2Image模型微调下游任务中的实验来验证我们方法的优势。

发布时间: 4/17/2025

查看原文