arXiv:2504.10925v2 临时类型: 替换-交叉
摘要:图上的链接预测应用范围从推荐系统到药物发现。时间链接预测(TLP)指的是预测动态演变图中的未来链接,并且增加了与图的动态性质相关的额外复杂性。最先进的TLP模型在图神经网络中引入了记忆模块,以学习传入节点的时间机制以及图拓扑的演变。然而,记忆模块仅存储在训练时见过的节点信息,因此这样的模型无法直接在测试时间及部署时应用于全新的图上。在本文中,我们研究了一种新的TLP转移学习任务,并开发了适用于内存负载模型的转移有效方法。具体而言,受结构信号对TLP任务信息性的研究工作的启发,我们在现有的TLP模型架构中增加了一个结构映射模块,该模块从图结构(拓扑)特征到内存嵌入学习一种映射。我们的工作为TLP铺平了一条无记忆基础模型的道路。
arXiv:2504.10735v2 宣告类型: replace-cross
摘要:随着模型规模的增长,找到高效且成本效益高的超参数优化(HPO)方法对于深度学习管道来说变得越来越关键。虽然多保真超参数优化(MF-HPO)在降低DL训练所需的计算资源的同时,提供了较低保真度的估计,但现有的保真度来源在低计算能力和内存约束下常常会失效。我们提出了一种新的保真度来源:在训练过程中训练或冻结的网络层的数量。对于深层网络,这种方法提供了显著的计算和内存节省,同时在低保真度情况下,保留了与完整模型训练相比的超参数之间的秩相关性。我们通过在ResNets和Transformers上的实证评估展示了这一点,并进一步分析了冻结层作为保真度在使用GPU资源作为HPO保真度以及与其他保真度来源结合的MF-HPO中的作用。这一贡献为基于硬件资源作为保真度的MF-HPO开辟了新的应用场景,并为导航联合保真度空间的改进算法创造了机会。
arXiv:2504.09876v2 宣告类型: replace-cross
摘要:经阴道超声是评估宫颈解剖结构和检测生理变化的关键成像技术。然而,由于对比度低、阴影伪影和边界不清晰,宫颈结构的准确分割仍然具有挑战性。虽然卷积神经网络(CNN)在医学图像分割方面已经展示了有效性,但在临床超声成像中依赖大规模注释数据集是一个重大限制。半监督学习(SSL)通过利用未标记数据提供了一种潜在的解决方案,但现有的教师-学生框架经常遇到确认偏见和高计算成本的问题。在这篇论文中,提出了一种新的半监督分割框架,称为HDC,该框架结合了具有单教师架构的自适应一致性学习。该框架引入了一种分层蒸馏机制,有两个目标:相关指导损失用于对齐特征表示,互信息损失用于稳定学生网络的学习。所提出的方法在降低模型复杂性的同时增强了泛化能力。实验在胎超声数据集FUGC和PSFH上表明,该方法与多教师模型相比,在计算开销减少的同时具有竞争性性能。
arXiv:2504.09081v2 宣告类型: replace-cross
摘要:我们介绍了 SIFT(Speech Instruction Fine-Tuning),一个包含 50M 个示例的数据集,旨在用于语音-文本大型语言模型(LLMs)的指令微调和预训练。SIFT-50M 由公开可用的语音语料库构建而成,总计包含 14000 小时的语音,并利用了 LLM 以及现成的专家模型。该数据集涵盖了五种语言,囊括了广泛的语音理解以及可控的语音生成指令。使用 SIFT-50M,我们训练了 SIFT-LLM,该模型在指令跟随基准测试中优于现有语音-文本 LLM,在基础语音任务上也达到了竞争性的表现。为了支持进一步的研究,我们还引入了 EvalSIFT,一个专门用于评估语音-文本 LLM 指令跟随能力的基准数据集。
arXiv:2504.07717v2 通报类型: replace-cross
摘要:大规模语言模型(LLMs)在广泛的应用领域中展示了卓越的性能,例如医疗问答、数学科学和代码生成。然而,它们也表现出固有的局限性,如知识陈旧和幻觉的易感性。检索增强生成(RAG)作为一种解决这些问题的有希望的方法已经出现,但它也引入了新的脆弱性。最近的努力集中在RAG基础的大规模语言模型的安全性上,但现有的攻击方法面临着三个关键挑战:(1)当仅能注入少量中毒文本到知识数据库时,它们的有效性急剧下降;(2)它们缺乏足够的隐蔽性,因为许多攻击往往会被异常检测系统检测到,这会削弱它们的有效性;(3)它们依赖于基于启发式的生成方式来生成中毒文本,缺乏正式的优化框架和理论保证,这限制了它们的有效性和适用性。为了解决这些问题,我们提出了一种协调的Prompt-RAG攻击(PR-攻击),这是一种基于优化的攻击方法,可以在知识数据库中注入少量的中毒文本,同时在提示中嵌入一个后门触发器。当触发器被激活时,它会导致LLM生成预设计的响应以应对目标查询,而在其他语境中保持正常行为。这确保了攻击的高度有效性和隐蔽性。我们利用一个合理的优化框架将攻击生成过程建模为一个多层优化问题,以开发最优的中毒文本和触发器。在多种语言模型和数据集上的广泛实验表明,PR-攻击的有效性,即使在少量中毒文本的情况下也能实现高攻击成功率,并且比现有方法显著提高了隐蔽性。
arXiv:2504.06469v2 声明类型:替换-交叉
摘要:放射性重离子束可以使研究人员研究稀有和不稳定的原子核,从而深入了解奇异核的内部结构,并揭示化学元素在恒星中的形成过程。然而,放射性束的提取和运输依赖于耗时的专家驱动调整方法,需要手动优化数百个参数。在这里,我们介绍了一个利用人工智能(AI),特别是利用贝叶斯优化来协助放射性束运输过程的系统。我们将我们的方法应用于实际场景,与标准调整方法相比显示出优势。这种基于AI的辅助方法可以扩展到世界各地的其他放射性束设施,以提高运营效率并增强科学产出。
arXiv:2504.06235v2 宣告类型: replace-cross
摘要: federated learning (FL) 文献大多集中在本地数据集统计在训练时间和测试时间保持不变的情况。近期在领域泛化 (DG) 方面的进步旨在利用源 (训练) 领域的数据来训练一个在未见过的目标 (测试) 领域泛化表现良好的模型。在本文中,我们关注现有的 FL 和 DG 工作中的两个主要缺口:(1)缺乏对 DG 目标和训练过程的正式数学分析;(2)在 FL 中进行 DG 研究局限于传统的星型拓扑架构。为了填补第二个缺口,我们开发了《基于风格共享的去中心化联邦领域泛化》($\texttt{StyleDDG}$),这是一种完全去中心化的 DG 算法,旨在允许 peer-to-peer 网络中的设备通过分享从其数据集中推断出的风格信息来实现基于风格的领域泛化。此外,我们填补了第一个缺口,提供了首个系统的方法来对基于风格的 DG 训练优化进行数学分析。我们将现有的集中式 DG 算法纳入我们的框架,并使用它们的形式化方法来建模 $\texttt{StyleDDG}$。基于此,我们得到了在何种条件下可以实现 $\texttt{StyleDDG}$ 的次线性收敛速率的分析条件。通过在两个流行的 DG 数据集上的实验,我们证明了与不采用风格共享的去中心化梯度方法相比,$\texttt{StyleDDG}$ 在目标领域上可以实现显著的准确性改进,且通信开销仅略有增加。
arXiv:2504.05521v2 宣传类型: 替换交叉
摘要:动态套期保值是一种金融策略,包括定期交易一种或多种金融资产,以抵消与相关负债相关的风险。深度强化学习(DRL)算法通过将动态套期保值问题框架化为顺序决策问题,已被用于寻找最优解。然而,大多数先前的工作只评估了一种或两种DRL算法的表现,这使得算法之间的客观比较变得困难。在本文中,我们比较了八种DRL算法在动态套期保值领域的性能;蒙特卡洛策略梯度(MCPG)、近端策略优化(PPO),以及四种不同的深度Q学习(DQL)和两种不同的深度确定性策略梯度(DDPG)变体。其中两种变体是首次应用于动态套期保值任务。在我们的实验中,我们使用布莱克-斯科尔斯δ对冲作为基准,并使用GJR-GARCH(1,1)模型模拟数据集。结果显示,MCPG 接着是PPO,在根半抛物惩罚方面获得最佳性能。此外,MCPG 是唯一一种在赋予的计算预算范围内超越布莱克-斯科尔斯δ对冲基准算法的算法,这可能是由于我们环境中的奖励稀疏性所致。
arXiv:2504.02894v2 公告类型: 交叉替换
摘要:大规模语言模型(LLMs)已被广泛用于各种任务和应用。然而,LLMs和微调仅限于预训练数据。例如,ChatGPT直到2021年的世界知识可能已经过时或不准确。为了增强LLMs的能力,检索增强生成(RAG)被提出,旨在通过向LLMs添加额外的、新的、最新的细节和信息来增强其能力。虽然RAG提供了正确信息,但它可能无法以最佳方式呈现这些信息,特别是对于具有个性化需求的不同人群群体。通过人类反馈强化学习(RLHF)通过反馈循环将模型响应与人类偏好对齐,以适应用户需求。在现实世界的应用中,如心理健康问题,动态和基于反馈的模型会不断适应新信息,并在复杂因素在日常环境中波动时提供个性化帮助。因此,我们提出了一种基于在线强化学习的检索增强生成(OnRL-RAG)系统,用于检测和个性化响应系统,以应对心理健康问题,如压力、焦虑和抑郁症。我们使用2028年大学生开放源数据集,每个学生有28个调查问题,以展示我们提出系统与现有系统的性能。与标准RAG和简单的基于GPT-4o、GPT-4o-mini、Gemini-1.5和GPT-3.5的LLM相比,我们的系统表现出更优越的性能。这项工作将为日常环境中的个性化LLM服务的实际应用打开可能性。结果还将有助于社会学、心理学和神经科学领域的研究人员将他们的理论与实际的人类日常环境更加紧密地结合。
arXiv:2504.02792v2 宣告类型: replace-cross
摘要:模仿学习已成为构建通用型机器人的一种有前景的方法。然而,由于其依赖于高质量的专家演示,将模仿学习扩展到大型机器人基础模型仍然具有挑战性。与此同时,大量描绘广泛环境和多样行为的视频数据随时可用。这些数据为现实世界的动力学和代理-环境交互提供了丰富的信息来源。然而,直接利用这些数据进行模仿学习由于大多数现代方法缺乏所需的动作标注而证明是困难的。在本工作中,我们介绍了统一世界模型(Unified World Models, UWM),这是一种允许利用视频和动作数据进行策略学习的框架。具体而言,UWM 在统一的变换器架构中集成了动作扩散过程和视频扩散过程,其中各自模态的独立扩散时间步控制每个过程。通过简单地控制每个扩散时间步,UWM 可灵活地表示策略、前向动力学、逆动力学以及视频生成器。通过模拟和实际世界试验,我们展示:(1) UWM 能够有效预训练于包含动力学和动作预测的大规模多任务机器人数据集,从而产生比模仿学习更具泛化能力和鲁棒性的策略;(2) UWM 自然地促进了通过控制模态特定的扩散时间步从无动作视频数据中学习,进一步提高了微调策略的性能。我们的结果显示,UWM 提供了一种有前途的方法,通过利用大规模异质数据集实现可扩展的机器人学习,并提供了模仿学习和世界建模这两个通常不同的范式的简单统一。有关视频和代码可在 https://weirdlabuw.github.io/uwm/ 获取。