LLM2D

arXiv 论文列表

arXiv:2502.04315v2 宣告类型: replace-cross 摘要:最近在大规模语言模型(LLMs)方面的进展已经在多种任务上显示出了卓越的表现。然而,这些模型通常以固定权重的形式部署,这限制了它们在推理时动态适应真实世界数据中固有的变异性的能力。本文引入了ChamaleonLLM,这是一种新颖的框架,通过利用批处理感知聚类和实时生成低秩更新来实现LLM的推理时自适应。与传统的细调方法(如LoRA,或依赖于固定集合的先验学习统一(可变掩码)的方法)不同,我们的方法基于聚类批次的聚合统计数据,动态生成适应性修改到解码器权重。通过智能地对相似输入进行分组,并通过超网络计算上下文感知的低秩更新,ChamaleonLLM 实现了显著的性能提升,超越了传统的 LoRA 方法,同时避免了维护多个专家模型的开销。我们的实验强调了我们方法的潜力,可以作为一种灵活且高度适应的解决方案,用于语言模型的推理。ChamaleonLLM 已开源以确保我们的实验可再现:https://anonymous.4open.science/r/ChamaleonLLM/
发布时间: 2/11/2025
查看原文
作者: Yixin Liu, Lie Lu, Jihui Jin, Lichao Sun, Andrea Fanelli
arXiv:2502.04230v2 报告类型: 替换交叉 摘要:生成音频合成和编辑技术的快速普及引发了关于版权侵权、数据来源和深度假音传播的严重关切。水印提供了一种前瞻性的解决方案,通过将不可察觉、可识别且可追溯的标记嵌入音频内容中。虽然最近基于神经网络的水印方法如WavMark和AudioSeal提高了稳健性和质量,但它们在同一时间难以同时实现稳健检测和准确归属。本文介绍了跨注意力稳健音频水印(XAttnMark),该方法通过在生成器和检测器之间利用部分参数共享、高效的交叉注意力机制以便于信息检索以及时间条件模块以提高信息分布,来弥合这一差距。此外,我们提出了一种与听力掩蔽效应对齐的时间-频率掩蔽损失,增强了水印的不可察觉性。我们的方法在检测和归属方面都达到了最先进的性能,展示了在广泛音频变换下的出色稳健性,包括具有强大编辑强度的挑战性生成编辑。项目网页可以在 https://liuyixin-louis.github.io/xattnmark/ 上获取。
发布时间: 2/11/2025
查看原文
作者: YoonJe Kang, Yonghoon Jung, Wonseop Shin, Bumsoo Kim, Sanghyun Seo
arXiv:2502.03966v2 通告类型: replace-cross 摘要:在本文中,我们提出了一种用于洪水灾害检测系统的合成数据生成框架。为了实现高保真度和高质量,我们将多种现实世界的属性引入虚拟世界,并通过控制这些属性来模拟洪水情况。为了提高效率,我们利用了最近的图像到3D和城市合成生成模型,以方便地组合洪水环境,从而避免因手工制作方式导致的数据偏差。基于我们的框架,我们构建了包含5个级别的洪水合成数据集,称之为MultiFloodSynth,该数据集包含了多种下游任务所需的丰富标注类型,如法线图、分割、3D边界框。在实验中,我们的数据集在现实数据集同等的真实度下,展示了增强的洪水灾害检测性能。
发布时间: 2/11/2025
查看原文
作者: Lei Zhao, Linfeng Feng, Dongxu Ge, Fangqiu Yi, Chi Zhang, Xiao-Lei Zhang, Xuelong Li
arXiv:2502.03897v2 通知类型: replace-cross 摘要:作为一种自然的多模态内容,可听视频提供了沉浸式的感官体验。因此,音视频生成系统具有巨大的潜力。然而,现有的基于扩散的方法主要采用了相对独立的模块来生成每种模态,缺乏对共享权重生成模块的探索。这种做法可能会低估了音频和视觉模态之间的固有相关性,可能导致生成质量欠佳。为了解决这一问题,我们提出了 UniForm,这是一个统一的扩散变压器,旨在增强跨模态一致性。通过串联音频和视觉信息,UniForm 在统一的潜在空间中学习同时生成音频和视频,从而促进高质量且井然有序的音频-视觉配对的创建。广泛的实验证明了我们的方法在联合音视频生成、音频指导视频生成和视频指导音频生成任务中的优越性能。我们的演示可以在 https://uniform-t2av.github.io/ 查看。
发布时间: 2/11/2025
查看原文
arXiv:2502.03793v2 宣布类型: replace-cross 摘要: 尽管如 BERT 和 ModernBERT 这样的编码器-only 模型在现实世界的 NLP 应用中无处不在,但它们传统的依赖于任务特定的分类头的方法在适用性上可能不及基于解码器的大语言模型(LLMs)。本文中,我们介绍了 ModernBERT-Large-Instruct,一个具有 0.4B 参数的编码器模型,它利用其遮蔽语言建模(MLM)头进行生成性分类。我们的方法采用了一种故意简单化的训练循环和推理机制,无需进行大量预处理、高度工程化的提示或架构修改。ModernBERT-Large-Instruct 在分类和知识型任务上的零样本性能表现强劲,与同样大小的 LLMs 相比,在 MMLU 上取得了超越,并且仅使用 60% 参数就达到了 Llama3-1B 在 MMLU 上 93% 的性能。我们还展示了,在进行微调时,使用 MLM 头的生成性方法在各种 NLU 任务上的表现与传统任务特定头方法相当甚至更优。这种能力在以现代、多样化数据集进行训练的模型中尤为明显,而在较低数据量、较不多样化的数据集中训练的模型则表现较差。尽管这些结果还处于初步阶段,但它们表明使用原始生成性遮蔽语言建模头而非传统任务特定头进行下游任务的潜在性。本文的工作表明,在该领域的进一步探索是值得的,并指出了许多未来改进的途径。
发布时间: 2/11/2025
查看原文
作者: Ryan Rabinowitz, Steve Cruz, Manuel G\"unther, Terrance E. Boult
arXiv:2502.03359v2 公告类型: replace-cross 摘要:大规模识别方法的评估通常侧重于整体性能。虽然这种方法很常见,但它往往无法提供对各个类别的性能 insight,这可能导致公平性问题和误代表性。解决这些差距对于准确评估方法在处理新型或未见过的类别时的效果以及确保公平评估至关重要。为了解决开集识别(OSR)中的公平性问题,我们展示了类别间性能可以有显著差异。我们引入了一种称为高斯假设开集技术(GHOST)的新颖无超参数算法,该算法使用具有对角协方差矩阵的类别内多元高斯分布来建模深层特征。我们对logits应用Z分数归一化,以减轻特征幅度偏离模型预期的影响,从而减少网络将高分分配给未知样本的可能性。我们在多个预训练的ImageNet-1K 深度网络上评估了GHOST,并用四个不同的未知数据集对其进行测试。通过使用标准指标如AUOSCR、AUC和FPR95,我们在大规模OSR领域取得了统计显著的改进。提供了在线源代码。
发布时间: 2/11/2025
查看原文
作者: Evan Chen, Jianing Zhang, Shiqiang Wang, Chaoyue Liu, Christopher Brinton
arXiv:2502.02727v2 宣布类型:替换交叉 摘要:在联邦学习(FL)中,模型训练性能受到客户端间数据异质性的影响较大。梯度跟踪(GT)最近作为一种解决方案出现,通过在局部模型更新中引入校正项来缓解这个问题。截至目前,GT仅在基于随机梯度下降(SGD)的方法中被考虑,而现代FL框架越来越多地采用自适应优化器以提高收敛速度。本文将GT框架推广到更具灵活性的参数跟踪(PT)范式中,并提出两个基于Adam的FL中的新型自适应优化算法{\tt FAdamET}和{\tt FAdamGT},将PT融入其中。我们在非凸设置下对这些算法进行了严谨的收敛性分析。实验证明,当评估总通信成本和总计算成本时,这两种提出的算法在不同水平的数据异质性下始终优于现有方法,展示了在联邦自适应优化中修正一阶信息的有效性。
发布时间: 2/11/2025
查看原文
arXiv:2502.02456v3 宣告类型: replace-cross 摘要:教学设计师面临着众多设计选择,这使得识别最有效的干预措施变得具有挑战性。为了解决这一问题,我提出了一种模型人类学习者(Model Human Learner)的概念,这是一种统一的计算学习模型,可以帮助设计师评估候选的干预措施。本文首次成功展示了这一概念,证明了一个计算模型可以准确预测两项人类A/B实验的结果——一个是测试问题排序干预措施的实验,另一个是测试项目设计干预措施的实验。它还展示了此类模型可以在不使用人类数据的情况下生成学习曲线,并提供有关为什么某种教学干预措施有效的理论见解。这些发现为未来将认知与学习理论整合于一体的模型人类学习者奠定了基础,以便在多种任务和干预措施中支持教学设计。
发布时间: 2/11/2025
查看原文
作者: Haoran Ye, Tianze Zhang, Yuhang Xie, Liyuan Zhang, Yuanyi Ren, Xin Zhang, Guojie Song
arXiv:2502.02444v2 宣告类型: replace-cross 摘要:价值观是个体和集体感知、认知和行为的核心驱动力。价值观体系,如Schwartz的基本人类价值观理论,界定了这些价值观之间的层级和互动关系,使跨学科研究决策和社会动态成为可能。最近,大型语言模型(LLMs)的发展引发了对其难以捉摸的内在价值观的担忧。尽管在评估、理解和对齐LLM价值观方面已经做出了越来越多的努力,但基于心理机制的LLM价值观体系仍然处于探索不足的状态。本研究通过引入生成性心理词汇方法(GPLA),解决这一缺口,该方法是一种可扩展、可适应且基于理论的方法,用于构建价值观体系。利用GPLA,我们提出了一种针对LLM的基于心理机制的五因素价值观体系。为了系统验证,我们提出了三个基准任务,将心理学原理与前沿的人工智能优先事项相结合。研究结果表明,所提出的价值观体系符合标准的心理学标准,更好地捕捉了LLM的价值观,提高了LLM安全性预测,并增强了LLM对齐性,与经典的Schwartz价值观相比。
发布时间: 2/11/2025
查看原文
作者: Wenhao Zheng, Yixiao Chen, Weitong Zhang, Souvik Kundu, Yun Li, Zhengzhong Liu, Eric P. Xing, Hongyi Wang, Huaxiu Yao
arXiv:2502.01976v3 宣告类型: 补充-交叉 摘要:大规模语言模型在各种任务中取得了显著的成果,但在推理过程中面临高昂的计算成本问题,限制了它们在资源受限应用中的部署。为了解决这个问题,我们提出了一个名为 CITER(Collaborative Inference with Token-level Routing)的新颖框架,通过标记级别路由策略实现了小规模和大规模语言模型(SLMs & LLMs)之间的高效协作。具体来说,CITER 将非关键标记路由到 SLM 以提高效率,将关键标记路由到 LLM 以保证生成的质量。我们将路由器的训练形式化为策略优化过程,路由器根据预测的质量和生成的推理成本接收奖励。这使得路由器能够学习预测标记级别的路由得分,并根据当前标记及其决策未来影响来进行路由决策。为了进一步加速奖励评估过程,我们引入了一种捷径,显著降低了奖励估计的成本,从而使我们的方法更具实用性。在五个基准数据集上的广泛实验表明,CITER 在保持高质量生成的同时减少了推理成本,为实时和资源受限应用提供了一个有前景的解决方案。我们的数据和代码可在 https://github.com/aiming-lab/CITE mañana获取。
发布时间: 2/11/2025
查看原文