LLM2D

arXiv 论文列表

作者: Xiaoyu Xu, Minxin Du, Qingqing Ye, Haibo Hu
arXiv:2505.04416v1 通知类型: cross 摘要:在广泛语料库上训练的大规模语言模型(LLMs)有 Memorizing 敏感、受版权保护或有毒内容的风险。为了解决这个问题,我们提出了 OBLIVIATE,一个健壮的去学习框架,能够在不损害模型功效的情况下移除目标数据。该框架遵循一个结构化的流程:提取目标令牌、构建保留集和使用包含三个组成部分——蒙蔽、蒸馏和世界事实的定制损失函数进行微调。使用低秩适配器(LoRA),它确保了效率而不会牺牲去学习的质量。我们在多个数据集上进行了实验,包括哈利·波特系列、WMDP 和 TOFU,并使用了一组全面的度量标准:遗忘质量(新的文档级记忆评分)、模型功效和流畅性。结果表明其在抵抗成员推理攻击、最小化保留数据的影响以及在不同场景下保持健壮性方面的有效性。
发布时间: 5/8/2025
查看原文
arXiv:2505.04406v1 公告类型: cross 摘要: 大型语言模型展示了解决各种编程任务的能力,包括代码生成。通常,LLM 的性能是在包含几千行代码的小或中等大小上下文窗口的基准测试中衡量的。与此同时,在现实世界的软件项目中,代码库可以包含多达几百万行代码。本文通过为长上下文代码生成基准(YABLoCo)做出贡献,填补了这一空白。基准测试包含从四个大型代码库中选择的215个函数的测试集,每个代码库有数千个函数。数据集包含了函数的元数据、具有不同依赖层次的函数上下文、文档字符串、函数体以及每个代码库的调用图。本文介绍了贡献的三个关键方面。首先,基准测试旨在生成大型代码库中C++和C语言的函数体,这两种语言在之前的基准测试中没有涵盖。其次,基准测试包含从20万行到200万行代码的大型代码库。第三,我们提供了一个可扩展的评估管道来高效地计算目标指标,并提供一个生成代码的可视化分析工具。总体而言,这三个方面使得可以在C++和C语言的大代码库中评估代码生成。
发布时间: 5/8/2025
查看原文
作者: Yi Zhang, Nikolaos Farmakidis, Ioannis Roumpos, Miltiadis Moralis-Pegios, Apostolos Tsakyridis, June Sang Lee, Bowei Dong, Yuhan He, Samarth Aggarwal, Nikolaos Pleros, Harish Bhaskaran
arXiv:2505.04405v1 Announce Type: 左右 摘要:光学系统对于能效计算至关重要,能够在低损耗载体上进行高速并行操作。尽管这些主要采用模拟光学加速器的光学系统绕过了数字化处理,直接执行并行浮点运算,但将光学硬件扩展到为AI任务映射大向量尺寸仍然具有挑战性。在这里,我们通过在时间上展开标量操作并引入路径中的光子加热单元(PHIL)以克服这一限制,实现全光学时域集成。令人意外的是,我们利用缓慢的热耗散过程来整合50 GHz调制的光学信号,从而弥合热光学效应和超快光子学之间的速度差距。该架构支持端到端的光学信号处理,消除了无效的电光转换,并在统一框架内实现线性和非线性操作。我们的结果展示了通过热驱动整合实现高速光子计算的可扩展途径。
发布时间: 5/8/2025
查看原文
作者: Jiaqi Zhu, Shaofeng Cai, Yanyan Shen, Gang Chen, Fang Deng, Beng Chin Ooi
arXiv:2505.04404v1 类型: cross 摘要:机器学习在数据库操作方面,如查询优化和数据库内的数据分析中展示了变革性的潜力。然而,由频繁更新和数据分布演变特征定义的动态数据库环境引入了概念漂移,这导致学习模型的性能下降,并限制了它们的实际应用。解决这一挑战需要能够高效适应不断变化的概念同时将重新训练或微调的开销降至最低的框架。 在本文中,我们提出了FLAIR,一种在线适应框架,引入了一种新的范式——即席适应(in-context adaptation),用于学习的数据库操作。FLAIR利用数据系统的一个固有属性,即预测立即可用的执行结果,以实现动态上下文构建。通过将适应形式化为$f:(\mathbf{x} \,| \,\mathcal{C}_t) \to \mathbf{y}$,其中$\mathcal{C}_t$表示动态上下文记忆,FLAIR提供了与当前概念相一致的预测,消除了在运行时进行参数优化的需要。为了实现这一点,FLAIR集成了两个关键模块:任务特征化模块,用于将特定任务的特征编码为标准化表示,以及在贝叶斯元训练下预训练的动态决策引擎,该引擎可利用运行时上下文信息无缝适应。在关键数据库任务上的广泛实验表明,FLAIR优于最先进的基准模型,实现了高达5.2倍的更快适应速度,并将基数估计中的错误减少了22.5%。
发布时间: 5/8/2025
查看原文
作者: Ziyuan Li, Uwe Jaekel, Babette Dellen
arXiv:2505.04397v1 类别:交叉学科 摘要:我们提出了一种深度产品单元残差神经网络(PURe),将产品单元整合到残差块中,以提高深度卷积网络的表达能力和参数效率。与标准求和神经元不同,产品单元能够实现乘法特征交互,有可能提供更强大的复杂模式表示。PURe在每个残差块的第二层用二维产品单元取代了传统的卷积层,从而保留了结构信息而不使用非线性激活函数。我们在三个基准数据集上验证了PURe。在Galaxy10 DECaLS上,PURe34达到了84.89%的最高测试准确率,超过了更深的ResNet152,同时收敛速度快了近五倍,并且对泊松噪声表现出很强的鲁棒性。在ImageNet上,与类似深度的ResNet模型相比,PURe架构表现出更优的效果,PURe34实现了第一精度80.27%和第五精度95.78%,尽管使用了更少的参数和计算资源,还超过了更深的ResNet变体(ResNet50, ResNet101)。在CIFAR-10上,无论深度如何,PURe都优于ResNet变体,PURe272达到了95.01%的测试准确率,与ResNet1001相当,但模型大小却小了一半。这些结果表明,PURe在准确率、效率和鲁棒性之间实现了良好的平衡。与传统的残差网络相比,PURe不仅在收敛速度更快和参数更少的情况下实现了竞争力的分类性能,还对噪声表现出更强的鲁棒性。其在不同数据集上的有效性突显了基于产品单元架构在计算机视觉中实现可扩展和可靠深度学习的潜力。
发布时间: 5/8/2025
查看原文
作者: Dario Garcia-Gasulla, Jordi Bayarri-Planas, Ashwin Kumar Gururajan, Enrique Lopez-Cuena, Adrian Tormos, Daniel Hinjos, Pablo Bernabeu-Perez, Anna Arias-Duart, Pablo Agustin Martin-Torres, Marta Gonzalez-Mallo, Sergio Alvarez-Napagao, Eduard Ayguad\'e-Parra, Ulises Cort\'es
arXiv:2505.04388v1 宣告类型: 横跨多个领域 摘要:目的:随着大型语言模型(LLMs)在医疗保健领域的进步,出现了需要竞争性的开源模型以保护公共利益的需求。这项工作通过优化数据预处理和训练的关键阶段,以及展示了通过DPO提高模型安全性并通过RAG提高有效性的方法,对开放医学LLMs领域做出了贡献。所采用的评估方法包括四种不同类型的测试,从而为该领域奠定了新的标准。这些模型被证明与最佳的私营替代品相竞争,并以宽松的许可协议发布。 方法:基于强大的基础模型如Llama 3.1和Qwen 2.5,Aloe Beta使用一个自定义的数据集提高公共数据与合成的推理链示例的结合。这些模型通过直接偏好优化进行了对齐,强调在存在破解攻击时的伦理和政策一致性表现。评估包括闭合式评估、开放式评估、安全性评估和人类评估,以最大化结果的可靠性。 结果:基于Aloe家族的稳定性能,提出了整个工作流程的建议。这些模型在各类医疗保健基准测试和医疗领域中提供竞争力的性能,并经常受到医疗保健专业人士的青睐。在偏见和毒性方面,Aloe Beta模型显著提高了安全性,显示了对未见过的破解攻击的韧性。为了负责任地发布,附上了针对医疗保健的详细风险评估,作为Aloe家族模型的一部分。 结论:Aloe Beta模型及其生成方法是对开放源代码医学LLM领域的重大贡献,它们提供顶级性能同时满足高标准的伦理要求。这项工作为医疗领域的开发和报告对齐LLM设立了新的标准。
发布时间: 5/8/2025
查看原文
arXiv:2505.04379v1 宣告类型: cross 摘要: 交通系统长期以来一直受到复杂性和异质性的影响,这由代理行为与交通结果之间的相互依赖性驱动。在这样的系统中部署自动驾驶车辆(AV)引入了一个新的挑战:在安全、互动质量和交通性能之间达成共识。在这项工作中,我们将共识定位为交通系统的根本属性,并力求量化它。我们使用第三代模拟(TGSIM)数据集中的高分辨率轨迹数据,实证分析信号控制的城市交叉口以及弱势道路使用者(VRUs)附近的自动驾驶车辆(AV)和人工驾驶车辆(HDV)的行为。关键指标包括碰撞时间(TTC)、入侵后时间(PET)、减速模式、车距和串行稳定性,这些指标在三个性能维度上进行了评估。结果显示,在安全、互动和性能三个方面完全达成共识的情况很少,只有1.63%的AV-VRU互动帧满足所有三个条件。这些发现强调了在混合交通环境中需要明确平衡多维性能的AV模型。我们通过开源代码库 https://github.com/wissamkontar/Consensus-AV-Analysis 提供了完整的可重现性支持。
发布时间: 5/8/2025
查看原文
arXiv:2505.04375v1 宣告类型:交叉 摘要:在ImageNet上微调预训练的卷积神经网络用于下游任务是众所周知的。然而,在类似场景下,特别是在标签噪声存在的情况下,视觉变压器的模型大小对其性能的影响仍然有待探索。鉴于变压器架构的实用性和灵活性,本研究探讨了在预算有限和标签噪声环境下这些架构的实际应用。我们研究了对称标签噪声在主动学习设置下如何影响分类准确性和校准情况,评估了四个视觉变压器配置(具有16x16和32x32像素块大小的Base和Large模型)和三个Swin Transformer配置(Tiny、Small和Base模型)在CIFAR10和CIFAR100数据集上的性能,不同的标签噪声率。我们的发现表明,在中等到高标签噪声水平下,较大的ViT模型(特别是ViTl32)在准确性和校准方面始终优于较小的模型,而Swin Transformer在所有噪声水平下表现出较弱的鲁棒性。我们发现,较小的像素块大小并不总是导致更好的性能,因为ViTl16在准确性和ViTl32相比方面表现更差,同时计算成本更高。我们还发现,基于信息的主动学习策略只有在中等标签噪声率下才提供有意义的准确度改进,但它们在校准方面比在随机获取标签上训练的模型表现更差,特别是在高标签噪声率下。我们希望这些见解为在资源受限的环境中部署视觉变压器的实践者提供可操作的指导,在这种环境中,平衡模型复杂性、标签噪声和计算效率对于模型微调或知识蒸馏至关重要。
发布时间: 5/8/2025
查看原文
作者: Wenhao Li, Bo Jin, Mingyi Hong, Changhong Lu, Xiangfeng Wang
arXiv:2505.04354v1 交叉领域公告类型 摘要:本文认为,最优化问题的求解可以从依赖专家转变为进化自主的工作流程。传统的最优化实践依赖于专家人员进行问题建模、算法选择和超参数调整,这创建了阻碍前沿方法在工业中应用的瓶颈。我们认为,由基础模型和进化搜索驱动的进化自主工作流程可以自主导航最优化空间,涵盖问题建模、算法和超参数空间。通过在云资源调度和ADMM参数调整中的案例研究,我们证明了这种方法如何连接学术创新与工业实施之间的差距。本文挑战了以人为中心的最优化工作流程的局面,并倡导一种更具扩展性和适应性的方法来解决实际的最优化问题。
发布时间: 5/8/2025
查看原文
作者: Hong Jin, Kaicheng Zhou, Jie Yin, Lan You, Zhifeng Zhou
arXiv:2505.04340v1 交叉类型:HeteGNN 摘要:异构图神经网络(HeteGNNs)通过有效地从异构图中抽取复杂的结构和语义信息,展示了强大的节点表示学习能力。目前大多数领先的HeteGNNs遵循邻域聚合范式,通过基于元路径的消息传递学习潜在的节点表示。然而,由于元路径的成对性质,这些模型无法捕捉节点之间的高阶关系,导致性能不佳。此外,HeteGNNs中长距离消息传递导致的“过度压缩”问题进一步限制了这些模型的效果,“过度压缩”是指长距离消息传递导致严重的信息失真。为了解决这些局限性,本文提出了MGA-HHN,一种基于多粒度注意力的异构超图神经网络,用于异构图表示学习。MGA-HHN 引入了两项关键创新:(1)一种新颖的基于元路径的异构超图构建方法,通过多个视角明确建模异构图中的高阶语义信息,(2)一种在节点和超边两个层面运行的多粒度注意力机制。该机制使得模型能够捕捉同一超边类型内部共享相同语义背景的节点之间的细粒度交互,同时保持不同超边类型中语义的多样性。因此,MGA-HHN 有效地缓解了长距离消息失真,并生成了更具表现力的节点表示。在现实世界的基准数据集上的广泛实验表明,MGA-HHN 在节点分类、节点聚类和可视化任务中优于现有最先进的模型,展示了其在这些任务中的有效性。
发布时间: 5/8/2025
查看原文