LLM2D

arXiv 论文列表

作者: Tianyu Cui, Xinjie Lin, Sijia Li, Miao Chen, Qilei Yin, Qi Li, Ke Xu
arXiv:2504.04222v2 宣告类型: replace-cross 摘要:基于机器学习(ML)的网络流量分析已经被广泛用于威胁检测的目的。不幸的是,它们在不同任务和未见过的数据上的泛化能力非常有限。大型语言模型(LLMs),因其强大的泛化能力而闻名,在各个领域中表现出令人鼓舞的性能。然而,LLMs 在应用于网络流量分析领域时受到限制,因为网络流量具有非常不同的特征。为了解决这个问题,本文提出了一种名为 TrafficLLM 的技术,它引入了一种双阶段微调架构,可以从异构的原始流量数据中学习通用的流量表示。该架构使用基于网络流量领域的标记化、双阶段微调流水线和可扩展的适应性来帮助 LLM 在动态流量分析任务中释放泛化能力,从而使其能够在广泛的目标下游任务中实现流量检测和流量生成。我们跨越了 10 种不同的场景和 229 类流量对 TrafficLLM 进行了评估。TrafficLLM 达到了 0.9875 和 0.9483 的 F1 分数,在检测和生成方法上的性能分别提高了 80.12% 和 33.92%。此外,它在未见过的流量上的泛化能力也表现出色,性能提高了 18.6%。我们进一步在实际场景中对 TrafficLLM 进行了评估。结果证实,TrafficLLM 可以轻松扩展,并且在企业流量上实现了准确的检测性能。
发布时间: 4/16/2025
查看原文
作者: Kai Ye, Hongyi Zhou, Jin Zhu, Francesco Quinzan, Chengchung Shi
arXiv:2504.03784v3 宣告类型: replace-cross 摘要:从人类反馈进行强化学习(RLHF)已成为使大型语言模型(LLMs)输出与人类偏好一致的关键技术。为了学习奖励函数,目前大多数RLHF算法使用Bradley-Terry模型,该模型依赖于可能不反映真实世界判断复杂性和多样性的假设。在本文中,我们提出了一种稳健算法,以在这样的奖励模型不准确的情况下提高现有方法的性能。理论上,我们的算法降低了奖励和策略估计量的方差,从而改善了后悔界。在LLM基准数据集上的实证评估表明,所提出的算法在Anthropic Helpful and Harmless数据集上始终优于基线方法,能够在一半以上的响应中胜过基线方法。
发布时间: 4/16/2025
查看原文
作者: Guido Barducci, Ivan Rossi, Francesco Codic\`e, Cesare Rollo, Valeria Repetto, Corrado Pancotti, Virginia Iannibelli, Tiziana Sanavia, Piero Fariselli
arXiv:2504.03278v2 Announce Type: replace-cross 摘要:理解残基变异如何影响蛋白质稳定性对于设计功能性蛋白质和揭示与疾病相关的突变的分子机制至关重要。近期蛋白质语言模型(PLMs)的发展已经革新了蛋白质的计算分析,使得例如对于突变效果的更准确预测成为可能。在本文中,我们引入了JanusDDG,一个深度学习框架,该框架利用PLM提取的嵌入和双向交叉注意力变换器架构来预测单个和多个残基突变的$\Delta \Delta G$值,同时受到保持基本热力学性质(如反对称性和传递性)的约束。与传统的自我注意力不同,JanusDDG 计算查询(Q)和值(V)为野生型和突变嵌入之间的差异,而键(K)则在两者之间交替。这种交叉间隔的注意力机制使模型能够捕捉突变引起的扰动同时保留关键的上下文信息。实验结果表明,JanusDDG 在仅从序列预测 $\Delta \Delta G$ 方面达到了最先进的性能,其准确度对于单个和多个突变均与结构基方法匹配或超过。代码获取:https://github.com/compbiomed-unito/JanusDDG
发布时间: 4/16/2025
查看原文
作者: Zhenyi Liao, Qingsong Xie, Yanhao Zhang, Zijian Kong, Haonan Lu, Zhenyu Yang, Zhijie Deng
arXiv:2504.00883v2 通知类型: replace-cross 摘要:越来越多的注意力放在提高多模态大型语言模型(MLLMs)的推理能力上。作为在物理领域中运作的AI代理的基石,基于视频的空间视觉智能(VSI)成为了MLLMs中最关键的推理能力之一。本工作首次对通过R1-Zero-like训练提高MLLMs的空间视觉推理能力进行了深入研究。技术上,我们首先发现,对于中小型的Qwen2-VL模型,通过思维链(CoT)提示无法激活其空间视觉推理能力。然后,我们通过GRPO训练来提升空间视觉推理能力,并使用精心筛选的VSI-100k数据集,借鉴DeepSeek-R1-Zero的方法。在研究过程中,我们确认即使使用小值,也需要保留KL惩罚项。仅用120个GPU小时,基于Qwen2-VL-2B微调而来的vsGRPO-2B模型可以比基础模型高出12.1%,并且超过了GPT-4o。此外,基于Qwen2-VL-7B微调而来的vsGRPO-7B模型,其性能与最佳开源模型LLaVA-NeXT-Video-72B相当。我们还将vsGRPO与监督微调和直接偏好优化基线进行比较,并观察到了显著的性能优势。代码和数据集将在不久后提供。
发布时间: 4/16/2025
查看原文
arXiv:2503.19887v4 事故通告类型: replace-cross 摘要:最近人工智能能力的进展加剧了对其可能会对国家安全构成威胁的担忧,例如,通过使恶意行为者更容易对关键国家基础设施进行网络攻击,或通过失去对自主人工智能系统的控制。与此同时,美国联邦立法者提出了初步的“人工智能事故制度”来识别和应对类似的威胁。本文整合了这两种趋势,并提出了一项及时的法律要求的人工智能事故制度提案,旨在对抗来自人工智能系统的潜在国家安全威胁。本文首先通过引入“安全关键型”的概念来描述那些对国家安全构成极端风险的医生,然后论证“安全关键型”可以描述民用核能、航空、生命科学双重用途研究以及前沿人工智能发展。接着,我们详细介绍了我们的人工智能事故制度提案,并通过证明其与美国其他“安全关键型”部门的国内事故制度的相似性来证明每个提案组件的合理性。最后,我们勾勒了一个假设情景,展示了我们提议的人工智能事故制度如何处理人工智能网络攻击事件。我们提议的人工智能事故制度被分为三个阶段。第一阶段集中在对什么是“人工智能事故”的新颖定义上,并建议人工智能供应商在部署前沿人工智能系统之前必须创建一个“国家安全案”。第二和第三阶段指明人工智能供应商应通知政府机构关于事件,并且政府机构应参与到修改人工智能供应商的安全和安全程序中,以应对未来对国家安全的威胁。
发布时间: 4/16/2025
查看原文
作者: Zixin Chen, Sicheng Song, Kashun Shum, Yanna Lin, Rui Sheng, Huamin Qu
arXiv:2503.18172v3 通告类型: replace-cross 摘要: 故意篡改数据表示以支持特定声明的误导性图表可视化可以扭曲人们的感知,并导致错误的结论。尽管经过了数十年的研究,误导性图表仍然是一个普遍且紧迫的问题。最近,多模态大型语言模型(MLLMs)在图表理解方面展现出了强大的能力,然而迄今为止尚未有工作系统地评估其检测和解释误导性图表的能力。本文介绍了误导性图表问答基准(Misleading ChartQA),这是一个大规模多模态数据集,旨在评估MLLMs在识别和推理误导性图表方面的性能。该数据集包含超过3,000个精心挑选的例子,涵盖了21种类型的误导和10种图表类型。每个例子包括标准化的图表代码、CSV数据和带有标注解释的多项选择题,这些解释已经通过多轮MLLM检查和彻底的专家人工审核进行了验证。我们在我们的数据集上对16种最先进的MLLM进行了基准测试,揭示了它们在识别视觉上欺骗性实践方面的局限性。我们还提出了一种新的管道,用于检测和定位误导,从而增强MLLMs在误导性图表解释方面的准确性。我们的工作为通过MLLM驱动的误导性图表理解的进步奠定了基础。我们公开发布了样本数据集,以支持对该关键领域的进一步研究。
发布时间: 4/16/2025
查看原文
作者: Peiran Gu, Fuhao Duan, Wenhao Li, Bochen Xu, Ying Cai, Teng Yao, Chenxun Zhuo, Tianming Liu, Bao Ge
arXiv:2503.16304v3 宣告类型: replace-cross 摘要:近年来,大型语言模型(LLMs)在自然语言处理领域取得了显著突破,并逐渐应用于人文学科和社会科学研究中。由于其强大的文本理解和生成能力,LLMs 在人文学科和社会科学领域具有广泛的潜在应用价值。在人文学科和社会科学研究中,LLMs 可以分析大规模文本数据并进行推理。 本文从七个方面分析了大型语言模型 DeepSeek-R1:低资源语言翻译、教育问答、高等教育中的学生写作改进、逻辑推理、教育测量与心理统计学、公共卫生政策分析和艺术教育。然后我们将 DeepSeek-R1 在七个方面的回答与 o1-preview 的回答进行了比较。DeepSeek-R1 在人文学科和社会科学领域表现良好,能正确且合逻辑地回答大多数问题,并能给出合理的分析过程和解释。与 o1-preview 相比,它可以自动生成推理过程并提供更详细的解释,适合初学者或需要详细了解这一知识的人,而 o1-preview 更适合快速阅读。 通过分析可以发现,LLM 在人文学科和社会科学领域具有广泛的应用潜力,并在提高文本分析效率、语言交流等领域表现出巨大优势。LLM 强大的语言理解和生成能力使其能够深入探索人文学科和社会科学领域的复杂问题,并为学术研究和实际应用提供创新工具。
发布时间: 4/16/2025
查看原文
作者: Leo Widmer, Jiawei Huang, Niao He
arXiv:2503.09309v2 宣告类型: 重叠交叉 摘要:激励设计是一种通过提供额外的奖励来引导智能体的学习动态朝向期望结果的流行框架。然而,现有大多数工作关注有限的小规模智能体群体,或者假设完全了解游戏规则,这限制了它们在涉及大规模人群和模型不确定性的真实世界场景中的应用。为了解决这一问题,我们研究了在转换与密度无关的均场博弈(Mean-Field Games, MFG)中引导奖励的设计,其中的转换动态和内在奖励函数都是未知的。这种设置带来了非平凡的挑战,调解者必须激励智能体在其模型学习的不确定性下探索,同时也要引导它们收敛到期望行为而不过度支付激励。假设智能体表现出非自适应遗憾行为,我们贡献了新颖的乐观探索算法。理论上,我们建立了智能体行为与期望行为之间的累积差距的次线性遗憾保证。在引导成本方面,我们表明我们总的激励支付仅产生次线性超额成本,这与将目标策略稳定为平衡点的基本引导策略相媲美。我们的工作提供了一种在不确定性下引导大规模系统中智能体行为的有效框架。
发布时间: 4/16/2025
查看原文
作者: Dan Hendrycks, Eric Schmidt, Alexandr Wang
arXiv:2503.05628v2 宣告类型:替换交叉 摘要:AI 的快速发展正在开始重塑国家安全。不稳定的人工智能发展可能打破力量平衡,提高大国冲突的可能性,而广泛普及有能力的人工智能黑客和病毒学家则会降低流氓行为体引发灾难的门槛。超级人工智能——在几乎所有认知任务上远胜人类的人工智能——现在被人工智能研究人员所预期。正如国家曾经开发核战略以确保自身的生存一样,我们现在需要一套连贯的超级人工智能战略来应对这一新的变革时期。我们提出了“相互确保人工智能故障”(MAIM)的概念:一种类似于核相互确保毁灭(MAD)的威慑制度,其中任何国家单方面获得人工智能优势的企图都会受到敌对国家的预防性破坏。鉴于破坏不稳定的人工智能项目相对容易——通过从隐蔽的网络攻击到潜在的对数据中心的动能打击等一系列干预手段——MAIM 已经描述了人工智能超级大国所面临的战略格局。此外,各国可以通过增强经济和军事实力来提高竞争力,并采取不扩散措施,防止将可武器化的人工智能能力落入流氓行为体手中。总体来看,威慑、不扩散和竞争力三部分框架勾勒出了一套全面的人工智能超级智能策略。
发布时间: 4/16/2025
查看原文
作者: Weigao Sun, Disen Lan, Tong Zhu, Xiaoye Qu, Yu Cheng
arXiv:2503.05447v2 通知类型: 替换交叉 摘要:线性序列模型(LSM)如线性注意力、状态空间模型和线性RNN,以及混合专家模型(MoE)最近已经作为重要的架构改进而出现。在本文中,我们介绍了Linear-MoE,这是一种生产级系统,用于将LSM与MoE集成以建模和训练大规模模型。Linear-MoE利用了LSM模块的线性复杂度序列建模优势和MoE层的稀疏激活优势,旨在提供高效训练的同时保持高性能。Linear-MoE系统包括:1)建模子系统,它提供了一个支持所有LSM实例的统一框架;2)训练子系统,它通过结合各种先进的并行技术,特别是为Linear-MoE模型设计的序列并行技术,促使高效训练。此外,我们还探索了将Linear-MoE层与标准Transformer-MoE层结合使用的方法,以及其序列并行性,以进一步增强模型的灵活性和性能。对两个模型系列A0.3B-2B和A1B-7B的评估显示,Linear-MoE在保持竞争力的同时实现了效率提升,展示了其作为下一代基础模型架构的潜力。代码:https://github.com/OpenSparseLLMs/Linear-MoE。
发布时间: 4/16/2025
查看原文