LLM2D

arXiv 论文列表

作者: Lu Yang, Jiajia Li, En Ci, Lefei Zhang, Zuchao Li, Ping Wang
arXiv:2502.12614v1 交叉类型:公告 摘要:泛化信息提取(UIE)由于其有效解决模型爆炸问题的能力而引起了显著的关注。抽取式UIE可以通过相对较小的模型实现较强的性能,因此被广泛应用。抽取式UIE通常依赖于不同任务的任务指令,包括单目标指令和多目标指令。单目标指令的UIE一次只能提取一种关系类型,限制了其建模关系之间的相关性的能力,从而限制了其抽取复杂关系的能力。而多目标指令的UIE允许同时提取多种关系,但包含无关关系引入了决策复杂性并影响了提取的准确性。因此,为了进行多关系提取,我们提出了LDNet,该模型引入了多方面关系建模和标签丢弃机制。通过将不同关系分配到不同的级别来进行理解和决策,我们降低了决策混淆。此外,标签丢弃机制有效地减轻了无关关系的影响。实验结果表明,在单模态和多模态、少样本和零样本设置的9个任务和33个数据集上,LDNet的表现优于或与最先进的系统相当。\footnote{https://github.com/Lu-Yang666/LDNet}
发布时间: 2/19/2025
查看原文
作者: Bingheng Li, Zhikai Chen, Haoyu Han, Shenglai Zeng, Jingzhe Liu, Jiliang Tang
arXiv:2502.12608v1 交叉类别公告类型 摘要:理解图神经网络(GNNs)的基本挑战在于刻画其优化动力学和损失景观几何,这对于提高可解释性和鲁棒性至关重要。虽然模式连通性(mode connectivity)作为一种分析损失景观几何特性的视角,在其他深度学习架构中已被证明具有启发性,但其对GNNs的影响仍未被探索。本文首次对GNN中的模式连通性进行了研究。我们发现,GNNs表现出独特的非线性模式连通性,与完全连接网络或CNN中观察到的模式不同。关键的是,我们证明了图结构而不是模型架构主宰了这种行为,图属性如同质性与模式连通性模式相关。进一步地,我们建立了模式连通性与泛化之间的联系,提出了基于损失障碍的泛化界,并揭示其作为诊断工具的实用性。我们的发现进一步将理论见解与实践应用相结合:它们为图学习中的领域对齐策略提供了一个合理解释,并为改进GNN训练范式奠定了基础。
发布时间: 2/19/2025
查看原文
作者: Ruichu Cai, Haiqin Huang, Zhifang Jiang, Zijian Li, Changze Zhou, Yuequn Liu, Yuming Liu, Zhifeng Hao
arXiv:2502.12603v1 交叉论文类型: cross 摘要: 当前的时间序列预测方法在在线场景中遇到困难,因为在顺序到达的数据中难以保留长期依赖关系的同时适应短期变化。尽管一些最近的方法通过控制潜在状态的更新解决了这个问题,但它们无法分离长期和短期状态,导致难以有效地适应非稳态。为了解决这一挑战,我们提出了一种一般框架,用于在线时间序列预测中分离长期和短期状态。我们的想法受到这样的观察启发:短期变化可以由未知干预(如股票市场的突然政策变化)引起。基于这一洞察,我们形式化了一个含有未知干预的短期状态数据生成过程。在轻微假设下,我们进一步利用由未知干预引起的短期状态的独立性,建立识别理论,以实现长期和短期状态的分离。基于这一理论,我们开发了一种长短期分离模型(LSTD),分别使用长短期编码器提取长期和短期状态。此外,LSTD模型结合了一种平滑约束以保留长期依赖关系,并结合了一种中断依赖约束以强制忘记短期依赖关系,从而共同增强了长期和短期状态的分离能力。在多个基准数据集上的实验结果表明,我们的LSTD模型在在线时间序列预测中优于现有方法,验证了其在实际应用中的有效性。
发布时间: 2/19/2025
查看原文
作者: Lunjun Liu, Weilai Jiang, Yaonan Wang
arXiv:2502.12587v1 任务类型: cross 摘要:不完整陈述重写(IUR)任务近年来引起了广泛关注。其目标是重构对话陈述以更好地与当前语境对齐,从而提高理解能力。在本文中,我们介绍了一种新颖且多功能的轻量级方法,即重写采样MLP(RSMLP)。通过采用基于MLP的架构并结合精心设计的下采样策略,RSMLP有效提取了陈述之间的潜在语义信息,并进行适当的编辑以恢复不完整的陈述。由于其简单且高效的结构,我们的方法在公共IUR数据集和实际应用中都取得了竞争力的性能。
发布时间: 2/19/2025
查看原文
arXiv:2502.12584v1 公告类型: cross 摘要:半监督学习(SSL)利用有限的标记数据和大量的未标记数据来解决机器学习中的标注成本问题。虽然近期的基模型能够进行零 shot 推断,但通过伪标签将这些能力集成到 SSL 中的努力因零 shot 预测可靠性差而效果参差不齐。我们提出了 ZMT(零 shot 多任务学习),这是一种框架,它联合优化零 shot 伪标签和来自当代 SSL 方法的无监督表示学习目标。我们的方法引入了一种基于多任务学习的机制,该机制在确保对伪标签质量变化的鲁棒性的同时,包含伪标签。在视觉、语言和音频领域的 8 个数据集上的实验表明,与传统 SSL 方法相比,ZMT 可将错误率降低高达 56%,尤其是在伪标签噪音大且不可靠时表现尤为突出。ZMT 代表了使半监督学习在资源受限的环境中更有效和更易于访问的一个重要步骤。
发布时间: 2/19/2025
查看原文
作者: Antonio Purificato, Maria Sofia Bucarelli, Anil Kumar Nelakanti, Andrea Bacciu, Fabrizio Silvestri, Amin Mantrach
arXiv:2502.12581v1 类别:交叉领域 摘要:可靠地标注数据通常需要多个人类工人的注释。然而,人类远远不是完美的。因此,将多个注释者收集的标签汇总起来以更自信地估计真实标签是一个常见的做法。在众多的汇总方法中,简单且广为人知的多数投票(MV)方法是选择获得最多投票的类别标签。尽管其重要性不容忽视,但MV标签汇总的最优性尚未得到广泛的探讨。我们通过分析MV在何种条件下能够达到标签估计误差的理论最优下界来填补这一空白。我们的结果捕捉到了MV在给定类别分布的情况下,可以最优地恢复标签的容忍注释噪声的上限。这种最优性证明为标签聚合的模型选择提供了一种更为原则的做法,作为一种替代效率低下的实践,例如有时包括更高水平的专家、金标签等,尽管它们在时间和金钱成本高昂的情况下仍然面临着同样的人类不确定性。对合成数据和真实世界数据的实验验证了我们的理论发现。
发布时间: 2/19/2025
查看原文
arXiv:2502.12576v1 宣告类型: cross 摘要:随着社交媒体的兴起,儿童在在线环境中越来越容易受到诱骗的风险。在在线对话中检测诱骗实例是一个重大挑战,因为互动不一定包含性暗示,因为捕食者需要花时间建立信任和与受害者的关系。此外,捕食者使用间接和编码的语言来逃避检测。虽然以往的研究已经对Transformer进行了微调,以自动识别聊天对话中的诱骗行为,但它们忽略了编码和间接语言对模型预测的影响,以及这些影响与人类对诱骗行为的看法如何一致。在本文中,我们解决了这一缺口,并在分类三种不同参与者群体中的诱骗风险不同程度的任务中评估了双编码器,即执法官员、真实受害者和诱饵。利用模糊理论框架,我们将人类对诱骗行为的评估映射到估计实际的诱骗风险等级。我们的分析表明,微调后的模型无法识别捕食者使用间接语言途径和编码语言逃避检测的实例。此外,我们发现这些实例的特点是样本中出现未知词汇(OOV词)的比例较高,导致模型误分类。我们的研究结果突显了在诱骗情境中,需要更 robust 的模型来识别来自噪声聊天输入中的编码语言的重要性。
发布时间: 2/19/2025
查看原文
作者: Pengyu Zhu, Zhenhong Zhou, Yuanhe Zhang, Shilinlu Yan, Kun Wang, Sen Su
arXiv:2502.12575v1 安全公告类型:跨平台 摘要:随着基于大规模语言模型(LLM)的代理逐渐普及,后门可以通过用户查询或环境反馈植入到代理中,这引发了关于安全漏洞的关键担忧。然而,通过分析代理的推理过程,安全性审查通常可以检测到这些后门攻击。为应对这一问题,我们提出了一种名为 **动态加密多后门植入攻击** 的新颖后门植入策略。具体来说,我们引入了动态加密,将后门映射为无害的内容,从而有效规避安全性审查。为了提高隐蔽性,我们进一步将后门分解为多个子后门片段。基于这些进步,后门得以显著绕过安全性审查。此外,我们还呈现了 AgentBackdoorEval 数据集,这是一个用于全面评估代理后门攻击的数据集。跨多个数据集的实验结果表明,我们的方法在实现接近100%的攻击成功率的同时,保持了0%的检测率,这表明其在规避安全性审查方面的有效性。我们的研究结果突显了现有安全机制在检测高级攻击方面的局限性,强调了对后门威胁进行更 robust 防御的迫切需求。代码和数据可在 https://github.com/whfeLingYu/DemonAgent 获得。
发布时间: 2/19/2025
查看原文
作者: Cheng Luo, Zefan Cai, Hanshi Sun, Jinqi Xiao, Bo Yuan, Wen Xiao, Junjie Hu, Jiawei Zhao, Beidi Chen, Anima Anandkumar
arXiv:2502.12574v1 交叉声明类型:跨领域 摘要:基于Transformer的大型语言模型(LLMs)在长上下文生成中表现出色。扩展上下文长度已不均衡地将LLMs推理过程中的内存占用转移到键值缓存(KV缓存)上。本文中,我们提出了一种名为HEADINFER的方法,该方法将KV缓存卸载到CPU RAM中,并避免在任何Transformer层上完全将KV缓存存储在GPU上。HEADINFER采用细粒度的、按头卸载策略,在GPU上仅保留选择性的注意力头KV缓存,并在计算注意力输出时动态进行。通过roofline分析,我们证明HEADINFER保持了计算效率,同时显著减少了内存占用。我们在带有100万标记序列的Llama-3-8B模型上评估了HEADINFER,将KV缓存的GPU内存占用从128 GB减少到1 GB,总GPU内存使用量从207 GB减少到17 GB,相比BF16基线推理实现了92%的减少。值得注意的是,HEADINFER无需使用近似方法,就能在配备24GB内存的单个消费者级GPU(例如NVIDIA RTX 4090)上进行带有400万标记的推理。
发布时间: 2/19/2025
查看原文
作者: Kaiyang Wan, Honglin Mu, Rui Hao, Haoran Luo, Tianle Gu, Xiuying Chen
arXiv:2502.12568v1 类型: cross 摘要: 与人类一样,大型语言模型(LLMs)单次生成高质量长文本时难以遵守严格的规范要求。这一挑战不足为奇,根据认知写作理论,成功的写作是一个复杂的认知过程,涉及迭代规划、转换、审视和监控。受这些认知原则的启发,我们希望通过CogWriter这一新型无需训练的框架,赋予LLMs类似于人类的认知写作能力,将LLMs受限的长文本生成转化为一种系统化的认知写作范式。该框架包括两个关键模块:(1)规划代理,执行分层规划以分解任务;(2)多个生成代理,同时执行这些计划。该系统通过持续的监控和审视机制来保持质量,这些机制评估输出是否符合规定的要求,并触发必要的修订。CogWriter在LongGenBench上表现出色,LongGenBench是用于复杂受限长文本生成的标准框架。即使使用Qwen-2.5-14B作为其骨干模型,CogWriter在复杂指令完成准确性上也比GPT-4o高出22%,同时可靠地生成超过10,000字的文本。我们希望通过这种借鉴认知科学的方法为LLMs写作进步提供一个范例:\[CogWriter\]\(https://github.com/KaiyangWan/CogWriter\)。
发布时间: 2/19/2025
查看原文