arXiv 论文列表

作者: Huijie Liu, Bingcan Wang, Jie Hu, Xiaoming Wei, Guoliang Kang

arXiv:2504.09948v3 通知类型: 替换-跨领域摘要：菜谱图片在数字时代发挥着重要作用，随着食品行业和电子商务的数字化，对具有文化特色菜谱图片的需求不断增加。在一般情况下，现有的文本到图像生成模型擅长生成高质量的图片；然而，它们在捕捉特定领域的多样特性和细节方面存在困难，特别是中国的菜肴。为了解决这一局限性，我们提出了Omni-Dish，这是首款专门针对中国菜肴的文本到图像生成模型。我们开发了一个全面的菜肴策展流水线，构建了迄今为止最大的菜谱数据集。此外，我们引入了一种重述策略，并采用从粗到细的训练方案，帮助模型更好地学习精细的烹饪特征。在推理过程中，我们使用预先构建的高质量标题库和大型语言模型增强用户的文字输入，从而使生成的图像更加逼真和忠于原貌。此外，为扩展我们的模型在菜肴编辑任务的能力，我们提出了概念增强的P2P方法。基于这种方法，我们构建了一个菜肴编辑数据集并训练了一个专门的编辑模型。广泛的实验表明了我们方法的优越性。

发布时间: 5/2/2025

查看原文

GPG：一种简单且强大的模型推理 reinforcement learning 基准

作者: Xiangxiang Chu, Hailang Huang, Xiao Zhang, Fei Wei, Yong Wang

arXiv:2504.02546v3 宣布类型: replace-cross 摘要：强化学习（RL）可以直接增强大型语言模型的推理能力，而不需要大量依赖监督微调（SFT）。在本文中，我们重新审视了传统的策略梯度（PG）机制，并提出了一种简化的RL方法，称为组策略梯度（GPG）。与传统方法不同，GPG直接优化原始的RL目标，从而省去了代理损失函数的需要。通过消除评论者和参考模型，避免Kullback-Leibler（KL）散度约束，并解决优势和梯度估计偏差，我们的方法相比组相对策略优化（GRPO）显著简化了训练过程。我们的方法在不依赖于辅助技术和调整的情况下实现了更优的表现。如图1所示，广泛的实验表明，我们的方法不仅降低了计算成本，而且在各种单模态和多模态任务中都优于GRPO。我们的代码可在 https://github.com/AMAP-ML/GPG 获得。

发布时间: 5/2/2025

查看原文

从Reddit中识别阿片类药物实体 (ONER-2025)

作者: Grigori Sidorov, Muhammad Ahmad, Iqra Ameer, Muhammad Usman, Ildar Batyrshin

arXiv:2504.00027v3 公告类型: replace-cross 摘要：阿片类药物过量危机仍然是一个至关重要的公共卫生危机，特别是在美国，导致了重大的死亡率和社会成本。诸如Reddit之类的社交媒体平台提供了大量非结构化数据，可提供有关公众对阿片类药物使用的看法、讨论和经历的洞察。本研究利用自然语言处理（NLP），特别是阿片类药物命名实体识别（ONER-2025），从这些平台中提取可操作的信息。我们的研究做出了四个关键贡献。首先，我们创建了一个独特的、经过人工标注的数据集，该数据集源自Reddit，用户通过不同的给药途径分享了他们自己透露的阿片类药物使用经历。该数据集包含331,285个标记，并包括八个主要的阿片类药物实体类别。其次，我们详细介绍了我们的标注过程和指南，同时讨论了对ONER-2025数据集进行标注的挑战。第三，我们分析了阿片类药物讨论中的关键语言挑战，包括俚语、歧义、片段化的句子和情绪化的语言。第四，我们提出了一个实时监测系统，用于处理来自社交媒体、医疗记录和紧急服务的流式数据，以识别过量服用事件。在11次实验中，使用5折交叉验证，我们的系统将机器学习、深度学习和基于变换器的语言模型与高级上下文嵌入相结合，以增强理解。我们的基于变换器的模型（bert-base-NER和roberta-base）的准确率和F1分数达到了97%，超过了基线方法10.23%（RF=0.88）。

发布时间: 5/2/2025

查看原文

测试时知识增强的动态参数检索增强生成

作者: Yuqiao Tan, Shizhu He, Huanxuan Liao, Jun Zhao, Kang Liu

arXiv:2503.23895v2 宣布类型: 替换-交叉摘要: 回忆增强生成 (RAG) 通过从外部来源检索相关文档并将它们融入上下文中来增强大型语言模型 (LLMs)。它通过提供事实性文本而提高可靠性，但随着上下文长度的增长，显著增加了推理成本，并引入了 RAG 错觉问题，主要原因是 LLM 中缺乏相应的参数性知识。一个有效的解决方案是在测试时增强 LLM 的知识。参数化 RAG (PRAG) 通过将文档嵌入 LLM 参数来进行测试时的知识增强，通过离线训练有效地降低推理成本。然而，其高训练和存储成本以及有限的泛化能力，严重限制了其实际应用。为了应对这些挑战，我们提出了动态参数化 RAG (DyPRAG)，这是一种利用轻量级参数转换模型高效地将文档转换为参数化知识的新框架。DyPRAG 不仅降低了推理、培训和存储成本，还动态生成参数化知识，无缝地增强了 LLM 的知识，并在测试时以即插即用的方式解决知识冲突。在多个数据集上的广泛实验表明了 DyPRAG 的有效性和泛化能力，提供了一种强大的实用 RAG 架构，能够在实际应用中实现卓越的知识融合并减轻 RAG 错觉。我们的代码可在 https://github.com/Trae1ounG/DyPRAG 上获取。

发布时间: 5/2/2025

查看原文

基于改进的注意力机制CNN-BiLSTM架构的高效物联网入侵检测

作者: Amna Naeem, Muazzam A. Khan, Nada Alasbali, Jawad Ahmad, Aizaz Ahmad Khattak, Muhammad Shahbaz Khan

arXiv:2503.19339v3 宣布类型: replace-cross 摘要: 随着物联网(IoT)系统中的安全漏洞不断增加，需要改进的威胁检测方法。本文提出了一种紧凑且高效的检测僵尸网络攻击的方法，该方法通过结合流量模式分析、时间支持学习和聚焦特征提取的集成方法实现。所提出的基于注意力的模型得益于混合CNN-BiLSTM架构，并在使用N-BaIoT数据集检测僵尸网络攻击时达到了99%的分类准确率，同时在各种场景中保持了高精度和召回率。所提出模型的性能通过关键参数，如 Mathews 相关系数和 Cohen’s kappa 相关系数进一步验证。这些参数的接近理想的结果表明，所提出的模型在实际应用和未见过的数据中能够准确高效地检测僵尸网络攻击。所提出的模型证明是应对物联网网络新兴安全挑战的有效防御机制。

发布时间: 5/2/2025

查看原文

带有假记忆的真正AI代理：对Web3代理的致命上下文操纵攻击

作者: Atharv Singh Patlan, Peiyao Sheng, S. Ashwin Hebbar, Prateek Mittal, Pramod Viswanath

arXiv:2503.16248v2 宣布类型: 替换交叉摘要：将AI代理与Web3生态系统结合利用了它们在自主性和开放性方面的互补潜力，但也引入了未充分探索的安全风险，因为这些代理会动态地与金融协议和不可变的智能合约进行交互。本文探讨了在实际场景中暴露于敌对威胁时，AI代理在基于区块链的金融生态系统中的漏洞。我们引入了上下文操控的概念，这是一种全面的攻击向量，利用未受保护的上下文表面，包括输入通道、内存模块和外部数据源。通过对手肘OS的实证分析，这是一种用于自动化Web3操作的去中心化AI代理框架，我们展示了敌对者如何通过向提示或历史交互记录中注入恶意指令来操控上下文，从而导致未预见的资产转移和协议违反，这些都可能是财务灾难性的。为了量化这些漏洞，我们设计了CrAIBench，这是一种针对Web3领域的基准测试，它评估了AI代理在150多个现实区块链任务中的健壮性，包括代币转移、交易、桥梁和跨链交互，以及使用上下文操控的500多个攻击测试案例。我们系统地评估了攻击和防御策略，分析了诸如安全提示的影响、推理模型和对齐技术有效性的因素。我们的研究结果表明，在敌对者篡改存储的上下文时，基于提示的防御措施是不够的，即使有这些防御措施，攻击成功率仍然很高。基于微调的防御措施则提供了更 robust 的替代方案，可以显著降低攻击成功率，同时保持单步骤任务的实用性。这项研究突显了开发既安全又负责任的AI代理的紧迫需求。

发布时间: 5/2/2025

查看原文

跨区域的商业航空AI安全法规审查

作者: Penny A. Barr, Sohel M. Imroz

arXiv:2503.04767v2 宣告类型: 替换-交叉摘要：在本文中，我们研究了航空领域的现有人工智能（AI）政策文件，涉及以下三个地区：美国、欧盟和中国。航空行业历来是采用技术创新的先行者。这种早期采用提供了宝贵见解，因为它有严格的规定和关键的安全程序。因此，航空行业提供了通过其严格的规则、标准化程序以及新技术认证来应对AI脆弱性的最优平台。关键词：航空领域的人工智能；航空安全；标准化；可认证的AI；规定

发布时间: 5/2/2025

查看原文

UoR-NCL 在 SemEval-2025 任务 1 中：使用生成型大语言模型和 CLIP 模型进行多语言多模态习语表现表示

作者: Thanet Markchom, Tong Wu, Liting Huang, Huizhi Liang

arXiv:2502.20984v3 Announce Type: replace-cross 摘要：SemEval-2025 任务1旨在根据给定的可能蕴含英语和巴西葡萄牙语惯用意义的名词短语对图像进行排序。为了应对这一挑战，本工作使用生成性的大规模语言模型（LLMs）和多语言CLIP模型，以增强惯用意义表示。LLMs生成可能含有的惯用意义，丰富了这些短语的语义解释。这些意义随后通过多语言CLIP模型进行编码，用作图像排序的表示。对比学习和数据增强技术被应用以微调这些嵌入，以提高性能。实验结果表明，通过这种方法提取的多模态表示优于仅基于原始名词短语的表示。微调方法显示出有希望的结果，但没有微调的嵌入效果更好。本文使用的源代码可在 https://github.com/tongwu17/SemEval-2025-Task1-UoR-NCL 获取。

发布时间: 5/2/2025

查看原文

SpargeAttn：准确的稀疏注意力加速任意模型推理

作者: Jintao Zhang, Chendong Xiang, Haofeng Huang, Jia Wei, Haocheng Xi, Jun Zhu, Jianfei Chen

arXiv:2502.18137v2 宣告类型: replace-cross 摘要：由于注意力机制的时间复杂性呈二次方增长，高效的注意力实现对于大型模型至关重要。幸运的是，注意力通常表现出稀疏性，即注意力图中的许多值接近零，允许省略相应的计算。许多研究利用稀疏模式来加速注意力。然而，大多数现有工作集中在通过利用注意力图中特定的稀疏模式来优化特定模型的注意力。一种既能保证各种模型提速又能保持端到端性能的通用稀疏注意力依然难以实现。在本文中，我们提出了SpargeAttn，这是一种适用于任何模型的通用稀疏和量化注意力方法。我们的方法使用两阶段在线过滤器：第一阶段，我们迅速且准确地预测注意力图，从而省略部分矩阵乘法。第二阶段，我们设计了一种在线 softmax 意识过滤器，不会增加额外开销，并进一步省略部分矩阵乘法。实验表明，我们的方法在不牺牲端到端指标的情况下，显著加速了包括语言、图像和视频生成等各种类型的模型。代码可在 https://github.com/thu-ml/SpargeAttn 获取。

发布时间: 5/2/2025

查看原文

生成预测控制：用于动态和难以演示任务的流匹配策略

作者: Vince Kurtz, Joel W. Burdick

arXiv:2502.13406v2 宣告类型: replace-cross 摘要：生成性控制策略最近在机器人学中取得了重大进展。这些方法通过扩散或流匹配产生动作序列，训练数据来自演示。但现有方法有两个关键限制：它们需要专家演示，而获取这些演示可能具有挑战性，且它们仅适用于相对较慢的近静止任务。在本文中，我们利用基于采样的预测控制与生成建模之间紧密联系来解决这些问题。特别地，我们提出了生成性预测控制，这是一种针对那些容易模拟但难以演示的快速动态任务的监督学习框架。然后，我们展示了如何在推理时通过预训练的流匹配策略进行温暖重启，保持时间一致性并实现高频反馈。我们认为生成性预测控制为现有的行为克隆方法提供了补充方法，并希望它能为超越近静止演示导向任务的一般性策略铺平道路。

发布时间: 5/2/2025

查看原文