arXiv:2310.07726v4 宣告类型:replace-cross
摘要:AI生成内容(AIGC)正在迅速扩展,各种服务使用高级生成模型来创建逼真图像和流畅文本。对这种内容进行监管至关重要,以防止政策违规,如未经授权的商业化或不安全内容的分发。水印技术是内容归属和验证的一种有前途的解决方案,但我们展示了其对两种关键攻击的脆弱性:(1)水印去除,对手会擦除嵌入的标记以逃避监管;(2)水印伪造,他们会生成包含伪造水印的非法内容,导致误归因。我们提出了一种名为Warfare的统一攻击框架,该框架结合了预训练的扩散模型进行内容处理以及生成对抗网络进行水印操纵。在不同数据集和嵌入设置上的评估表明,Warfare在保持内容质量的同时实现了高成功率。我们进一步引入了Warfare-Plus,该版本提高了效率而不牺牲效果。相关代码可以在 https://github.com/GuanlinLee/warfare 查找。
arXiv:2308.14250v4 宣告类型: replace-cross
摘要:运动轨迹分类在交通运输中有很多应用,并且是大规模运动轨迹生成和异常检测的关键组成部分,而异常检测在灾害或其他外部冲击后的关键安全应用中尤为重要。然而,当前最先进的(SOTA)方法基于监督深度学习,这在轨迹分布因此类冲击而发生变化时会带来挑战。我们提供了一种神经符号规则框架,用于纠正和检测这些模型中的错误,并将其集成到我们的运动轨迹平台中。我们对几种最近的SOTA模型进行了一系列实验,展示了高度准确的错误检测能力、在测试分布变化时提高准确性的能力,以及在基本应用案例中的准确性提高。此外,我们还提供了一系列理论性质,这些性质指导了算法的开发。具体地,我们展示了最高F1分数达0.984的错误预测能力,在分布外准确性方面有显著性能提升(与SOTA模型的零样本准确性相比,提升8.51%),并且在准确性方面优于SOTA模型。
arXiv:2209.01870v3 宣布类型: replace-cross
摘要:无监督领域适应(UDA)吸引了广泛关注,它将标签丰富的源域知识转移到相关但未标记的目标域。减少域间差异一直被认为是提高UDA性能的关键因素,特别是在源域和目标域之间存在巨大差距的任务中。为此,我们提出了一种新颖的风格意识特征融合方法(SAFF),以桥接大规模的域间差距,在转移知识的同时缓解类判别信息的损失。受人类传递推理和学习能力的启发,我们探索了一种新颖的风格意识自我中间域(SSID),通过一系列中间辅助合成概念将看似不相关的概念联系起来。具体来说,我们提出了SSID的一种新颖学习策略,从源域和目标域中选择样本作为锚点,然后随机融合这些锚点的对象特征和风格特征,生成带有标签和丰富风格的中间辅助特征,用于知识转移。此外,我们设计了一个外部记忆库来存储和更新指定的标签特征,以获得稳定的类特征和类别级别风格特征。基于提出的记忆库,我们设计了域内和域间损失函数以分别提高类识别能力和特征兼容性。同时,我们通过无限采样的方法模拟了SSID丰富的潜在特征空间,并通过数学理论收敛了损失函数。最后,我们在常用领域的适应性基准上进行了全面的实验以评估所提出的SAFF,并且实验结果表明,提出的SAFF可以方便地与不同的骨干网络结合,并作为一个即插即用模块获得更好的性能。
arXiv:2501.09136v2 公告类型:替换
摘要:大型语言模型(LLMs)通过实现类人的文本生成和自然语言理解,推动了人工智能(AI)的发展。然而,它们依赖于静态训练数据,限制了它们对动态、实时查询的响应能力,导致输出过时或不准确。检索增强生成(RAG)作为一种解决方案出现,通过集成实时数据检索来增强LLMs,提供上下文相关且最新的响应。尽管其潜力巨大,但传统的RAG系统受到静态工作流程的限制,缺乏多步推理和复杂任务管理所需的适应性。
自主检索增强生成(Agentic RAG)超越了这些限制,通过将自主AI代理嵌入到RAG流水线中。这些代理利用自主设计模式中的反思、计划、工具使用和多代理协作,动态管理检索策略,迭代完善上下文理解,并适应流程以满足复杂的任务要求。这种整合使Agentic RAG系统在各种应用程序中实现了无与伦比的灵活性、可扩展性和上下文感知能力。
本文综述对Agentic RAG进行了全面探讨,从其基础原理和RAG范式的演变入手。它详细介绍了Agentic RAG架构的分层,突出了在医疗保健、金融和教育等行业中的关键应用,并探讨了实用实施策略。此外,它还探讨了在扩展这些系统时遇到的挑战,确保伦理决策,并在实际应用中优化性能,提供实施Agentic RAG的框架和工具的详细见解。
arXiv:2501.07959v2 宣告类型: 修改
摘要: 近期,有一些研究工作致力于通过少量恶意演示数据对大型语言模型(LLMs)进行逃逸(jailbreaking)。特别是郑等人专注于通过注入特殊标记并采用演示级别随机搜索(known as Improved Few-Shot Jailbreaking (I-FSJ))来提高少量演示逃逸(Few-Shot Jailbreaking, FSJ)的效率。然而,我们注意到这种方法仍可能需要较长的上下文来逃逸先进的模型,例如,对Meta-Llama-3-8B-Instruct(Llama-3)进行32轮演示\cite{llama3modelcard}的逃逸。在本文中,我们讨论了I-FSJ的局限性,并提出了一种名为Self-Instruct Few-Shot Jailbreaking(Self-Instruct-FSJ)的框架,该框架通过演示级别贪婪搜索来辅助。该框架将FSJ攻击分解为模式和行为学习,以更通用和高效的方式利用模型的漏洞。我们进行了详细的实验来评估我们的方法,并将其与基准算法进行了比较。我们的代码可在 https://github.com/iphosi/Self-Instruct-FSJ 获取。
arXiv:2501.07288v2 通告类型: 替换
摘要: 大型语言模型(LLMs)开发的集中化已经创建了人工智能进步的重大障碍,限制了这些强大技术的民有化。这种集中化,加上高质量训练数据的稀缺性和维持跨快速扩展知识领域的全面专业知识的日益复杂性,对LLMs的持续发展提出了关键挑战。虽然检索增强生成(RAG)等解决方案提供了一定的补救措施,但在多样化领域中保持最新的专家知识仍然是一个重大挑战,尤其是在特定信息以指数级增长的情况下。本文介绍了基于区块链的大型语言模型网络(LLM-Net),该框架通过去中心化的专业LLM提供者网络来民有化LLMs-as-a-Service。通过利用集体计算资源和分布式的领域专长,LLM-Net整合了针对各种特定领域的微调专家模型,通过协作提示机制确保知识的持续增长,同时维护服务的质量。该框架的稳健设计包括区块链技术,以实现透明的交易和性能验证,建立服务交付的不可变记录。基于最先进的LLM,如Claude 3.5 Sonnet、Llama 3.1、Grok-2和GPT-4o的仿真验证了基于声誉机制的有效性,能够选择性能高的受访者(LLM提供商),从而维持服务质量。因此,它证明了LLM-Net通过整合分散的专业知识和基于区块链的责任制,有望推动人工智能的进步。
arXiv:2412.20638v2 宣传类型: 修改
摘要:基于历史数据进行离策策略评估(OPE)是利用不同策略收集的数据来估算新策略的结果。然而,现有的OPE方法无法处理新策略引入新颖动作的情况。这种情况在现实世界领域中尤为常见,例如在医疗保健领域,随着不断开发新的药物和治疗方法。新颖的动作需要收集相应的策略数据,在目标结果需要较长时间观察的情况下(例如多年临床研究),这可能会变得沉重且昂贵。这提出了一个关键问题:如何在仅观察策略的短期效果之后,预测其长期结果?虽然一般情况下这个问题是无法解决的,但在某些替代条件下,短期策略数据可以与长期历史数据结合,以准确预测新策略的长期价值。在两个模拟的医疗保健示例——HIV和脓毒症管理——中,我们展示了我们的估计器能够在观察到10%的完整时间轴数据之后提供关于策略价值的准确预测。我们还对我们的双重稳健估计器进行了有限样本分析。
arXiv:2412.17404v2 宣布类型: 替换
摘要: 功能磁共振成像(fMRI)常被用于研究人类大脑活动,因为它可以揭示功能波动与人类行为之间的关系。为了增强对大脑活动的分析和理解,图神经网络(GNNs)已被广泛应用于来自fMRI数据的功能连接性(FC)分析,这是因为GNNs能够捕捉大脑区域之间的协同交互作用。然而,在人类大脑中,执行复杂任务通常涉及某些路径的激活,这些路径可以表示为图中的路径。因此,由于涉及多条路径的长距离依赖性,传统的GNNs难以从这些路径中学习。为了解决这些挑战,我们引入了一种新的框架BrainMAP,用于学习大脑网络中的多种激活路径。BrainMAP利用序列模型来识别序列化大脑区域之间的长期相关性,并引入基于专家混合物(Mixture of Experts, MoE)的聚合模块来从多条路径中学习。我们的全面实验突显了BrainMAP的优越性能。此外,我们的框架允许对任务中涉及的关键大脑区域进行解释性分析。我们的代码提供在 https://github.com/LzyFischer/Graph-Mamba。
arXiv:2412.15904v2 公告类型: 替换
摘要: 步骤级奖励模型(SRM)可以通过过程监督或基于强化学习的步骤级偏好对齐显著提高数学推理性能。SRM的表现至关重要,因为它们作为关键的指导原则,确保推理过程中的每一步都与期望的结果对齐。最近,使用蒙特卡洛树搜索(MCTS)进行自动步骤级偏好注释的AlphaZero-like方法已被证明尤其有效。然而,SRM成功背后的精确机制仍然 largely 未被探索。为了解决这一缺口,本研究深入探讨了SRM的反直觉方面,特别是侧重于基于MCTS的方法。我们的发现揭示了去除思维过程的自然语言描述对SRM效果的影响微乎其微。此外,我们展示了SRMs在评估数学语言中的复杂逻辑连贯性方面表现出色,但在自然语言方面存在困难。这些见解为理解驱动有效步骤级奖励建模的核心要素提供了全面的理解。通过揭示这些机制,本研究为开发更高效和集约化的SRM提供了宝贵指导,这可以通过聚焦数学推理的关键部分来实现。
arXiv:2412.15606v2 通知类型:替换
摘要:大型语言模型(LLMs)的发展推动了多模态代理的发展,这些代理作为控制器调用外部工具,提供了解决实际任务的可行方法。在这篇论文中,我们提出了一种多模态代理调优方法,该方法自动生成多模态工具使用数据,并调优视觉语言模型(VLM)作为控制器,以进行强大的工具使用推理。为了保持数据质量,我们使用GPT-4o mini模型生成查询、文件和轨迹,随后进行查询文件和轨迹验证。基于数据合成管道,我们收集了包含20000个任务及其工具使用轨迹的MM-Traj数据集。然后,我们通过MM-Traj开发了T3-Agent,该代理是基于VLMs进行轨迹调优以进行工具使用的开发。在GTA和GAIA基准上的评估显示,T3-Agent在两个流行的VLMs:MiniCPM-V-8.5B和Qwen2-VL-7B上实现了持续的改进,比未经训练的VLMs高出20%,显示了所提出的数据合成管道的有效性,从而为工具使用能力提供了高质量的数据。