arXiv:2501.04040v2 宣布类型: 替换-交叉引用
摘要:人工智能的迅速发展,尤其是在基于变压器架构构建的大语言模型(LLMs)的发展推动下,重新定义了自然语言处理的能力。这些模型现在在文本生成、问答、翻译和总结等各种语言相关任务中表现出色,常常与人类般的理解能力相媲美。更有趣的是,LLMs 已经展示了超出其核心功能的新兴能力,表现出在常识推理、代码生成和算术等任务上的熟练度。本文综述了驱动这些能力的基础组件、扩展机制和架构策略。强调像 GPT 和 LLaMA 这样的模型,我们分析了指数级数据和计算增长对 LLM 性能的影响,同时讨论了扩展过程中的权衡。我们还探讨了 LLM 在各个领域的应用,如医疗保健、金融、教育和法律,突显了它们的适应性和解决特定领域挑战的潜力。本文的核心问题是 LLM 在不同任务中的泛化能力、规划能力和推理能力,以及这些新兴能力能否系统地激发或增强。特别是,我们提供了一些关于 LLM 内部 CoT(思维链)和 PoT(思维计划)能力的见解,集中在预训练数据如何影响它们的出现。此外,我们研究了结合外部系统的 LLM 框架,使 LLM 能够处理复杂和动态的任务。通过分析这些因素,本文旨在促进对 LLM 的能力和限制的持续讨论,推动它们在新奇和日益复杂的环境中的负责任开发和应用。
arXiv:2501.03835v2 公告类型: replace-cross
摘要: 产品属性值识别 (PAVI) 涉及从产品资料中识别属性值,这是在电子商务平台提高产品搜索、推荐和商业分析的关键任务。然而,现有的PAVI方法面临诸如推断隐含值、处理未分布(OOD)值以及生成规范化输出的关键挑战。为了解决这些限制,我们引入了Taxonomy-Aware Contrastive Learning Retrieval (TACLR),这是首个基于检索的PAVI方法。TACLR 将PAVI形式化为信息检索任务,通过将产品资料和候选值编码为嵌入,并基于与项目嵌入的相似度检索值来实现。它利用带有 taxonomy-aware 硬负样本的对比训练,并采用动态阈值的自适应推理。TACLR 的三大优势在于:(1)它有效地处理隐含值和OOD值,同时生成规范化输出;(2)它可扩展到数千个类别、数万个属性和数百万个值;(3)它支持负载较高的工业场景中的高效推理。在专有和公开数据集上进行的大量实验验证了 TACLR 的有效性和效率。此外,TACLR 已成功部署于一个实际的电子商务平台,每日处理数百万个产品列表,同时支持动态的大规模属性分类。
arXiv:2412.17874v2 宣布类型: replace-cross
摘要: 在本文中,我们介绍了并应用了 Operations Research Question Answering (ORQA),这是一个新的基准,旨在评估大型语言模型 (LLMs) 在运筹学 (OR) 专门技术领域的泛化能力。该基准评估LLMs在面对多种复杂优化问题时,能否模拟运筹学专家的知识和推理能力。由运筹学专家开发的数据集包含需要多步推理来构建其数学模型的真实世界优化问题。我们对各种开源LLMs(如LLaMA 3.1、DeepSeek和Mixtral)的评估揭示了它们性能的局限性,突显了它们在泛化到专门技术领域方面的差距。本文为LLMs的泛化能力持续讨论做出了贡献,并为该领域的未来研究提供了宝贵见解。该数据集和评估代码已公开提供。
arXiv:2412.17498v3 宣布类型: replace-cross
摘要:近期,O1 类似模型已经涌现出来,展示了在数学和编码任务等推理任务中长链条思维(长 CoT)的有效性。在本文中,我们引入了 DRT,这是一种尝试将长 CoT 成功应用于神经机器翻译(MT)的方法。具体而言,针对可能包含明喻和暗喻的文学书籍,由于文化差异,将这些文本翻译为目标语言在实践中非常困难。在这种情况下,字面翻译通常无法有效地传达出原意。即使是专业的人类翻译人员,在翻译过程中也需要花费相当大的精力去保留语义的一致性。为了模拟语言模型在 MT 中的长思考能力,我们首先从现有的文学书籍中挖掘包含明喻或暗喻的句子,然后开发一个多代理框架,通过长思考来翻译这些句子。在多代理框架中,一个翻译者在顾问提供的建议下,迭代地翻译源句子。为了确保长思考的有效性,也在每一轮中使用了一个评估器来量化翻译质量。通过这种方式,我们收集了数十万条长思考的 MT 数据,用于训练我们的 DRT 模型。以 Qwen2.5 和 LLama-3.1 作为基础模型,DRT 模型可以从机器翻译过程中学习思维过程,并在性能上超越了原本的 LLMs 以及仅在成对句子上进行微调但没有长思考的 LLMs,这表明了其有效性。
arXiv:2412.16687v2 公告类型: 替换-交叉
摘要: 强化学习(RL)在解决复杂序列决策任务方面起着重要作用。层次化和目标导向的RL是解决RL中两个主要问题(样本效率低下和奖励塑形困难)的有前景的方法。这些方法通过将任务分解为更简单的子任务,并在动作空间中对任务进行时间抽象来解决上述问题。这些方法的任务分解过程中的一个关键组成部分是子目标发现。我们可以使用子目标状态来定义动作层次结构,也可以在分解复杂任务时使用它们。假设子目标状态更具不可预测性,我们提出了一种自由能范式来进行子目标发现。这通过在主空间和聚合空间之间使用自由能来实现。给定状态的模型从相邻状态的变化显示了该状态的不可预测性,因此在本文中用于子目标发现。我们在网格世界环境等导航任务上的实验证明,我们提出的方法可以在不了解任务先验知识的情况下应用于子目标发现。此外,我们提出的方法对环境的随机性具有鲁棒性。
arXiv:2412.16633v2 宣告类型: 替换-交叉引用
摘要:由于将LLM集成为规划模块,体感AI系统正在迅速发展,这些模块能够将复杂的指令转换为可执行的策略。然而,LLM容易受到囚笼攻击的影响,这可以生成恶意内容。本文探讨了将传统LLM囚笼攻击应用于体感AI系统背后的有效性和合理性。我们的目标是回答三个问题:(1)传统的LLM囚笼攻击是否适用于体感AI系统?(2)如果没有,会出现哪些挑战?(3)我们如何防御体感AI的囚笼攻击?为此,我们首先使用新构建的数据集Harmful-RLbench对现有的基于LLM的体感AI系统进行了度量。我们的研究确认,传统的LLM囚笼攻击直接应用于体感AI系统不适用,并识别出两个独特的挑战。首先,有害文本不一定构成有害策略。其次,即使可以生成有害策略,这些策略也不一定能在体感AI系统中被执行,这限制了潜在风险。为了促进更全面的安全分析,我们细化并引入了POEX,这是一种新颖的红队框架,优化敌对方的后缀以诱导体感AI系统中的有害但可执行的策略。POEX的设计采用了敌对方约束、策略评估器和后缀优化,以确保策略成功执行的同时逃避体感AI系统内部的安全检测。使用Harmful-RLbench在真实世界机器人臂和模拟器上进行的实验展示了其有效性,特别是在突出安全漏洞和模型间高迁移性方面。最后,我们提出了基于提示和基于模型的防御措施,实现了85%的成功率以缓解攻击,并增强体感AI系统的安全意识。我们的发现强调了在关键应用中确保体感AI安全部署的紧迫需求。
arXiv:2412.16232v3 任务类型: 替换-交叉
摘要: 我们介绍了一个新的任务,称为可反驳视觉蕴含 (DVE),其目标是在基于附加更新的情况下,允许修改图像前提与文本假设之间的蕴含关系。虽然在自然语言推理中这一概念已经建立,但在视觉蕴含中仍然没有被探索。从宏观上看,DVE 使模型能够细化其初始解释,从而在检测图像中的误导信息、增强视觉问答以及在自主系统中改善决策过程等方面提高准确性和可靠性。现有的度量标准未能充分捕捉由更新带来的蕴含关系的变化。为了解决这一问题,我们提出了一种新颖的推理意识评估器,该评估器使用成对对比学习和类别信息学习来捕获由更新引起的蕴含强度的变化。此外,我们引入了一种基于奖励的学习方法,以进一步提高多模态模型生成的更新质量。实验结果证明了我们提出评估器和优化方法的有效性。
arXiv:2412.15538v2 公告类型: replace-cross
摘要:随着人们对隐私问题的关注不断增加以及个性化体验的需求日益增长,传统的带有人类反馈强化学习(RLHF)框架面临重大挑战,因为它们依赖于集中式数据。我们引入了联邦带有人类反馈的强化学习(FedRLHF),这是一种新颖的框架,通过去中心化的方式重新定义了RLHF过程。FedRLHF能够在不共享原始数据或人类反馈的情况下,让多个客户端协同学习策略,从而确保了强大的隐私保护。利用联邦强化学习,每个客户端在当地将其奖励函数与人类反馈相结合,并通过个性化的RLHF过程更新其策略。我们为FedRLHF建立了严格的理论基础,提供了收敛性保证,并推导出了随客户端数量增加而高效缩放的样本复杂性上限。在MovieLens和IMDb数据集上的实证评估显示,FedRLHF不仅保留了用户隐私,还实现了与集中式RLHF相当的性能,并且在多样化的客户端环境中增强了个性化。
arXiv:2412.12771v2 宣告类型: replace-cross
摘要:使用小扩散模型生成大图像正越来越受欢迎,因为训练大模型的成本可能是 prohibitive 的。常见的方法是联合生成一系列重叠的图像块,并通过合并相邻的块来获得大图像。然而,现有方法的结果通常会表现出明显的伪影,例如接缝、不一致的对象和风格。为了解决这些问题,我们提出了引导融合(GF),通过在重叠区域应用加权平均来减轻来自遥远图像区域的负面影响。此外,我们提出了方差校正融合(VCF),它在后平均后校正数据方差,从而为去噪扩散概率模型生成更准确的融合结果。此外,我们提出了单次样式对齐(SA),通过调整初始输入噪声生成大型图像的一致风格,而不增加额外的计算负担。广泛的实验表明,所提出的融合方法显著提高了生成图像的质量。所提出的方法可以广泛应用于增强其他基于融合的方法,以生成大图像。代码:https://github.com/TitorX/GVCFDiffusion
arXiv:2412.11408v2 宣布类型: replace-cross
摘要:在本文中,我们提出了一种新颖的方法,即联邦域泛化与标签平滑和平衡去中心化训练(FedSB),以应对联邦学习框架内部数据异质性带来的挑战。FedSB 在客户端层面采用了标签平滑技术,以防止过度拟合特定域的特征,从而在聚合本地模型形成全局模型时增强跨多种域的一般化能力。此外,FedSB 还结合了一种去中心化的预算机制,该机制平衡了客户端之间的训练,实验证明这种机制可以提高聚合的全局模型的性能。对四个常用的多域数据集(PACS、VLCS、OfficeHome 和 TerraInc)进行的大量实验表明,FedSB 超过了竞争对手的方法,在三个数据集上取得了最先进的结果,表明 FedSB 在处理数据异质性方面是有效的。