arXiv:2406.00004v4 通告类型: replace-cross
摘要:联邦推荐系统(FRSs)通过分散数据存储提供了比传统集中式方法更具有隐私保护的替代方案。然而,它们面临着数据稀疏性和异构性等持续挑战,主要由于孤立的客户端环境所致。最近在基础模型(FMs)方面的进展,特别是像ChatGPT这样的大型语言模型,为克服这些问题提供了通过强大的跨任务知识迁移的机会。在这篇观点论文中,我们系统地探讨了FRSs和FMs之间的融合,并说明了如何通过基础模型增强的框架显著提升客户端个性化、通信效率和服务器端聚合性能。我们还深入探讨了这种整合带来的关键挑战,包括隐私-安全权衡、非IID数据以及联邦设置中的资源限制,并提出了未来研究方向,包括多模态推荐、实时基础模型适应和可解释的联邦推理。通过将FRSs与FMs结合起来,我们的观点论文为促进利用大规模预训练知识提升局部性能的高效率、隐私保护推荐系统的发展提供了前瞻性的路线图。
arXiv:2405.02228v3 通告类型: replace-cross
摘要:大型语言模型(LLMs)为科学通信中的自动引用来源提供了令人鼓舞但充满挑战的前景。之前的方法在引用生成中受限于引用歧义和LLM的过度泛化。我们介绍了REASONS,这是一个包含12个科学领域(来自arXiv)句级注释的新颖数据集。我们的评估框架涵盖了两种关键的引用场景:间接查询(匹配句子到论文标题)和直接查询(作者归属),并且都增强了上下文元数据。我们使用模型如GPT-O1、GPT-4O、GPT-3.5、DeepSeek以及一些较小的模型Perplexity AI(7B)进行了广泛的实验。虽然顶级的LLM在句子归属上表现出色,但在幻觉率方面存在困难,这是科学可靠性的关键指标。我们的增强元数据方法在所有任务中减少了幻觉率,为改进提供了有希望的方向。利用Mistral进行检索增强生成(RAG)在间接查询中提高了性能,幻觉率降低了42%,同时保持与大模型竞争力的精度。然而,对抗性测试揭示了将论文标题链接到摘要的挑战,指出了当前LLM的基础局限性。REASONS为开发可靠和可信赖的LLMs在科学应用中的发展提供了具有挑战性的基准。
arXiv:2403.16760v5 公告类型: 替换-交叉
摘要:当前针对武器化合成媒体的主要防御之一是目标个人能够在遇到合成媒体内容时通过视觉或听觉识别出由人工智能生成的内容。然而,随着合成媒体的真实度迅速提高,了解人们目前在多大程度上容易被具有欺骗性的虚假人工智能生成内容误导变得至关重要。我们进行了一项包含1276名参与者的研究,以评估人们区分真实和合成图像、音频、视频以及视听媒体的能力。我们发现,在平均情况下,人们难以区分合成和真实媒体,平均检测性能接近随机水平的50%。我们还发现,当刺激物包含任何程度的合成内容、具有的是外语特征或媒体类型是单一模态时,准确率会下降。当合成图像中包含人类面部,或视听刺激的真实性不一致时,人们对合成图像的识别也会不够准确。最后,我们发现,关于合成媒体的知识水平较高不会显著影响检测准确率,但年龄会起到影响,老年人的表现不如年轻人。总的来说,这些结果表明,不再可行依靠人们的感知能力来保护自己免受武器化合成媒体日益增长的威胁,寻找替代的对策比以往任何时候都更加重要。
arXiv:2312.05114v4 宣告类型: replace-cross
摘要:生成模型产生合成数据的目的是为了提供一种隐私友好的数据发布方法。然而,只有当模型满足差分隐私(DP)时,其隐私保证才被认为是稳健的。遗憾的是,这并不是一个普遍的标准,很多领先的公司(事实上,甚至包括许多研究论文)使用针对合成数据和真实数据统计相似性的自定义隐私指标。
在这篇论文中,我们考察了实际合成数据部署中使用的隐私指标,并从多个方面证明了这些指标的不可靠性。首先,我们提供了一些反例,即使隐私测试通过,也会发生严重的隐私泄露,同时我们还通过最少的成本实现了准确的成员关系和属性推断攻击。然后,我们引入了ReconSyn,这是一种重构建攻击,它生成了多个被认为在指标下是私有的合成数据集,但实际上泄露了与单个记录特有的信息。我们证明,ReconSyn仅通过对单一拟合生成模型的黑盒访问以及隐私指标,就能恢复训练数据中78-100%的异常值。在过程中,我们展示了仅对模型应用差分隐私并不能缓解这种攻击,因为使用隐私指标打破了端到端的差分隐私管道。
arXiv:2311.10599v5 Announce Type: replace-cross
摘要:随着人工智能(AI)变得越来越普及,一个引起的问题是如何人与AI的互动可能会影响人际互动。例如,聊天机器人越来越多地被用作社交伴侣。虽然关于其使用对人类关系的影响有诸多猜测,但很少有关于其实际影响的实证研究。一个常见的假设是,与聊天机器人的关系会损害社交健康,通过伤害或替代人类互动。但这一假设可能过于简单,尤其是考虑到用户的社会需求以及他们已有的人际关系的健康状况。为了了解与聊天机器人的关系如何影响社交健康,我们研究了经常使用聊天机器人的人员以及不使用它们的人员。与预期相反,聊天机器人使用者表示这些关系对其社交健康有益,而非使用者则认为这些关系是有害的。另一个常见的假设是,人们认为有意识的人类样态的AI是令人不安和具有威胁性的。然而,在用户和非用户中,我们却发现恰恰相反:将聊天机器人视为更具意识和人类样态的人,与更为积极的看法和更明显的社交健康效益相关。用户的详细描述表明,这些具有人类样态的聊天机器人可能通过提供可靠且安全的互动来促进社交健康,而不一定损害人际关系,但这可能取决于用户已有的社交需求以及他们对人类样态和聊天机器人内在心智的感知。
arXiv:2310.08948v2 宣告类型: replace-cross
摘要:随着网络技术的不断发展,使用不同客户端存储的数据已成为越来越常见的做法。与此同时,由于其能够在保护数据隐私的情况下,使模型从分布于各个客户端的数据中学习的特性,联邦学习受到了广泛的关注。然而,现有的大多数工作假设客户端的数据是固定的。在现实场景中,这种假设很可能并不成立,因为数据可能会持续生成,新的类别也可能出现。鉴于此,我们专注于实用且具有挑战性的联邦分类增量学习(FCIL)问题。对于FCIL,局部和全局模型可能会因为新类别的到来而导致对旧类别的灾难性遗忘,而且客户端的数据分布是非独立且不相同分布(non-iid)。
在这篇论文中,我们提出了一种新颖的方法,称为基于提示的联邦分类增量学习(FCILPT)。考虑到隐私和有限的内存,FCILPT 不使用回溯机制来保存旧数据的实例。我们选择使用提示来缓解对旧类别的灾难性遗忘。具体地,我们将任务相关和任务无关的知识编码到提示中,保留局部客户端的旧知识和新知识,并解决了灾难性遗忘的问题。我们首先在本地客户端按提示池中的任务信息对任务信息进行排序,以在全局聚合前对不同客户端的任务信息进行对齐。这确保了同一任务的知识得到了全面整合,解决了由于不同客户端在同一个增量任务中缺少类别而导致的非-iid问题。在CIFAR-100、Mini-ImageNet和Tiny-ImageNet上的实验表明,FCILPT 在与最先进的方法相比时,实现了显著的准确率提升。
arXiv:2504.07596v2 宣布类型: 替换
摘要:大型语言模型(LLMs)因其在常识推理和代码生成方面的稳健能力,正逐渐成为自动化强化学习(RL)奖励设计的有前途的工具。通过与RL代理进行对话,LLMs构建了一个奖励观察空间(ROS),通过选择相关的环境状态并定义其内部操作。然而,现有的框架尚未有效利用历史探索数据或手动任务描述进行迭代发展。在本文中,我们提出了一种新颖的启发式框架,通过基于表格的探索缓存机制和文本-代码一致策略来增强LLM驱动的奖励设计。该框架引入了一个状态执行表,该表追踪环境状态的历史使用和成功率,克服了LLM对话中通常存在的马尔可夫约束,促进更有效的探索。此外,我们使用结构化提示将用户提供的任务描述与专家定义的成功标准进行一致化,确保奖励设计目标的对齐。对基准RL任务的全面评估表明,所提出的框架的有效性和稳定性。代码和视频演示可在 jingjjjjjie.github.io/LLM2Reward 获取。
arXiv:2504.06943v2 宣告类型: 修改
摘要:由大型语言模型(LLMs)驱动的代理在各种任务中已经展示了令人印象深刻的性能。然而,它们在需要特定结构化知识、灵活性或负责任决策的任务中仍面临限制。尽管代理能够感知其环境、形成推理、规划并执行动作以实现目标,但它们经常面临诸如幻觉和交互间缺乏上下文记忆等问题。本文探讨了如何通过案例推理(CBR)的策略——通过参考过去的经验来解决新问题——将CBR整合到LLM代理框架中。这种整合让LLMs能够利用显式知识,从而提高其有效性。我们系统地回顾了这些增强型代理的理论基础,确定了关键框架组件,并为案例获取、适应和学习过程制定了数学模型。我们还评估了CBR增强型代理与其他方法(如链式思维推理和标准检索增强生成)的效果,分析了它们的相对优势。此外,我们探讨了通过目标驱动的自主机制利用CBR的认知维度(包括自我反思、内省和好奇心)如何进一步增强LLM代理的能力。为进一步完善神经符号混合系统的研究,本文提出CBR是一种可行的方法,可以增强自主LLM代理的推理能力和认知方面的能力。
arXiv:2504.06514v2 宣告类型: 修改
摘要: 我们发现,无论是通过强化学习还是监督学习训练的推理大语言模型(LLM)对缺少前提条件的不恰当问题(MiP)的回应长度急剧增加,最终导致冗余且无效的思考。这种新引入的情景在很大程度上加剧了一般过度思考问题,我们将这种现象称为MiP-过度思考。这种失败违背了“测试时缩放法则”,但我们在多个我们自建的含有MiP的 数据集上广泛观察到这种现象,这表明了廉价的过度思考和缺乏批判思维的危害。令人惊讶的是,那些未专门针对推理进行训练的LLM在MiP情景中的表现要好得多,能够产生更短的回应并迅速识别不恰当的问题。这暗示了当前推理LLM的训练方法存在重大缺陷,未能充分鼓励有效的思考,导致思考模式的滥用。为了进一步探究这种失败的原因,我们对不同类型的LLM进行了细粒度的分析,研究了推理长度、过度思考模式以及关键思考的位置。此外,我们的扩展消融研究还揭示了过度思考可以通过推理模型响应的蒸馏传播。这些结果增强了我们对过度思考的理解,并为解决这一问题提供了新的见解。
arXiv:2504.05118v3 宣告类型: 重置
摘要: 我们介绍了基于价值的增强近端策略优化框架VAPO(VAPO: Value-based Augmented Proximal Policy Optimization framework for reasoning models),这是一种专为价值为基础范式中的推理模型设计的新框架。VAPO在AIME 2024数据集上进行基准测试,基于预训练的Qwen 32B模型,取得了最先进的得分 **60.4**。在相同的实验设置下直接对比,VAPO在与之前报道的DeepSeek-R1-Zero-Qwen-32B和DAPO的结果相比时,表现超过10分。VAPO的训练过程以其稳定性和效率突出。仅在5,000步内就达到了最先进的性能。此外,在多次独立运行中,没有发生训练崩溃的情况,这凸显了其可靠性。这项研究探讨了使用基于价值的强化学习框架进行长链推理(long-CoT reasoning)。我们指出了基于价值的方法面临的三个关键挑战:价值模型偏倚、异构序列长度的存在以及奖励信号的稀疏性。通过系统的设计理念,VAPO提供了一种综合解决方案,有效缓解了这些挑战,从而在长链推理任务中实现了更好的性能。