arXiv:2502.12435v1 宣告类型: 新
摘要: 大型语言模型(LLMs)的规划能力近年来引起了越来越多的关注,因为它们在多步推理方面表现出了显著的能力,并且能够跨广泛的领域进行泛化。虽然一些研究人员强调LLMs在执行复杂规划任务方面的潜力,但也有人指出了其在性能上的显著局限性,特别是在处理长远推理的复杂性方面。在本文综述中,我们详细地批判性地研究了LLMs在自动化规划中的应用情况,探讨了它们的成功与不足之处。我们表明,尽管由于这些局限性,LLMs不太适合作为独立的规划者,但在与其他方法结合使用时,它们仍然为增强规划应用提供了巨大的机会。因此,我们提倡一种平衡的方法,结合利用LLMs固有的灵活性和泛化知识,以及传统规划方法的严谨性和成本效益。
arXiv:2502.12275v1 公告类型: 新
摘要:本文介绍了一种名为ExKLoP的新框架,该框架旨在评估大型语言模型(LLMs)在逻辑推理系统中整合专家知识的能力。这种能力在工程领域尤为重要,因为在工程中,如制造商推荐的操作范围这样的专家知识可以直接嵌入到自动监控系统中。通过模拟专家验证步骤,诸如范围检查和约束验证等任务有助于确保系统的安全性和可靠性。我们的方法系统地评估了LLM生成的逻辑规则,评估了这些关键验证任务中的语法流畅性和逻辑正确性。我们还通过基于代码执行结果的迭代反馈回路探索了模型的自我纠正能力。ExKLoP提供了一个可扩展的数据集,包含130个工程前提,950个提示和相应的验证点。它允许对基准测试进行全面评估,同时控制任务复杂度和实验的可扩展性。我们利用合成数据创建方法对Llama3、Gemma、Mixtral、Mistral和Qwen等多种LLM进行了广泛的实证评估。结果显示,尽管模型生成了几乎完美的语法正确代码,但在将专家知识翻译成逻辑上却经常出现错误。此外,迭代自我纠正仅带来了微小的改进(最多3%)。总体而言,ExKLoP提供了一个强大的评估平台,可以简化选择有效模型以进行自我纠正系统的过程,同时清晰地界定了遇到的错误类型。完整的实现及其所有相关数据可在GitHub上获得。
arXiv:2502.12224v1 宣告类型: 新
摘要: 大型语言模型(LLMs)在各种任务中展现了惊人的性能,并且其在边缘场景的应用引起了广泛关注。然而,由于其高内存需求,适合边缘场景的稀疏激活专家混合(MoE)模型受到了相对较少的关注。已经提出了卸载方法来解决这一挑战,但这些方法在专家预测上面临困难。不准确的专家预测会导致推理延迟延长。为了促进MoE模型在边缘场景的应用,我们提出了Fate,这是一种为MoE模型设计的卸载系统,能够在资源受限的环境中实现高效的推理。Fate的设计核心在于,可以有效地利用来自相邻层的门控输入来进行专家预取,从而在不增加额外GPU开销的情况下实现高预测准确性。此外,Fate采用了一种倾向于浅层专家缓存的策略,使专家命中率提高到99%。此外,Fate集成了针对缓存优化和IO效率的定制量化策略。实验结果显示,与按需加载和基于专家激活路径的方法相比,Fate在填充速度上分别实现了4.5倍和1.9倍的加速,在解码速度上分别实现了4.1倍和2.2倍的加速,同时保持了推理质量。此外,Fate的性能改进在不同的内存预算下都是可扩展的。
arXiv:2501.19353v3 Announce Type: replace-cross
摘要:自2021年SciCap数据集发布以来,研究界在为学术文章中的科学图表生成标题方面取得了显著进展。2023年,首次举办了SciCap挑战赛,邀请全球团队使用扩展的SciCap数据集开发能够对各类学术领域中的多种图表类型生成标题的模型。与此同时,文本生成模型快速进步,涌现出许多强大的预训练大规模多模态模型(LMMs),这些模型在各种视觉-语言任务中展现了令人印象深刻的性能。本文概述了首次SciCap挑战赛,并详细介绍了各种模型在该数据集上的表现,捕捉了当时领域的状态。我们发现,专业的编辑普遍更偏好由GPT-4V生成的图表标题,而不仅仅是其他所有模型生成的标题,甚至包括作者原始撰写的标题。基于这一关键发现,我们进行了详细分析,以回答以下问题:先进的LMMs是否已经解决了生成科学图表标题的任务?
arXiv:2404.09077v3 Announce Type: replace-cross
摘要:大型语言模型(LLMs)在开放式领域问题回答方面取得了显著成果。然而,它们仍然面临着幻觉和知识截止时间等挑战。这些问题可以通过上下文学习得到缓解,即在生成答案之前为LLMs提供相关背景信息。近期文献提出了知识图谱提示(KGP),将知识图谱与基于LLM的遍历代理相结合,大大提升了文档检索质量。然而,KGP需要大量数据集进行昂贵的微调,并且仍然容易产生幻觉。在本文中,我们提出了一种增强方法——CuriousLLM,该方法将好奇心驱动的推理机制整合到了LLM代理中。该机制使代理能够生成相关后续问题,从而更有效地引导信息检索过程。我们方法的核心在于开发了一个新的Follow-upQA数据集,该数据集包括问题和支持证据作为输入,并且后续问题作为事实标准。实验结果显示,CuriousLLM在多文档问答(MD-QA)中的性能显著提升,避免了原KGP框架中所面临的大量计算成本和延迟问题。
arXiv:2501.13622v3 宣告类型: 替换
摘要: 过程奖励模型 (PRM) 在数学推理任务中起着重要作用,需要高质量的监督过程数据。然而,我们观察到大型语言模型 (LLMs) 生成的推理步骤往往未能表现出严格逐步的信息,导致冗余,这会妨碍有效的推理。为了解决这一问题,我们提出了一种简单而有效的逐层细化策略 CFPRM。我们的方法不侧重于冗余步骤的检测,而是首先建立一个粗粒度窗口,将相邻的推理步骤合并为统一的整体步骤。然后逐步减小窗口大小以提取细粒度的推理步骤,从而能够在多个粒度级别进行数据收集以供训练。通过利用这种层次细化过程,CFPRM 减少了冗余同时保留了必要的细粒度知识。在三个损失标准下的两个推理数据集上的广泛实验验证了 CFPRM 的有效性和灵活性。
arXiv:2502.11946v2 Announce Type: cross
摘要:实时语音交互作为一种人类与机器协作的基本接口,具有巨大的潜力。然而,当前的开源模型面临着诸如语音数据采集成本高、动态控制薄弱和智能有限等问题。为了解决这些挑战,本文介绍了Step-Audio,这是第一个生产级别的开源解决方案。主要贡献包括:1)一个包含130亿参数的统一语音-文本多模态模型,实现了统一的理解和生成能力,Step-Audio-Chat版本已开源;2)生成语音数据引擎,建立了可负担的语音克隆框架,并通过蒸馏生成了开源的轻量级Step-Audio-TTS-3B模型;3)基于指令的精细控制系统,能够动态调整方言、情绪、唱歌和说唱;4)增强的认知架构,增加了工具调用和角色扮演能力,有效管理复杂任务。基于我们新的StepEval-Audio-360评估基准,Step-Audio在人类评估中达到了最先进的性能,尤其是在指令遵循方面。在LLaMA Question等开源基准上,显示了9.3%的平均性能提升,展示了我们对推进开源多模态语言技术发展的承诺。我们的代码和模型可在https://github.com/stepfun-ai/Step-Audio获取。
arXiv:2502.11658v2 宣布类型:交叉
摘要:尽管移动设备在用户日常生活中提供了许多便利,但也引发了多种隐私问题。例如,它们可以通过位置数据泄露敏感信息,而这些位置数据不仅被服务提供商共享,也被移动应用程序共享。了解用户是如何以及与谁共享位置数据,以及用户对潜在隐私风险的认识,是设计可使用且增强隐私的技术的重要概念。在这项工作中,我们通过对99名年轻成年参与者(即数字原住民)进行调查,对智能手机用户对位置数据共享的认知、感知及其自我报告的行为进行了定量和定性分析。我们将陈述的实践与实际行为进行对比,以更好地理解他们的认知模型,并在检查位置踪迹和从中可以推断出的信息前后对参与者进行隐私风险理解的调查。
我们的实证结果表明,参与者存在风险较高的隐私实践:约54%的参与者低估了他们授予应用程序的数据访问权限的数量,而33%的参与者忘记或不考虑撤销数据访问权限。通过使用演示器从位置数据中进行推断,我们观察到略多于一半的参与者(57%)对可以推断出的信息程度感到惊讶,并且47%的参与者打算通过权限来减少对数据的访问。最后,大多数参与者对更好地保护自己的工具了解甚少,但仍愿意根据建议来提高隐私保护(51%)。通过透明工具向包括数字原住民在内的人们普及隐私风险似乎是一种有前景的方法。
arXiv:2502.11612v2 Announce Type: cross
摘要:具有高斯策略的Soft Actor-Critic(SAC)算法已成为实现最大熵强化学习(MaxEnt RL)目标的主要实现方式,该目标将熵最大化融入其中以鼓励探索并提高策略的鲁棒性。虽然高斯策略在简单任务上表现良好,但其探索能力和在复杂多目标RL环境中的潜在性能受限于其固有的单模性。在本文中,我们采用生成模型之一的扩散模型作为策略表示,该模型能够捕捉复杂的多模态分布,以实现MaxEnt RL目标,并开发了一种名为扩散策略最大熵RL(MaxEntDP)的方法。该方法能够有效探索,使策略更接近最优的MaxEnt策略。在Mujoco基准测试上的实验结果表明,MaxEntDP在MaxEnt RL框架内的表现优于高斯策略和其他生成模型,并且在性能上与其他基于扩散的在线RL算法相当。我们的代码可在https://github.com/diffusionyes/MaxEntDP获取。
arXiv:2502.11308v2 通告类型:交叉
摘要:随着大规模语言模型(LLMs)和向量数据库的日益流行,私有文本数据越来越多地被处理并存储为数值嵌入。然而,最近的研究表明,这类嵌入存在反转攻击的风险,攻击者可以通过重建原始文本来揭示敏感信息。先前的研究大多假设可以通过数据泄露或近乎无限制的API访问获取数百万句子来训练攻击模型。而借助我们的方法,只需一个数据点即可实现部分成功的反转攻击。即便只有1000个数据样本,性能也能在一系列黑盒编码器中达到最优,而无需使用泄露的数据进行训练。我们提出了一种利用对齐和生成(ALGEN)的少量示例文本嵌入反转攻击方法,通过将受害嵌入对齐到攻击空间,并使用生成模型重建文本。我们发现,ALGEN攻击可以在不同领域和语言之间有效转移,揭示关键信息。我们还研究了针对ALGEN的各种防御机制,并发现这些机制均不有效,突显了反转攻击带来的脆弱性。通过显著降低反转成本,并证明嵌入空间可以通过一次优化进行对齐,我们确立了一种新的文本嵌入反转范式,为进一步在自然语言处理(NLP)中的嵌入对齐应用奠定了基础。