arXiv:2502.11141v1 交叉公告类型
摘要:最近的研究表明,大脑比以前认为的要浅薄,挑战了传统上假设的腹侧视觉路径的层级结构。在这里,我们证明了通过进化神经架构搜索优化卷积网络架构以与大脑对齐,能够形成具有清晰表示层级结构的模型。尽管这些识别出的模型的权重是随机的,但它们的对齐得分超过了预训练分类模型——这一点通过回归分析和表示相似性分析都能得到证实。此外,通过传统的监督训练,优化与腹侧晚期区域对齐的架构成为了有竞争力的分类模型。这些发现表明,层级结构是灵长类视觉处理的基本机制。最后,这项工作展示了神经架构搜索作为计算认知神经科学领域研究框架的潜力,有助于减少该领域对手工设计卷积网络的依赖。
arXiv:2502.11140v1 通知类型: 交叉
摘要:大型语言模型(LLMs)的前所未有的突破将其渗透到自动化可视化代码生成的应用中。少样本提示和查询扩展技术显著提高了数据可视化性能,但仍然无法克服自然语言查询的模糊性和复杂性——这内在地要求人工介入。为缓解这些限制,我们提出了一种整体框架 VisPath:一种多路径推理和反馈驱动的优化框架,用于可视化代码生成,该框架有条不紊地通过结构化推理和细化增强代码质量。VisPath 是一个多阶段框架,特别设计用于处理不明确的查询。为了生成稳健的最终可视化代码,它首先利用初始查询通过 Chain-of-Thought (CoT) 提示生成多种多样重述的查询,每个查询代表一条不同的推理路径。细化后的查询用于生成候选可视化脚本,随后执行以生成多个图像。VisPath 全面评估输出的正确性和质量,为每个图像生成反馈,这些反馈随后由聚合模块用于生成最优结果。基准测试包括 MatPlotBench 和 Qwen-Agent Code Interpreter Benchmark 的广泛实验表明,VisPath 显著优于当前最先进的(SOTA)方法,相比平均提高了 17%,提供了更可靠的数据驱动可视化代码生成解决方案。
arXiv:2502.11137v1 安全类型: 横向
摘要: 近期,DeepSeek 系列模型凭借其卓越的推理能力和开源策略,正在重新塑造全球人工智能格局。尽管这些优势明显,但它们在安全性方面存在显著不足。罗博特智能公司的研究,该公司是思科的子公司,并且与宾夕法尼亚大学合作,发现当 DeepSeek-R1 处理有害提示时,其攻击成功率达到了 100%。此外,多家安全公司和研究机构也确认了该模型中的关键安全性漏洞。鉴于 DeepSeek 模型在中文和英文环境中的稳健表现,对其两种语言环境中的安全性也需要同等关键的安全评估。然而,当前的研究大多集中在英文环境中的安全性评估,这在全面评估它们在中文环境中的安全性性能方面留下了空白。针对这一空白,本研究引入了 CHiSafetyBench,这是一个针对中文环境的安全性评估基准。该基准系统地评估了 DeepSeek-R1 和 DeepSeek-V3 在中文环境中的安全性,揭示了它们在安全类别中的表现。实验结果量化了这两种模型在中文环境中的不足之处,为后续改进提供了关键洞察。
arXiv:2502.11132v1 宣告类型:cross
摘要:多模态假新闻检测通常需要复杂的架构和大量的计算资源,这在实际应用中带来了部署挑战。我们提出了一种名为UNITE-FND的新框架,将其重新定义为单模态文本分类任务。我们利用Gemini 1.5 Pro提出了六种专门的提示策略,将视觉内容转化为结构化的文本描述,使高效的文字模型能够保留关键的视觉信息。为了评估我们方法的有效性,我们引入了Uni-Fakeddit-55k这一精心构建的数据集系列,该系列包含55,000个样本,每个样本都通过我们的多模态到单模态翻译框架进行了处理。实验结果表明,UNITE-FND在二分类任务中的准确率达到92.52%,超越了之前的多模态模型,同时计算成本降低了超过10倍(使用TinyBERT变体:14.5M参数,相比处于SOTA水平的模型,参数量超过250M+)。此外,我们还提出了一套全面的五个新指标来评估图像到文本转换的质量,确保信息的最佳保留。我们的结果显示,结构化的文本表示可以在几乎不损失准确性的前提下替代直接的多模态处理,使得UNITE-FND成为资源受限环境中的实用且可扩展的替代方案。
arXiv:2502.11124v1 描述类型: cross
摘要: 半结构化物体操作是机器人在现实世界场景中执行各种任务的关键能力。由多个通过关节连接的部分组成的半结构化物体通过复杂的相对运动获得了多种功能机制。例如,保险箱包括门、把手和锁,只有当锁解锁时门才能打开。内部结构,如锁的状态或关节角度的约束,从视觉观察中无法直接观测到。因此,成功操作这些物体需要基于尝试和错误进行适应性调整,而不是一次性视觉推理。然而,现有用于半结构化物体的先前数据集和仿真环境主要集中在简单操作机制上,在这种机制中,物体的外观可以推断出完整的操作过程。为了增强适应性操作机制的多样性和复杂性,我们建立了一个新的半结构化物体操作环境,并为其配备了9类物体。基于该环境和物体,我们进一步提出了一种适应性演示收集和基于3D视觉扩散的模仿学习管道,用于学习适应性操作策略。通过仿真和实地实验验证了我们设计的有效性和提出的方法。我们的项目页面可在以下网址访问:https://adamanip.github.io
arXiv:2502.11108v1 宣告类型: cross
摘要:大规模语言模型(LLMs)在自然语言生成领域取得了显著进展。然而,它们经常生成未经验证的输出,这牺牲了它们在关键应用中的可靠性。在本研究中,我们提出了一种创新框架,通过检索增强生成技术将结构化的生物医学知识与LLMs结合起来。我们的系统通过识别和提炼与年龄相关黄斑变性(AMD)相关的医学摘要中的因果关系和命名实体,构建了一个全面的知识图。使用基于向量的检索过程和本地部署的语言模型,我们的框架产生的响应不仅具有上下文相关性,而且具有可验证性,直接引用了临床证据。实验结果表明,这种方法显著减少了幻觉,提高了事实精确性,并改善了生成响应的清晰度,为高级生物医学聊天机器人应用提供了稳健的解决方案。
arXiv:2502.11107v1Announce Type: cross
摘要:随着大型语言模型向着超人类性能迈进,确保它们与人类价值观和能力的对齐变得越来越复杂。由较弱模型的预测引导较强的系统提供了一种前景广阔的方法,但其效果可能会受到这些较弱预测内在噪声和不准确性的影响。为了解决这一问题,我们提出了一种理论上有依据的方法,用反向KL散度替换前向KL散度——前向KL散度的集中行为可能会过度拟合到不完美的弱信号。反向KL散度的零压制效应优先考虑高置信度预测,有效地减轻了不可靠弱监督的影响。理论上,我们扩展了现有的边界,并为前向和反向KL散度推导出了更紧的下界,证明了反向KL至少能够达到与前向KL相当的保证。尤为重要的是,在对顶层进行充分预训练后进行微调,反向KL唯一地保证了它在分歧的幅度上优于其弱监督者——这是一个前向KL无法提供的保证。实验上,我们证明了在大多数情况下,反向KL和反向交叉熵能够使强大的模型始终优于使用前向KL和标准交叉熵进行训练的模型,突显了这些反向损失的实际优势。
arXiv:2502.11101v1 类型:交叉
摘要:大型语言模型(LLMs)在各种语言任务中表现出色,但受限于输入长度有限和高计算成本。现有方法,如相对位置编码(例如,RoPE,ALiBi)和滑动窗口机制,部分缓解了这些问题,但通常需要额外的训练或在长输入时性能下降。在本文中,我们介绍了一种名为 \textbf{\textit{CacheFocus}} 的方法,该方法可以在不进行进一步训练的情况下增强长度归一化并减少推理延迟。我们的方法利用查询无关、离线缓存来高效地重用上下文 KV 缓存库。我们通过重新定位缓存键并引入分层适配缓存修剪来解决异常tokens分布放大的问题,从而在预填充期间丢弃低相关性缓存。此外,我们动态的适应性位置分配策略根据可用的位置编码范围最大化地重新分配缓存位置。实验显示,CacheFocus 在自然问题和TriviaQA数据集上优于其他方法,即使输入超过 \texttt{LLaMA-2} 模型的 4K 限制,也强调了其在长上下文LLMs中的实际效果。此外,即使 \texttt{Qwen2} 的最大输入长度很大,CacheFocus 的性能在文档数量增加时保持一致,有效地管理长文本生成而不会下降。
arXiv:2502.11094v1 Announce Type: cross
摘要:本文提出了一种双流文本到语音(TTS)模型——SyncSpeech,该模型能够在接收来自上游模型的流式文本输入的同时生成流式语音,从而与大规模语言模型实现无缝交互。SyncSpeech具有以下优势:低延迟,因为它在接收到第二个文本标记后就开始生成流式语音;高效率,因为它可以一步解码每个到达的文本标记对应的所有语音标记。为了实现这一点,我们提出了时间掩码变换器作为SyncSpeech的骨干网络,并结合标记级别时长预测来预测语音标记及其下一步骤的时长。此外,我们设计了一种两阶段训练策略,以提高训练效率和生成语音的质量。我们在英语和 Mandarin 数据集上评估了 SyncSpeech。与最近的双流TTS模型相比,SyncSpeech显著减少了语音标记的第一个包延迟,并加速了实时因子。此外,与传统的自回归TTS模型相比,在相同的数据量下,SyncSpeech在语音质量和鲁棒性方面都取得了相当的性能。语音样本可在 https://SyncSpeech.github.io/ 获得。
arXiv:2502.11090v1 安全类型:交叉
摘要:随着大型语言模型(LLMs)的迅速发展,LLMs的安全性已经成为一项至关重要的关切,亟需精确评估。当前的基准主要集中在单一回合对话或单一脱壳攻击方法上进行安全性评估。此外,这些基准并未详细考虑LLM识别和处理不安全信息的能力。为了解决这些问题,我们提出了一种细粒度基准SafeDialBench,用于评估LLMs在多回合对话中面对各种脱壳攻击的安全性。具体而言,我们设计了一种两层层次的安全分类体系,考虑了6个安全维度,并生成了超过4000个中英文双语多回合对话,涵盖了22种对话场景。我们采用了参考攻击和目的反转等7种脱壳攻击策略,以提高对话生成数据集的质量。值得一提的是,我们构建了一个创新的评估框架,评估模型在检测和处理不安全信息以及面对脱壳攻击时保持一致性的能力。针对17个LLMs的实验结果显示,Yi-34B-Chat和GLM4-9B-Chat表现出优越的安全性能,而Llama3.1-8B-Instruct和o3-mini则显示出安全漏洞。