arXiv:2504.01707v2 Announce Type: replace-cross
摘要:上下文学习(ICL)对于大型语言模型(LLMs)至关重要,但其 effectiveness 受限于有限的上下文窗口,尤其是在超长上下文中。为克服这一限制,我们引入了 InfiniteICL 框架,该框架将 LLM 中的上下文和参数与人类认知系统中的短期和长期记忆相并行,重点在于将临时上下文知识转化为永久参数更新。这种方法显著减少了内存使用,维持了在不同输入长度下的稳健性能,并且从上下文知识的提取、选择和巩固原则理论上实现了无限上下文的集成。评估结果表明,我们的方法在事实回忆、基于事实的推理和技能获取任务中,相较于完整上下文提示,减少了90%的上下文长度,平均性能提高了103%。当我们对复杂的真实世界上下文进行顺序多轮变换(最长可达2M标记)时,我们的方法在使用原始上下文的0.4%的情况下超过了完整上下文提示。这些发现强调了 InfiniteICL 在增强 LLMS 的可扩展性和效率方面的潜力,打破了传统上下文窗口大小的限制。
arXiv:2504.01515v2 宣告类型: 替换-交叉
摘要:条件图像生成是一个具有广泛应用的关键任务,例如艺术创作和虚拟现实。然而,当前的生成方法往往针对特定任务,范围狭窄,只能处理有限的条件并具有受限的应用性。在本文中,我们提出了一种新颖的方法,将条件图像生成视为多种基础条件单元的模块化组合。具体而言,我们将条件分为三个主要单元:文本、布局和拖动。为了有效控制这些条件,我们为每个条件设计了一个专用的对齐模块。对于文本条件,我们引入了一个密集概念对齐(DCA)模块,该模块通过利用多样化的文本概念实现密集的视觉-文本对齐。对于布局条件,我们提出了一种密集几何对齐(DGA)模块,用于施加全面的几何约束,以保持空间配置。对于拖动条件,我们引入了一种密集运动对齐(DMA)模块,以应用多级运动正则化,确保每个像素遵循其预期的轨迹,而不产生视觉伪影。通过灵活插入和组合这些对齐模块,我们的框架增强了模型对多种条件生成任务的适应性,并极大地扩展了其应用范围。广泛的实验表明,在文本描述、分割掩模(边界框)、拖动操作及其组合等各种条件下,我们的框架都表现出优秀的性能。代码可在 https://github.com/ZixuanWang0525/DADG 获取。
arXiv:2504.01281v2 公告类型: replace-cross
摘要:我们提出了一种全面的框架,通过动态检索策略和强化微调来增强检索增强生成(RAG)系统。这种方法显著提高了大型语言模型在知识密集型任务上的表现,包括开放式领域问答和复杂推理。我们的框架整合了两种互补的技术:政策优化检索增强生成(PORAG),它优化了检索信息的使用,以及自适应标记层注意力评分(ATLAS),它根据上下文需求动态确定检索的时间和内容。这两种技术共同提高了检索内容的利用和相关性,提高了事实准确性并提升了响应质量。作为与任何基于Transformer的大型语言模型兼容的轻量级解决方案,我们的框架无需额外训练就能在知识密集型任务中表现出色,提高了RAG设置中的输出准确率。我们还提出了CRITIC,一种新颖的方法,通过根据标记的重要性有选择地压缩关键值缓存,来缓解长期上下文应用中的内存瓶颈。该框架还整合了测试时缩放技术,动态平衡推理深度和计算资源,并包含优化解码策略以实现更快的推理。基准数据集上的实验表明,我们的框架减少了幻觉现象,加强了领域特定的推理,并在传统RAG系统中实现了显著的效率和可扩展性提升。该集成方法促进了稳健、高效和可扩展的RAG系统在各种应用中的发展。
arXiv:2504.01128v2 通知类型: 交叉替换
摘要: 潮流是强且局部狭窄的水流,向外流入海洋,导致世界各地发生大量的海滩相关受伤和死亡事件。由于潮流的无定形性质以及缺乏标注数据,准确识别潮流仍然具有挑战性,这通常需要专家知识。为了应对这些问题,我们提出了RipVIS,这是一个明确为潮流分割设计的大规模视频实例分割基准。RipVIS 的规模比之前的数据集大一个量级,包含184个视频(212,328帧),其中150个视频(163,528帧)包含潮流,这些视频来自多种来源,包括无人机、手机和固定的海滩相机。我们的数据集涵盖了多种视觉场景,包括波破碎模式、沉积物流动和水色变化,这些场景跨越多个全球地点,包括美国、墨西哥、危地马拉、葡萄牙、意大利、希腊、罗马尼亚、斯里兰卡、澳大利亚和新西兰。大多数视频以5 FPS标注,以确保在动态场景中保持准确性,同时有34个无潮流的额外视频(48,800帧)。我们使用Mask R-CNN、Cascade Mask R-CNN、SparseInst和YOLO11进行了全面的实验,并针对潮流分割任务对这些模型进行了微调。结果使用多个指标报告,特别关注F2分数以优先考虑召回并减少假阴性。为了提高分割性能,我们引入了一种新的后处理步骤,基于时间置信度聚合(TCA)。RipVIS旨在为潮流分割树立新的标准,以促进更安全的海滩环境。我们提供了一个基准网站,与研究社区分享数据、模型和结果,并鼓励持续合作和未来贡献,网址为https://ripvis.ai。
arXiv:2504.00457v3 宣告类型: replace-cross
摘要: 我们介绍了DD3G,一种将多视角扩散模型(MV-DM)提炼成3D生成器的方法,利用高斯点渲染。DD3G通过对MV-DM进行常微分方程(ODE)轨迹模拟,压缩和整合了大量的视觉和空间几何知识,确保提炼出的生成器在仅使用3D数据训练的生成器中表现更好。与之前的近似优化方法不同,我们对MV-DM和3D生成器的表示空间进行了对齐,将教师的概率流转移到学生,从而避免了由于概率抽样而导致优化目标的一致性问题。引入概率流以及3D高斯中的各种属性耦合在生成过程中带来了挑战。为了解决这个问题,我们提出了PEPD生成器,包含模式提取和渐进解码阶段,允许高效融合概率流,并能在0.06秒内将单张图像转换为3D高斯。此外,为了减少知识损失并克服稀疏视角监督,我们设计了一种联合优化目标,通过显式监督和隐式验证确保生成样本的质量。利用现有的2D生成模型,我们编译了120,000张高质量的RGBA图像进行提炼。在合成和公开数据集上的实验表明了我们方法的有效性。我们的项目可在 https://qinbaigao.github.io/DD3G_project/ 获取。
arXiv:2504.00441v2 安全护栏类型: 替换交叉
摘要: 随着大型语言模型(LLMs)和生成性AI的广泛应用,安全护栏已成为确保其安全使用的关键工具。然而,在添加安全护栏的同时也不可避免地会产生权衡;加强安全措施可能会降低易用性,而更具灵活性的系统可能会留下对抗性攻击的漏洞。在这项工作中,我们探索了当前的安全护栏是否能够在维护实用性的前提下有效地防止滥用。我们提出了一种评估这些权衡的框架,衡量不同安全护栏在风险、安全性和易用性之间的平衡,并构建了一个高效的安全护栏。
我们的研究结果证实,在安全护栏方面没有免费的午餐;加强安全性往往需要牺牲易用性。为了解决这一问题,我们提出了一个设计更好的安全护栏的蓝图,以最小化风险同时保持易用性。我们评估了多种行业安全护栏,包括Azure内容安全性、Bedrock安全护栏、OpenAI的审核API、Guardrails AI、Nemo安全护栏和Enkrypt AI安全护栏。此外,我们还评估了GPT-4o、Gemini 2.0-Flash、Claude 3.5-Sonnet和Mistral Large-Latest等LLM在不同系统提示下的响应,包括简单的提示、详细的提示以及带有步骤推理(CoT)的详细提示。我们的研究提供了一个清晰的安全护栏性能对比,突出了在平衡安全性和易用性方面的挑战。
arXiv:2504.00030v2 宣告类型: replace-cross
摘要:推测解码通过使用较小的草稿模型提出令牌,然后由较大的目标模型验证,从而加快了大型语言模型(LLM)的推理速度。然而,选择最优的推测长度对于在最大化加速的同时最小化浪费的计算至关重要。我们引入了 \textit{GammaTune} 和 \textit{GammaTune+},这两种无需训练的自适应算法可以根据令牌接受率动态调整推测长度,使用的是基于启发式的切换机制。在 SpecBench 上针对多个任务和模型对进行评估,我们的方法优于其他基于启发式的做法和固定长度的推测解码,\textit{GammaTune} 实现了平均 15\% ($\pm$5\%) 的加速,\textit{GammaTune+} 实现了 16\% ($\pm$3\%) 的加速,同时减少了性能差异。这使 \textit{GammaTune} 成为一个稳健且高效的现场部署解决方案。
arXiv:2503.24278v2 通知类型: 替换-交叉
摘要:大规模且可复制的策略评估一直是机器人学习中的长期挑战。评估对于评估进展和构建更好的策略至关重要,但在现实世界中进行评估,特别是要达到统计上可靠的规模,所需的人员时间成本很高且难以获取。评估越来越通用的机器人策略需要越来越多样化的评估环境,使得评估瓶颈更加显著。为了使对机器人策略的现实世界评估更加实用,我们提出了AutoEval,这是一个可以在最小人类干预的情况下全天候自主评估通用机器人策略的系统。用户通过将评估任务提交到AutoEval队列来与AutoEval交互,类似于软件任务是如何通过集群调度系统提交的,AutoEval将在一个框架下自动执行评估任务,该框架提供自动成功检测和自动场景重置。我们展示了AutoEval几乎可以完全消除评估过程中的人员参与,使可以进行全天候评估,并且评估结果与手动执行的手动评估结果非常接近。为了促进机器人社区中通用策略的评估,我们提供了对流行BridgeData机器人配置中带有WidowX机器人手臂的多个AutoEval场景的公共访问权限。未来,我们希望可以在不同机构设置AutoEval场景,以形成一个多样且分布式的评估网络。
arXiv:2503.24108v2 Announce Type: replace-cross
摘要:结肠镜检查期间早期检测、精确分割、分类和追踪息肉对于预防结肠直肠癌至关重要。许多现有的基于深度学习的结肠镜检查视频分析方法要么需要特定任务的微调,要么缺乏追踪能力,要么依赖于特定领域的预训练。在本文中,我们介绍了PolypSegTrack,这是一种新颖的基础模型,能够联合解决结肠镜检查视频中的息肉检测、分割、分类和无监督追踪问题。我们的方法利用了一种新颖的条件遮罩损失,使我们能够在具有像素级分割遮罩或边界框注释的不同数据集之间灵活训练,从而避免了特定任务的微调。我们的无监督追踪模块可靠地在帧之间关联息肉实例,而无需依赖任何启发式方法。我们利用了一个在自然图像上无监督预训练的坚固的视觉基础模型骨干网络,从而消除了对特定领域预训练的需求。在多个息肉基准数据集上的广泛实验表明,我们的方法在检测、分割、分类和追踪方面显著优于现有最先进的方法。
arXiv:2503.22879v2 宣告类型: replace-cross
摘要:状态空间模型(SSMs)因其一致的内存使用和高性能,正在成为替代变压器的有吸引力的选择。尽管如此,由于存储需求和计算能力的限制,将SSMs扩展到云服务或有限资源的设备上依然是具有挑战性的。为了克服这个问题,使用低位宽数据格式对SSMs进行量化可以减小模型大小并从硬件加速中受益。然而,由于SSMs容易产生量化引起的误差,最近的努力集中在在不牺牲性能的情况下优化特定的模型或位宽以提高效率。然而,不同的位宽配置对于不同的场景是必要的,例如W4A8用于增强大批次解码速度,而W4A16则用于增强单用户短提示生成速度。为了应对这一挑战,我们提出了Quamba2,它兼容Mamba1和Mamba2的W8A8、W4A8和W4A16配置,以应对SSM在各种平台上的部署需求。基于状态空间模型的通道顺序保持和激活持久性,我们提出了一种分批离线量化方法,将线性递归的输入按输入$x$排序和聚类,结合对输入依赖参数$B$和$C$的按状态组量化。为确保状态空间模型输出的计算不变性,我们根据聚类序列离线重新安排权重。实验结果显示,Quamba2-8B优于几种最新的SSM量化方法,在预填充和生成阶段分别提供1.3倍和3倍的速度提升,同时实现4倍的内存减少,平均准确率下降仅为1.6%。我们在MMLU上的评估显示了我们框架的通用性和鲁棒性。代码和量化模型将发布在:https://github.com/enyac-group/Quamba。