arXiv:2502.13965v1 类型: cross
摘要: 大型语言模型(LLM)应用正从简单的聊天机器人演变为动态的通用代理程序,这些程序扩展了对LLM的调用和输出令牌,以帮助AI代理进行推理、探索并解决复杂的任务。然而,现有的LLM服务系统忽视了程序之间的依赖关系,错过了许多优化的机会。我们的分析表明,提交给LLM服务引擎的程序会经历长时间的累积等待时间,主要原因是在个体LLM请求和程序层面都存在头部阻塞。为解决这一问题,我们介绍了Autellix,这是一种将程序视为一级公民以最小化其端到端延迟的LLM服务系统。Autellix拦截程序提交的LLM调用,为调度器提供程序级别的上下文信息。我们为单线程和分布式程序提出了两种调度算法,基于程序之前完成的调用预emption和优先处理LLM调用。我们的评估显示,在各种不同的LLM和代理任务负载下,与最先进的系统(如vLLM)相比,Autellix在相同延迟的情况下将程序的吞吐量提高了4-15倍。
arXiv:2502.13964v1 宣告类型:交叉
摘要:许多日常移动操作任务需要精确地与小物体互动,例如旋转把手来打开橱柜或按压开关。在本文中,我们开发了基于视觉模型的伺服控制(SVM),这是一种无需闭环训练的框架,能够使移动操作器处理涉及小物体操作的精确任务。SVM 使用 RGB-D 腕部相机,并使用视觉伺服控制。我们的创新之处在于使用最先进的视觉模型可靠地从腕部图像中计算 3D 目标,以应对多样化的任务并在末端执行器遮挡的情况下。为了减轻遮挡伪影,我们利用视觉模型进行遮挡补全,从而显著提高目标定位的准确性。我们证明,在辅助遮挡补全方法的情况下,开放式词汇短语检测器可以作为直接插件模块来识别语义目标(例如把手),而点跟踪方法可以可靠地跟踪用户点击指示的交互点。这种无需闭环训练的方法在真实世界的新环境中对未见过的对象进行操作时实现了 85% 的零样本成功率,绝对成功率比基于 1000 多次演示的开环控制方法和模仿学习基线高 50%。
arXiv:2502.13957v1 类型: cross
摘要: 检索增强生成(RAG)在知识密集型任务中显示出巨大的潜力,但其传统的架构依赖于静态检索,这限制了它们在需要顺序信息寻求的复杂问题上的有效性。虽然代理推理和搜索提供了一种更适应的方法,但大多数现有方法严重依赖于提示工程。在此工作中,我们引入了RAG-Gym,这是一种统一的优化框架,通过在每次搜索步骤中进行细粒度的过程监督来增强信息寻求代理。我们还提出了一种名为ReSearch的新型代理架构,它在RAG-Gym框架内将答案推理与搜索查询生成相结合。在四个具有挑战性的数据集上的实验表明,RAG-Gym在多种代理架构上的性能提高了高达25.6%,而ReSearch始终优于现有基线。进一步的分析突显了高级LLM作为过程奖励裁判的有效性以及训练的奖励模型在不同LLM验证中的可转移性。此外,我们还研究了代理RAG的训练和推理的扩展性。项目主页可在https://rag-gym.github.io/访问。
arXiv:2502.13946v1 安全类型: cross
摘要:大型语言模型(LLMs)的安全对齐仍然容易受到攻击,因为它们的初始行为可以通过相对简单的攻击轻易被“破解”。由于在输入指令和初始模型输出之间填充固定模板是现有LLMs的一种常见做法,我们假设这个模板是其脆弱性的关键因素之一:LLMs的安全相关决策过度依赖于模板区域中的聚合信息,这在很大程度上影响了这些模型的安全行为。我们将这一问题称为模板锚定的安全对齐。在本文中,我们进行了广泛的实验,并验证了模板锚定的安全对齐在各种对齐的LLMs中普遍存在。我们的机制分析展示了当遇到推断时的“破解”攻击时,这导致了模型的脆弱性。此外,我们表明,从模板区域分离安全机制是有希望减轻“破解”攻击脆弱性的。我们鼓励未来的研究开发出更 robust 的安全对齐技术,减少对模板区域的依赖。
arXiv:2502.13935v1 声明类型: cross
摘要: 当前的机器学习 paradigmn 依赖于神经网络等连续表示,通过迭代调整参数来逼近结果,而不是直接学习问题的结构。这在网络中传播信息,导致信息丢失和不可理解的问题。在环境动力学建模的先前工作基础上,我们提出了一种方法,该方法以结构化和连续的方式学习视觉空间。我们的方法通过细化网络来捕捉对象的核心结构,同时有效地表示结构中的显著亚变体。我们通过 2D 形状检测展示了这一点,证明了在不覆盖知识的情况下,网络可以逐步学习,并创建紧凑且易于理解的表示。这些结果为视觉处理提供了一种透明的、不断学习的替代传统神经网络的方法。
arXiv:2502.13928v1 Announce Type: cross
摘要:近期的研究表明,大型视觉-语言模型(VLMs)往往会忽略图像内容,过度依赖语言模型的先验知识,导致视觉接地任务中的错误和幻觉。我们假设这一问题的原因是现有的VLMs并没有明确地训练产生与细粒度图像细节准确对接的文字。为了在VLM训练期间增强视觉反馈,我们提出了S-VCO(对称视觉对比优化),这是一种全新的微调目标,引导模型捕捉重要的视觉细节并且与相应的文本标记对齐。为了进一步促进这种详细对齐,我们引入了MVC,这是一种构建数据集,通过自动过滤和增强视觉反事实数据,挑战模型面对包含最小视觉对比的难对比案例。实验表明,我们的方法在涵盖不同能力和领域的各种基准测试中一致地提高了VLM的性能,实现了高达22%的幻觉减少,并在视觉中心任务和一般任务上取得了显著进步。值得注意的是,这些改进在更高视觉依赖性的基准测试中表现得更加明显。简而言之,S-VCO为VLM在视觉依赖任务上的性能提供了显著增强,同时保持或甚至提高了模型的一般能力。我们在https://s-vco.github.io/开源了我们的代码。
arXiv:2502.13913v1 类型: cross
摘要:“苏格拉底是人。所有人都会死亡。因此,苏格拉底会死亡。”这个经典的例子展示了两跳推理,即结论在两个相连前提的基础上逻辑得出。虽然基于变换器的大语言模型(LLMs)可以进行两跳推理,但在面对分散注意力的前提时,它们往往会退化为随机猜测。为了了解其背后的机制,我们在合成的两跳推理任务上训练了一个三层变换器。训练动态显示出两个阶段:一个缓慢的学习阶段,在此阶段中,三层变换器像LLMs一样进行随机猜测,随后是一个突然的相变阶段,在此阶段中,三层变换器突然达到100%的准确性。通过逆向工程,我们解释了模型如何在初期随机猜测干扰,如何在最终学会忽略干扰的原因。我们进一步提出一个三个参数模型,支持对变换器训练动态机制的因果陈述。最后,对于LLMs的实验结果表明,发现的机制在不同规模下具有泛化能力。我们的方法为大语言模型的科学理解提供了新的视角,而我们的发现为推理如何在训练过程中涌现提供了新的见解。
arXiv:2502.13909v1 类型: cross
摘要: 大型语言模型 (LLMs) 由于其高级文本理解能力和上下文意识,最近成为了推荐系统的有前景的工具。尽管目前对基于LLM的推荐 (LLM4Rec) 模型的训练和评估主要是在顺序推荐场景下进行的,但我们发现,现有模型是否能够充分捕捉用户项目交互序列中固有的顺序信息已经被很大程度上忽视了。在本文中,我们首先通过一系列实验展示,现有的 LLM4Rec 模型在训练和推理过程中并不能充分捕捉序列信息。然后,我们提出了一种简单而有效的基于LLM的顺序推荐器,称为 LLM-SRec,这是一种通过从预先训练的 CF-SRec 模型中提取的用户表示对LLM进行蒸馏以增强其对序列信息整合的方法。我们的大量实验表明,LLM-SRec 提高了LLM理解用户项目交互序列的能力,最终提高了推荐性能。此外,与现有的 LLM4Rec 模型需要对LLM进行微调不同,LLM-SRec 仅通过训练少量轻量级的MLP就能达到最先进的性能,突显了其在实际应用中的实用性。我们的代码可在 https://github.com/Sein-Kim/LLM-SRec 获取。
arXiv:2502.13905v1 交叉类型公告
摘要:为了减轻高维问题对高斯过程(GP)的影响,可以将其分解为具有较低维度的耦合子过程的高斯过程网络(GPN)。在某些情况下,GPN内可以获得中间观察值。然而,在大多数实际系统中,中间观察值通常间接、噪声大且不完整。本文引入了部分可观测高斯过程网络(POGPN)来建模实际过程网络。我们建模了子过程潜在函数的联合分布,并使用所有子过程的观察值进行推理。POGPN将观察透镜(观察似然性)纳入了成熟的深度高斯过程推理方法。我们还提出了两种训练POGPN的方法,使其能够在节点观察的基础上对整个网络进行推理。在基准问题的应用中,证明了在训练和推理过程中结合部分观察值可以提高整体网络的预测性能,这为其实际应用提供了令人乐观的前景。
arXiv:2502.13897v1 Announce Type: cross
摘要:本文介绍了DataSciBench,这是一种综合基准,用于评估大型语言模型(LLM)在数据科学中的能力。最近的相关基准主要集中在单一任务、容易获得的正确答案以及简单明了的评估指标上,这限制了可以评估的任务范围。相比之下,DataSciBench 是基于一个更全面和精心收集的自然且具有挑战性的提示集合构建的,这些提示具有不确定的正确答案和评估指标。我们开发了一种半自动化的流程来生成正确答案(GT)和验证评估指标。该流程利用并实施了基于 LLM 的自我一致性及人工验证策略,通过利用收集的提示、预定义的任务类型和汇总函数(指标)生成准确的 GT。此外,我们提出了一种创新的Task-Function-Code(TFC)框架,基于精确定义的指标和编程规则来评估每次代码执行的结果。我们的实验框架涉及使用我们收集到的多样化提示测试6个API基础模型、8个开源通用模型和9个开源代码生成模型。这种方法旨在提供更全面和严格的LLM数据科学评估,揭示它们的优势和不足。实验结果表明,API基础模型在所有指标上的表现优于开源模型,Deepseek-Coder-33B-Instruct 在开源模型中得分最高。我们已将所有代码和数据发布在 https://github.com/THUDM/DataSciBench。