arXiv 论文列表

作者: Noam Razin, Sadhika Malladi, Adithya Bhaskar, Danqi Chen, Sanjeev Arora, Boris Hanin

arXiv:2410.08847v4 公告类型: replace-cross 摘要：直接偏好优化（DPO）及其变体越来越被用于使语言模型与人类偏好保持一致。虽然这些方法旨在教导模型更多地生成受偏好响应，相对于不受偏好响应，但先前的研究观察到，在训练过程中，受偏好响应的可能性往往会降低。本工作揭示了这一反直觉现象的原因及其影响，我们将这一现象称为可能性位移。我们展示了可能性位移可能会导致灾难性的结果，将受偏好响应的可能性质量转移给意义相反的响应。以一个简单的例子为例，训练模型更倾向于 “No” 而不是 “Never” 可能会显著增加 “Yes”的概率。此外，当我们使模型对不安全的提示说“不”时，我们证明这种位移可能会无意中导致未对齐，通过将受偏好拒绝响应的可能性质量转移到有害响应（例如，将 Llama-3-8B-Instruct 的拒绝率从 74.4% 降低到 33.4%）。我们理论地表明，可能性位移是由嵌入相似度（以居中隐藏嵌入相似度（CHES）分数衡量）相似的偏好引起。从经验上讲，CHES 分数能帮助识别哪些训练样本在给定数据集中对可能性位移贡献最大。排除这些样本有效地缓解了我们在实验中遇到的无意未对齐。更广泛地说，我们的结果强调了拥有足够独特的偏好数据集的重要性，我们相信 CHES 分数可能在这方面证明是有价值的。

发布时间: 4/29/2025

查看原文

考拉-36M：一个大规模视频数据集，用于提高细粒度条件与视频内容的一致性

作者: Qiuheng Wang, Yukai Shi, Jiarong Ou, Rui Chen, Ke Lin, Jiahao Wang, Boyuan Jiang, Haotian Yang, Mingwu Zheng, Xin Tao, Fei Yang, Pengfei Wan, Di Zhang

arXiv:2410.08260v2 宣布类型: replace-cross 摘要：随着视觉生成技术的不断进步，视频数据集的规模呈指数增长。这些数据集的质量对视频生成模型的性能至关重要。我们认为，时间分割、详细的描述字幕和视频质量筛选是决定数据集质量的三个关键因素。然而，现有的数据集在这些方面存在各种局限性。为了解决这些问题，我们介绍了Koala-36M，一个大规模、高质量的视频数据集，该数据集具备准确的时间分割、详细的描述字幕和优异的视频质量。我们方法的核心在于提高细粒度条件与视频内容之间的一致性。具体来说，我们使用线性分类器在概率分布上进行操作，以提高过渡检测的准确性，确保更好的时间一致性。我们随后为分割后的视频提供结构化的字幕，平均长度为200个单词，以提高文本-视频对齐。此外，我们开发了一个视频训练适宜度评分（VTSS），该评分结合了多个子指标，使我们能够从原始语料库中筛选出高质量的视频。最后，我们将多个指标纳入生成模型的训练过程，进一步细化细粒度条件。我们的实验展示了我们数据处理流水线的有效性以及所提出的Koala-36M数据集的质量。我们的数据集和代码已在https://koala36m.github.io/上发布。

发布时间: 4/29/2025

查看原文

LightRAG：简单快速的检索增强生成

作者: Zirui Guo, Lianghao Xia, Yanhua Yu, Tu Ao, Chao Huang

arXiv:2410.05779v3 更新类型: 替换-交叉摘要: 检索增强生成（RAG）系统通过集成外部知识来源来增强大型语言模型（LLMs），从而使生成更准确且与上下文相关的响应，以满足用户需求。然而，现有的RAG系统存在显著的限制，包括依赖于平坦的数据表示和缺乏足够的上下文意识，这可能导致断碎片段的答案，无法捕捉复杂的相互依赖关系。为了解决这些挑战，我们提出了LightRAG，它将图结构融入到文本索引和检索过程中。这个创新框架采用了一种双层检索系统，能够从低层次和高层次的知识发现中全面检索信息。此外，将图结构与向量表示相结合，促进了相关实体及其关系的高效检索，显著提高了响应速度并保持了上下文的相关性。通过增量更新算法，这一能力进一步增强，确保及时整合新数据，使系统能够在快速变化的数据环境中保持有效和响应迅速。广泛的实验验证显示，与现有方法相比，在检索的准确性和效率方面有显著改进。我们已将LightRAG开源，并可在以下链接获取：https://github.com/HKUDS/LightRAG

发布时间: 4/29/2025

查看原文

基于预订的电动汽车充电站在线动态定价

作者: Jan Mrkos, Anton\'in Komenda, David Fiedler, Ji\v{r}\'i Vok\v{r}\'inek

arXiv:2410.05538v3 宣告类型: replace-cross 摘要: 本文介绍了一种新颖的模型，用于在线动态定价电动汽车充电服务，将预约、停车和充电整合为企业整体打包定价。我们的方法侧重于高需求的快速充电位置，采用泊松过程作为充电预约到达的模型，并通过马尔可夫决策过程（MDP）开发了一种在线动态定价策略。一个关键贡献是，当我们将连续时间泊松过程整合到离散的MDP框架中时，对离散化误差进行了新颖的分析。通过基于蒙特卡洛树搜索的启发式动态定价方法证明了MDP模型的可行性，为实际应用提供了可行的路径。

发布时间: 4/29/2025

查看原文

带有完备性保证的窗口全局多智能体路径规划

作者: Rishi Veerapaneni, Muhammad Suhail Saleem, Jiaoyang Li, Maxim Likhachev

arXiv:2410.01798v3 通知类型: replace-cross 摘要: 传统的多智能体路径规划（MAPF）方法试图计算从起始点到目标点的完全无碰撞路径。然而，在智能体需要快速重新规划的MAPF系统中，计算整个路径可能会花费太长时间。解决这种问题的方法通常采用"窗口"方法，并仅尝试在较小的时间窗口内找到无碰撞路径。这种方法的代价是不完全性；所有当前的窗口方法可能会陷入死锁或活锁。我们的主要贡献是引入了我们的框架WinC-MAPF，这是一种用于窗口MAPF的框架，旨在实现完整性。我们的框架结合了来自单智能体实时启发式搜索算法的启发式更新见解，以及来自MAPF算法的智能体独立性想法。我们还开发了单步CBS（SS-CBS），这是一种使用新颖修改后的CBS实例化的框架。我们展示了在现有窗口方法失败的情况下，SS-CBS，它只计划一步并更新启发式，能够有效地解决困难的场景。

发布时间: 4/29/2025

查看原文

lifelong domain一致性表示学习for 人员再识别

作者: Shiben Liu, Qiang Wang, Huijie Fan, Weihong Ren, Baojie Fan, Yandong Tang

arXiv:2409.19954v3 宣告类型: 替换-交叉摘要: 在从连续数据学习时，终身行人重识别（LReID）在领域内区分和跨领域差异之间表现出一种矛盾的关系。领域内区分关注个体差异（例如，服装类型、配饰等），而跨领域差异强调领域一致性。在最大化领域内区分和最小化跨领域差异之间取得平衡是提高LReID性能的关键挑战。现有大多数方法通过知识蒸馏来减少跨领域差异以保持领域一致性，但往往忽略了领域内区分。为了解决这一挑战，我们提出了一种新型领域一致性表示学习（DCR）模型，该模型探索全局和属性特定的表示作为桥梁，以平衡领域内区分和跨领域差异。在领域内部，我们探索全局和属性特定表示之间的互补关系，以提高相似身份之间的区分度。过度学习领域内区分可能导致灾难性遗忘。为进一步解决这个问题，我们开发了一种以属性为导向的抗遗忘（AF）策略，探索属性特定的表示以增强跨领域一致性，并提出了知识整合（KC）策略以促进知识迁移。广泛实验证明，我们的DCR模型在与最先进的LReID方法的性能上具有优势。我们的代码已在 https://github.com/LiuShiBen/DCR 公开可用。

发布时间: 4/29/2025

查看原文

基于任务的适配器的动态集成用于类别增量学习

作者: Jiashuo Li, Shaokun Wang, Bo Qian, Yuhang He, Xing Wei, Qiang Wang, Yihong Gong

arXiv:2409.14983v2 通知类型: 替换交叉摘要: 非示例类增量学习（NECIL）使模型能够在无需从头开始重新训练和存储旧任务示例的情况下连续获取新类，从而解决隐私和存储问题。然而，缺乏早期任务的数据加剧了NECIL中的灾难性遗忘挑战。本文提出了一种新颖的框架，称为特定任务适配器动态集成（DIA），该框架包括两个关键组件：特定任务适配器集成（TSAI）和切片级模型对齐。TSAI通过切片级适配器集成策略增强组合性，提供了更灵活的组合解决方案，同时保持较低的计算成本。切片级模型对齐通过两种专门机制Maintains特征一致性并保持准确的决策边界：切片级蒸馏损失（PDL）和切片级特征重构方法（PFR）。具体来说，PDL通过基于切片标记对新类学习的贡献实现基于蒸馏损失的特征级一致性，从而在连续模型之间保持特征级一致性。PFR通过从以前任务重建适应新任务知识的老类特征，促进准确的分类器对齐。广泛的实验验证了我们DIA的有效性，在NECIL环境中显著提高了基准数据集的性能，并保持了计算复杂性和准确性的最优平衡。

发布时间: 4/29/2025

查看原文

FedSlate：联邦深度强化学习推荐系统

作者: Yongxin Deng, Xihe Qiu, Xiaoyu Tan, Yaochu Jin

arXiv:2409.14872v2 宣告类型: replace-cross 摘要：强化学习方法已被用于优化推荐系统中的长期用户参与度。然而，现有的基于强化学习的推荐系统尚未充分利用跨不同平台的个体用户行为的相关性。一种可能的解决方案是将来自各种平台的数据集中到一处，并使用聚合数据进行训练。然而，这种方法会引发经济和法律方面的诸多问题，包括增加通信成本以及潜在的用户隐私威胁。为了应对这些挑战，我们提出了一种名为 FedSlate 的联邦强化学习推荐算法，该算法能够有效利用在法律层面不允许共享的信息。我们利用 SlateQ 算法来辅助 FedSlate 学习用户的长期行为并评估推荐内容的价值。我们通过联邦学习扩展了推荐系统的现有应用范围，从单一用户单一平台扩展到单一用户多平台，并通过引入联邦学习来解决跨平台学习的挑战。我们使用 RecSim 构建了一个仿真环境来评估 FedSlate，并将其性能与最先进的基准推荐模型进行了比较。实验结果表明，在各种环境设置中，FedSlate 的效果优于基线方法，并且在基线方法完全不适用的场景中，FedSlate 促进了推荐策略的学习。代码可在 \textit{https://github.com/TianYaDY/FedSlate} 获取。

发布时间: 4/29/2025

查看原文

MAGICS：由隐式批评者引导的最小最大化行为者博弈的对抗性强化学习，用于机器人安全的收敛神经合成

作者: Justin Wang, Haimin Hu, Duy Phuong Nguyen, Jaime Fern\'andez Fisac

arXiv:2409.13867v2 Announce Type: replace-cross 摘要：虽然鲁棒最优控制理论为设计可证明安全的机器人控制策略提供了严格的框架，但在处理高维问题时却难以扩展，因此增加了对深度学习在可处理性合成机器人安全性中的使用。不幸的是，现有的神经网络安全性合成方法通常缺乏收敛保证和解决方案的可解释性。在本文中，我们提出了最小极大演员由隐式批评引导的斯泰克尔伯格（MAGICS）——一种新颖的对抗强化学习（RL）算法，该算法可保证在最小极大均衡解附近的局部收敛。然后，基于此方法，我们为一种通用的基于深度强化学习的机器人安全性合成算法提供了局部收敛性保证。通过在OpenAI Gym环境中进行的仿真研究以及与36维四足机器人的硬件实验，我们展示了MAGICS能够产生优于最先进的神经网络安全性合成方法的鲁棒控制策略。

发布时间: 4/29/2025

查看原文

多尺度分组原型可解释语义分割

作者: Hugo Porta, Emanuele Dalsasso, Diego Marcos, Devis Tuia

arXiv:2409.09497v2 宣告类型: 替换-交叉摘要：原型部分学习正在成为一个有希望的方法，用于使语义分割具有可解释性。该模型选择在训练期间见过的真实片段作为原型，并基于测试图像的部分与原型之间的相似性构建密集预测图。这提高了可解释性，因为用户可以根据预测输出与模型学习模式之间的原型信息来检查这种联系。在本文中，我们提出了一种利用多尺度图像表示进行原型部分学习的方法。首先，我们引入了一个原型层，该层明确学习多种尺度的原型部分，从而在原型激活输出中产生多尺度表示。然后，我们提出了一种稀疏分组机制，生成这些特定尺度原型部分的多尺度稀疏分组。这提供了对多尺度对象表示之间相互作用的更深入理解，同时增强了分割模型的可解释性。在Pascal VOC、Cityscapes和ADE20K上的实验表明，所提出的方法增加了模型稀疏性，优于现有基于原型的方法，并且与不可解释的同类模型相比缩小了性能差距。代码可在github.com/eceo-epfl/ScaleProtoSeg 获取。

发布时间: 4/29/2025

查看原文