arXiv 论文列表

作者: Joar Skalse, Alessandro Abate

逆强化学习 (IRL) 的目标是从策略 π 推断奖励函数 R。这个问题由于几个原因而变得困难。首先，通常存在多个与给定策略兼容的奖励函数；这意味着奖励函数只是*部分可识别*的，并且 IRL 包含一定程度的基本模糊性。其次，为了从 π 推断 R，IRL 算法必须拥有一个关于 π 与 R 之间关系的*行为模型*。然而，人类偏好和人类行为之间的真实关系非常复杂，实际上不可能用简单的模型完全捕捉。这意味着实际中的行为模型将是*错误指定的*，这引发了这样的担忧：如果将其应用于现实世界的数据，它可能会导致不合理的推论。在本文中，我们对 IRL 中的部分可识别性和错误指定进行了全面的数学分析。具体来说，我们完全刻画并量化了当前 IRL 文献中最常见的全部行为模型的奖励函数的模糊性。我们还提供了必要的和充分的条件，精确地描述了观察到的演示者策略在导致该模型对奖励函数 R 的错误推断之前，可能与每个标准行为模型有何不同。除此之外，我们还引入了一个连贯的框架来推理 IRL 中的部分可识别性和错误指定，以及一些可以用来轻松推导出新的 IRL 模型的部分可识别性和错误指定鲁棒性，或分析其他类型的奖励学习算法的正式工具。

发布时间: 11/26/2024

查看原文

生成式上下文蒸馏

作者: Haebin Shin, Lei Ji, Yeyun Gong, Sungdong Kim, Eunbi Choi, Minjoon Seo

大型语言模型 (LLM) 应用中使用的提示词通常是固定且冗长的，导致显著的计算开销。为了解决这一挑战，我们提出了一种轻量级的提示词内化方法——生成式上下文蒸馏 (GCD)，该方法采用联合训练方法。这种方法不仅能够复制带有提示词输入的模型的行为，还能生成提示词的内容以及模型行为应该相应改变的原因。我们证明了我们的方法能够有效地将复杂提示词内化到各种基于智能体的应用场景中。为了在无需与专用环境交互的情况下进行有效训练，我们引入了一种数据合成技术，该技术通过交换智能体和环境的角色来自动收集对话数据集。这种方法在只有预定义提示词而没有相应训练数据集的情况下尤其有用。通过内化复杂的提示词，生成式上下文蒸馏能够实现高性能和高效的推理，而无需显式提示词。

发布时间: 11/26/2024

查看原文

从图像生成图像：去噪和变换的交错方法

作者: Shumeet Baluja, David Marwood, Ashwin Baluja

只需重新排列图像的区域，我们就能创造出任何主题的新图像。区域的定义由用户自定义，范围从规则和不规则形状的块、同心圆环，甚至单个像素。我们的方法扩展并改进了最近在生成视觉错觉方面的工作，它不仅同时学习图像的内容，还学习将所需图像相互转换所需的参量化变换。通过学习图像变换，我们允许预先指定任何源图像；任何现有图像（例如蒙娜丽莎）都可以转换为新的主题。我们将此过程表述为一个约束优化问题，并通过将图像扩散步骤与能量最小化步骤交错来解决它。与以前的方法不同，增加区域数量实际上使问题更容易并改善结果。我们在像素空间和潜在空间中都展示了我们的方法。还给出了创造性的扩展，例如使用源图像的无限副本和使用多个源图像。

发布时间: 11/26/2024

查看原文

基于多期Sentinel-2和PlanetScope影像的自动化多尺度功能场边界提取的深度学习方法：荷兰和巴基斯坦案例研究

作者: Saba Zahid, Sajid Ghuffar, Obaid-ur-Rehman, Syed Roshaan Ali Shah

本研究探讨了利用深度学习语义分割架构，基于荷兰和巴基斯坦两个不同地理位置和多尺度农业系统，多时相卫星影像在改进功能性田界划分方面的有效性。分别于2022年4月、8月和10月获取了荷兰子区域的PlanetScope和Sentinel-2多时相影像，以及2023年11月、2月和3月获取了巴基斯坦Dunyapur选定区域的影像。对于荷兰，使用基础登记作物地块（BRP）矢量层作为标记训练数据；而对于巴基斯坦，则使用了自行制作的田界矢量数据。使用UNET架构的四种深度学习模型在荷兰子区域的不同多时相影像和NDVI堆栈组合中进行了评估。通过对IoU分数的比较分析，评估了所提出的多时相NDVI堆栈方法的有效性。然后，将这些结果应用于迁移学习，将来自荷兰的预训练模型应用于巴基斯坦的选定区域。此外，还使用自行制作的巴基斯坦田界数据训练了单独的模型，并使用来自荷兰和巴基斯坦的数据开发了组合模型。结果表明，多时相NDVI堆栈提供了额外的时相信息，反映了不同季节作物的生长情况。该研究强调了来自不同地理区域的多尺度地面信息在开发用于田界划分的稳健且普遍适用的模型中的关键作用。结果还突出了高空间分辨率对于提取小规模农业区域田界的重要性。这些发现可以扩展到多尺度应用，以改进异质农业环境中田界的自动划分。

发布时间: 11/26/2024

查看原文

基于潜在扩散模型的免训练音乐风格迁移方法

作者: Sooyoung Kim, Joonwoo Kwon, Heehwan Wang, Shinjae Yoo, Yuewei Lin, Jiook Cha

音乐风格迁移为个性化音乐生成提供了令人兴奋的可能性，但通常需要大量的训练或详细的文本描述。本文介绍了一种新颖的免训练方法，该方法利用预训练的潜在扩散模型 (LDM)。通过操纵 LDM 的自注意力特征，我们能够有效地将参考音乐的风格迁移到内容音乐上，而无需额外的训练。与现有方法相比，我们的方法实现了更优越的风格迁移和旋律保留效果。这项工作为个性化音乐生成开辟了新的创意途径。

发布时间: 11/26/2024

查看原文

灵巧机器人手的双手动抓合成

作者: Yanming Shao, Chenxi Xiao

人类自然会运用双手技能来处理大型和重型物体。为了增强机器人的物体操作能力，生成有效的双手抓取姿势至关重要。然而，灵巧手操作器的双手抓取合成仍然未得到充分探索。为了弥补这一差距，我们提出了用于合成三维物体双手抓取的BimanGrasp算法。BimanGrasp算法通过优化考虑抓取稳定性和可行性的能量函数来生成抓取姿势。此外，生成的抓取姿势使用Isaac Gym物理模拟引擎进行验证。这些经过验证的抓取姿势构成了BimanGrasp数据集，据我们所知，这是第一个大规模合成的灵巧手双手抓取姿势数据集。该数据集包含超过15万个经过验证的900个物体的抓取姿势，方便通过数据驱动的方法合成双手抓取。最后，我们提出了BimanGrasp-DDPM，这是一个在BimanGrasp数据集上训练的扩散模型。与BimanGrasp算法相比，该模型实现了69.87%的抓取合成成功率，并显著提高了计算速度。

发布时间: 11/26/2024

查看原文

卫星视频中高效无监督运动目标检测框架

作者: C. Xiao, W. An, Y. Zhang, Z. Su, M. Li, W. Sheng, M. Pietik\"ainen, L. Liu

卫星视频运动目标检测 (SVMOD) 由于目标极暗且极小，是一项极具挑战性的任务。当前基于学习的方法从多帧密集表示中提取时空信息，并使用费力的手动标注来解决 SVMOD 问题，这需要高昂的标注成本，并且由于前景和背景区域之间存在严重的不平衡，导致巨大的计算冗余。本文提出了一种高效的无监督 SVMOD 框架。具体来说，我们提出了一种通用的无监督 SVMOD 框架，其中由传统方法生成的伪标签可以随着训练过程的进行而演变，从而提高检测性能。此外，我们通过将密集多帧图像形式采样成稀疏时空点云表示，并跳过对背景区域的冗余计算，提出了一种高效且有效的稀疏卷积无锚检测网络。结合这两种设计，我们可以同时实现高效率（标签和计算效率）和高有效性。大量的实验表明，我们的方法不仅可以在 1024x1024 的图像上以每秒 98.8 帧的速度进行处理，而且还可以达到最先进的性能。重新标注的数据集和代码可在 https://github.com/ChaoXiao12/Moving-object-detection-in-satellite-videos-HiEUM 获取。

发布时间: 11/26/2024

查看原文

参数化对降维影响的探究

作者: Haiyang Huang, Yingfan Wang, Cynthia Rudin

参数化降维方法因其能够泛化到未见数据集的能力而日益突出，这是传统方法通常缺乏的优势。尽管它们越来越受欢迎，但实践者之间普遍存在一种误解，即参数化方法和非参数化方法的性能等效。在这里，我们证明了这些方法并不等效——参数化方法保留了全局结构，但丢失了大量的局部细节。为了解释这一点，我们提供的证据表明参数化方法缺乏排斥负样本对的能力，并且损失函数的选择也会产生影响。为了解决这些问题，我们开发了一种新的参数化方法 ParamRepulsor，它结合了硬负例挖掘和一个施加强大排斥力的损失函数。这种新方法在参数化方法的局部结构保持方面取得了最先进的性能，同时没有牺牲全局结构表示的保真度。我们的代码可在 https://github.com/hyhuang00/ParamRepulsor 获取。

发布时间: 11/26/2024

查看原文

面向城市时空预测的分布感知在线持续学习

作者: Chengxin Wang, Gary Tan, Swagato Barman Roy, Beng Chin Ooi

城市时空（ST）预测对于智能调度和行程规划等各种城市应用至关重要。以往的研究侧重于对城市位置之间时空相关性的离线建模，这往往忽略了城市时空数据非平稳的特性，特别是随时间推移的分布变化。这种疏忽会导致实际场景中的性能下降。本文首先分析了城市时空数据的分布变化，然后介绍了DOST，这是一种针对时空数据特征量身定制的新型在线持续学习框架。DOST采用配备可变独立适配器的自适应时空网络，以动态地解决每个城市位置的独特分布变化。此外，为了适应这些变化的渐变性质，我们还开发了一种“唤醒-休眠”学习策略，该策略在在线阶段间歇性地微调适配器以降低计算开销。该策略集成了专为城市时空序列数据设计的流式内存更新机制，能够有效地使网络适应新的模式，同时防止灾难性遗忘。实验结果证实了DOST在四个真实世界数据集上优于最先进的模型，在线预测平均时间为0.1秒以内，与基线模型相比，预测误差降低了12.89%。

发布时间: 11/26/2024

查看原文

大型语言模型在隐式推理中并非逐步思考

作者: Yijiong Yu

链式思维已被证明可以显著提升大型语言模型（LLM）在复杂任务上的性能。然而，由于链式思维还会导致推理速度变慢和计算成本增加，许多研究尝试使用隐式链式思维，这种方法不需要LLM显式地生成中间步骤。但其有效性与典型的显式链式思维方法之间仍然存在差距。这让我们产生疑问：隐式链式思维真的等同于显式链式思维吗？因此，在本研究中，我们通过实验来解答这个问题。我们探究了模型在执行隐式链式思维时，从其隐藏状态中获得的中间步骤信息。结果令人惊讶地表明，LLM几乎不会思考中间步骤，这表明它们可能仅仅依赖经验而不是严格的逐步推理。此外，我们发现LLM的隐式推理能力易受影响且不稳定，这再次肯定了显式链式思维对于有效支持复杂任务的必要性。

发布时间: 11/26/2024

查看原文