arXiv 论文列表

作者: Han Zhang, Zifan Wang, Mihir Dhamankar, Matt Fredrikson, Yuvraj Agarwal

arXiv:2406.00586v2 宣告类型: replace-cross 摘要：许多物联网（IoT）设备依赖云计算资源来执行机器学习推理。这既昂贵又可能引起用户的隐私担忧。这些设备的消费者通常拥有能够执行这些计算的硬件，如游戏机和配有图形加速器的个人电脑，这些硬件在大量时间里可能处于闲置状态。尽管这展示了将计算卸载到本地设备的诱人替代方案，但关于推理结果的完整性、模型参数的保密性和用户数据的隐私性的担忧意味着设备制造商可能不愿意将他们的推理卸载到由其他制造商管理的平台上。我们提出了 VeriSplit，一种将机器学习推理卸载到本地可用设备的框架，以解决这些担忧。我们引入了遮蔽技术来保护数据隐私和模型保密性，并提出了基于承诺的验证协议来解决完整性问题。与以往旨在解决这些问题的许多工作不同，我们的方法不依赖于有限域元素上的计算，这可能会影响硬件加速器上的浮点计算支持，并需要对现有模型进行修改。我们实现了一个 VeriSplit 的原型，并且我们的评估结果表明，与本地执行计算相比，我们的安全且私密的卸载解决方案可以将推理延迟降低 28% 到 83%。

发布时间: 4/1/2025

查看原文

通过直接偏好优化提升人类图像生成模型性能

作者: Sanghyeon Na, Yonggyu Kim, Hyunjoon Lee

arXiv:2405.20216v2 公告类型: replace-cross 摘要：人类图像生成是图像合成中的一个重要研究方向，由于其广泛的应用前景，但即使是解剖结构、姿态或细节上的轻微不准确也会影响真实感。为了解决这些挑战，我们探索了直接偏好优化（DPO），该方法训练模型生成优选（获胜）图像，同时偏离非优选（失败）图像。然而，传统的DPO方法使用生成的图像作为获胜图像，限制了真实感。为了克服这一限制，我们提出了一种增强的DPO方法，该方法将高质量的现实图像作为获胜图像，促使输出更接近现实图像而非生成图像。然而，实现这一概念并不是一件简单的事情。因此，我们的方法HG-DPO（通过DPO的人类图像生成）采用了新颖的教学计划框架，逐步提高模型输出的真实感，使得训练更加可行。此外，HG-DPO能够有效地适应个性化文本到图像的任务，生成高质量和身份特定的图像，突显了我们方法的实际价值。

发布时间: 4/1/2025

查看原文

检测缺乏上下文的多模态情况并避免基于不足证据的预测

作者: Junzhang Liu, Zhecan Wang, Hammad Ayyubi, Haoxuan You, Chris Thomas, Rui Sun, Shih-Fu Chang, Kai-Wei Chang

arXiv:2405.11145v4 通告类型: 替换-交叉摘要：尽管视觉语言理解(VLU)基准测试，如VQA v2、OKVQA、A-OKVQA、GQA、VCR、SWAG和VisualCOMET得到了广泛采用，但我们的分析揭示了一个严重影响这些基准测试完整性的普遍问题：这些基准测试包含答案依赖于未由提供的上下文支持的假设的样本。在这样的数据上训练模型会导致有偏见的学习和幻觉，因为模型往往会做出类似的不合理假设。为了解决这个问题，我们尽可能收集每个样本的上下文数据，并训练一个上下文选择模块，以促进基于证据的模型预测。在多个基准测试中表现出显著的改进表明了我们方法的有效性。此外，我们开发了一种通用的Context-Aware Abstention (CARA) 检测器，用于识别缺乏足够上下文的样本，并通过在缺少必需上下文时拒绝回应来提高模型的准确性。CARA 在未被训练的新基准测试中表现出泛化能力，这突显了它在未来视觉语言理解基准测试中检测或清理上下文不足样本时的实用性。最后，我们创建了一个Context Ambiguity and Sufficiency Evaluation (CASE) 集合，用于评估不足上下文检测器的性能。总体而言，我们的工作代表了确保视觉语言模型在复杂现实场景中产生可信赖且基于证据的输出的一个重要进步。

发布时间: 4/1/2025

查看原文

基于贝叶斯学习的原型对比损失函数，用于类增量学习

作者: Nisha L. Raichur, Lucas Heublein, Tobias Feigl, Alexander R\"ugamer, Christopher Mutschler, Felix Ott

arXiv:2405.11067v3 宣告类型: replace-cross 摘要：连续学习方法的主要目标是在时间上（有时是从数据流中）以顺序方式学习任务，同时减轻灾难性遗忘的不利现象。本文提出了一种方法，用于在先前类别原型和新遇到的类别原型之间学习有效的表示。我们提出了一种针对类别增量学习场景的具有贝叶斯学习驱动对比损失（BLCL）的原型网络。我们引入了一种对比损失，通过减少类内距离和增加类间距离，将新类别纳入潜在表示中。我们的方法使用贝叶斯学习技术动态调整交叉熵损失和对比损失函数之间的平衡。在CIFAR-10、CIFAR-100和ImageNet100图像分类数据集以及基于GNSS的图像数据集的干扰分类上进行的实验结果验证了我们方法的有效性，展示了其优于现有最先进的方法的优势。Git仓库：https://gitlab.cc-asp.fraunhofer.de/darcy_gnss/gnss_class_incremental_learning

发布时间: 4/1/2025

查看原文

对比视觉-语言预训练中caption多样性的建模

作者: Samuel Lavoie, Polina Kirichenko, Mark Ibrahim, Mahmoud Assran, Andrew Gordon Wilson, Aaron Courville, Nicolas Ballas

arXiv:2405.00740v4 宣布类型: 替换-交叉摘要：一千种方式都可以描述一张图片。相比之下，对比语言预训练（CLIP）通过将图像和其描述映射到一个单一的向量中工作——这限制了CLIP类似模型在表示描述图片方式多样性方面的表现。在本文中，我们介绍了Llip，即潜在语言图像预训练，该模型能够模拟与图片匹配的各种描述方式的多样性。Llip的视觉编码器输出一组视觉特征，这些特征通过从文本中获取的信息进行条件化混合到最终表示中。我们展示了Llip在多种任务上优于非上下文化的基线模型，如CLIP和SigLIP，即使使用大规模编码器也是如此。具体来说，Llip在带有ViT-G/14编码器的零样本分类基准测试中提高了2.9%的均值表现。在ImageNet上，Llip实现了83.5%的零样本分类第一精度，超过了同样大小的CLIP 1.4%。我们还在MS-COCO的零样本检索上展示了6.0%的改进。我们对方法引入的组件进行了全面分析，并展示了Llip导致了更丰富的视觉表示。

发布时间: 4/1/2025

查看原文

学习算法以验证马尔可夫决策过程

作者: Tom\'a\v{s} Br\'azdil, Krishnendu Chatterjee, Martin Chmelik, Vojt\v{e}ch Forejt, Jan K\v{r}et\'insk\'y, Marta Kwiatkowska, Tobias Meggendorfer, David Parker, Mateusz Ujma

arXiv:2403.09184v4 宣告类型: replace-cross 摘要: 我们提出了一种通用框架，用于将学习算法和启发式指导应用于马尔可夫决策过程（MDP）的验证。我们的技术主要目标是通过避免对状态空间的详尽探索来提高性能，而是专注于系统的特别相关区域，同时受到启发式的指导。我们的工作基于Brázdil等人之前的成果，显著扩展了它，并对一些细节进行了细化并修正了一些错误。该框架主要关注概率可达性问题，这是验证的核心问题，并且在两种不同的场景中进行了具体化。第一个假设我们可以完全了解MDP，特别是精确的转移概率。它进行了一种基于启发式的部分探索，提供了所需概率的精确下界和上界。第二个场景则处理我们只能抽样MDP而不知道确切的转移动力学的情况。这里，我们在下界和上界方面获得了概率保证，这提供了近似终止标准的高效方法。特别是后者是统计模型检查（SMC）在MDP中未加约束性质的扩展。与相关方法相比，我们没有限制我们的注意力仅限于时间限制（有限时程）或折现性质，也没有假设MDP的任何特定结构性质。

发布时间: 4/1/2025

查看原文

使用基础模型验证执行复杂机器人指令

作者: Benedict Quartey, Eric Rosen, Stefanie Tellex, George Konidaris

arXiv:2402.11498v3 宣告类型: replace-cross 摘要: 在指导机器人时，用户希望灵活地表达约束条件、引用任意地标，并验证机器人的行为，而机器人则必须将指令解析为规范，并在现实世界中确定指令引用的实体。为了解决这一问题，我们提出了语言指令的运动规划（LIMP），这是一种使机器人能够在没有预构建语义地图的情况下，遵守复杂且开放式的指令并验证其行为的方法。LIMP 构建了一种符号化的指令表示，揭示了机器人与指导者意图的一致性，并为合成正确的机器人行为提供了支持。我们在五个现实世界环境中对150条指令进行了大规模评估，展示了LIMP在各种非结构化领域中的多功能性和易于部署性。在标准的开放式词汇任务中，LIMP 的表现与最先进的基准相当，并且在复杂的时空指令上实现了79% 的成功率，远高于仅达到38% 的基准。更多信息和演示视频请参见 https://robotlimp.github.io

发布时间: 4/1/2025

查看原文

重新思考Tiny语言模型的优化与架构

作者: Yehui Tang, Kai Han, Fangcheng Liu, Yunsheng Ni, Yuchuan Tian, Zheyuan Bai, Yi-Qi Hu, Sichao Liu, Shangling Jui, Yunhe Wang

arXiv:2402.02791v3 公告类型: 替换-交叉摘要：大型语言模型（LLMs）的能力已经通过大量数据和计算资源得到了证明。然而，在移动设备上应用语言模型正面临着巨大的计算和内存成本上的挑战，因此，高性能的小型语言模型迫切需要。受限于复杂的训练过程，有许多优化语言模型的细节很少被仔细研究。在这项研究中，基于一个具有1亿参数的超小型语言模型，我们精心设计了一系列实证研究来分析每个组件的效果。主要从三个视角进行了讨论，即神经架构、参数初始化和优化策略。几种设计公式在超小型语言模型中被实验证明特别有效，包括词令牌压缩、架构调整、参数继承和多轮训练。然后，我们按照已建立的公式，使用1.6T多语种语料库训练了PanGu-$\pi$-1B Pro和PanGu-$\pi$-1.5B Pro。实验结果表明，改进的优化与架构在基准评估集上使PanGu-$\pi$-1B Pro的平均改进达到8.87。此外，PanGu-$\pi$-1.5B Pro超越了具有更大模型规模的一系列最新模型，验证了其优越的表现。代码可在https://github.com/YuchuanTian/RethinkTinyLM获取。

发布时间: 4/1/2025

查看原文

通过双层优化整合公平性与模型剪枝

作者: Yucong Dai, Gen Li, Feng Luo, Xiaolong Ma, Yongkai Wu

arXiv:2312.10181v2 Announce Type: replace-cross 摘要：深度神经网络在各种应用中取得了卓越的结果。随着对高效和稀疏深度学习模型的需求不断增长，人们越来越认识到模型压缩，尤其是剪枝的重要性。然而，传统的剪枝方法可能会无意间加剧算法偏差，导致关键应用中的不平等预测结果，从而引发剪枝实践和社会公正之间的困境。为了解决这一挑战，我们引入了一个新的公平模型剪枝的概念，即开发一个符合公平标准的稀疏模型。特别是，我们提出了一种框架，该框架旨在同时优化剪枝掩码和权重更新过程中的公平约束。该框架旨在通过统一的过程压缩保持性能并在确保公平性。为此，我们将公平剪枝问题阐述为一种新的受约束的多层优化任务，并推导出高效且有效的求解策略。我们设计了多种数据集和场景的实验来验证我们所提出的方法。我们的实证分析将我们的框架与几种主流的剪枝策略进行了对比，强调了我们方法在保持模型公平性、性能和效率方面的优越性。

发布时间: 4/1/2025

查看原文

无监督 temporal 行动定位的视觉自引导迭代学习

作者: Yupeng Hu, Han Jiang, Hao Liu, Kun Wang, Haoyu Tang, Liqiang Nie

arXiv:2312.07384v2 通知类型: 替换-交叉摘要: 最近，时空动作本地化（TAL）在信息检索社区中引起了广泛关注。然而，现有的监督/弱监督方法严重依赖于大量的标注时间边界和动作类别，这需要大量的劳动和时间。尽管一些无监督方法利用了“迭代聚类和本地化”的范式来进行TAL，它们仍然面临着两个关键障碍：1）不满意的视频聚类置信度，2）不可靠的视频伪标签用于模型训练。为了解决这些局限性，我们提出了一种新颖的自适应迭代学习模型，以同时增强聚类和本地化训练，从而促进更有效的无监督TAL。具体来说，我们通过探索上下文特征鲁棒的视觉信息来提高聚类置信度。之后，我们设计了两种（恒速和变速）增量实例学习策略，以实现从易到难的模型训练，从而确保这些视频伪标签的可靠性，并进一步提高整体定位性能。在两个公开数据集上的广泛实验已经证明了我们模型的优越性，相较于几个最先进的竞争对手。

发布时间: 4/1/2025

查看原文