arXiv 论文列表

作者: Yingjie Xi, Jian Jun Zhang, Xiaosong Yang

arXiv:2504.16722v1 Announce Type: cross 摘要：在计算机动画、游戏设计和人机交互中，合成与用户意图相一致的人类动作仍然是一个重要的挑战。现有方法存在显著的局限性：文本方法提供高层语义指导，但在准确描述复杂动作方面存在困难；基于轨迹的技术提供直观的全局运动方向，但在生成精确或定制的 character 动作方面常常力不从心；而基于关键姿势的方法通常仅限于合成简单的运动模式。为了生成更具可控性和精确性的人类动作，我们提出了一种新颖的框架 \textbf{ProMoGen (Progressive Motion Generation)}，该框架结合了轨迹指导和稀疏关键姿势控制。全局轨迹确保在空间方向和位移上的一致性，而稀疏关键姿势仅提供精确的动作指导而不涉及位移。这种分离使得这两方面可以独立细化，从而产生更具可控性、高保真度和复杂性的动作合成。ProMoGen 支持在统一的训练过程中实现双重和单一控制模式。此外，我们认识到直接从稀疏动作中学习本质上是不稳定的，因此引入了 \textbf{SAP-CL (Sparse Anchor Posture Curriculum Learning)}，这是一种分层学习策略，逐步调整用于指导的关键姿势数量，从而实现更精确和稳定的收敛。广泛的实验表明，ProMoGen 在由预定义轨迹和任意关键帧指导的生动和多样化的动作合成方面表现出色。我们的方法无缝地将个性化动作与结构化指导整合在一起，在多种控制场景中显著优于现有最先进的方法。

发布时间: 4/24/2025

查看原文

离线机器人世界模型：无需物理模拟器学习机器人策略

作者: Chenhao Li, Andreas Krause, Marco Hutter

arXiv:2504.16680v1 宣言类型: cross 摘要：强化学习（RL）在机器人控制方面展示了令人印象深刻的 capabilities，但仍然存在由于样本复杂性高、安全性问题以及模拟与真实环境之间的差距所带来的挑战。虽然离线 RL 通过利用预先收集的数据学习而消除了在真实世界中进行高风险探索的需要，但它会受到分布偏移的影响，从而限制了策略的泛化能力。基于模型的 RL（MBRL）通过利用预测模型来解决合成走棋，但在当前的实现中，许多方法缺乏稳健的不确定性估计，导致在离线设置中累积错误。我们引入了 Offline Robotic World Model（RWM-O），这是一种基于模型的方法，能够明确估计解说不确定性，从而改进策略学习，而不依赖于物理模拟器。通过将这些不确定性估计整合到策略优化中，我们的方法惩罚不可靠的转换，减少对模型错误的过度拟合，并提高稳定性。实验结果表明，RWM-O 改进了泛化能力和安全性，使策略学习仅依靠实际数据成为可能，并推动了可扩展和数据高效型的机器人 RL 发展。

发布时间: 4/24/2025

查看原文

多语言训练数据的后训练员指南：探究跨语言转移动态

作者: Luisa Shimabucoro, Ahmet Ustun, Marzieh Fadaee, Sebastian Ruder

arXiv:2504.16677v1 基础类型: 交叉摘要：为了使大规模语言模型在全球范围内发挥作用，它们会在多语言数据上进行微调以遵循指令。尽管这种后训练过程无处不在，但尚不清楚能够实现跨语言转移的动力机制是什么。这项研究探讨了在现实的后训练设置中的跨语言转移（CLT）动力机制。我们研究了两种最多包含350亿参数的模型系列，这些模型在精心控制的多语言数据混合体上进行了训练，并在总结、指令遵循和数学推理三种不同复杂度的生成任务上进行了单一任务和多任务指令调优设置的研究。总体而言，我们发现跨语言转移和多语言性能的动力机制不能由孤立的变量来解释，这取决于后训练设置的组合。最后，我们确定了实践中实现有效跨语言转移的条件。

发布时间: 4/24/2025

查看原文

通过非对比互信息进行的表示学习

作者: Zhaohan Daniel Guo, Bernardo Avila Pires, Khimya Khetarpal, Dale Schuurmans, Bo Dai

arXiv:2504.16667v1 自监督表示学习方法摘要：标记数据通常非常耗时且昂贵，使得我们有大量的未标记数据。类似SimCLR（Chen等，2020）或BYOL（Grill等，2020）的自监督表示学习方法在从未标记图像数据中学习有意义的潜在表示方面非常成功，从而产生了更通用和更可迁移的表示用于下游任务。总体而言，自监督方法可分为两类：1）对比方法，如SimCLR；2）非对比方法，如BYOL。对比方法通常试图最大化相关数据点之间的互信息，因此需要将每一个数据点与其他每一个数据点进行比较，导致高方差，从而需要较大的批量大小才能很好地工作。非对比方法如BYOL的方差要低得多，因为它们不需要进行成对比较，但实现起来更为棘手，因为有退化到常向量的可能性。在本文中，我们旨在开发一种结合了这两种方法优势的自监督目标。我们从一种特定的对比方法——光谱对比损失（HaoChen等，2021；Lu等，2024）开始，并将其转换为更通用的非对比形式；这消除了成对比较，从而减少了方差，但仍保留了对比方法的互信息形式，防止退化。我们称我们的新目标为互信息非对比损失（MINC损失）。我们通过在ImageNet上学习图像表示（类似于SimCLR和BYOL）来测试MINC，并展示了它在光谱对比损失基线上的持续改进效果。

发布时间: 4/24/2025

查看原文

MAYA: 通过统一基准解决生成密码破解中的一致性问题

作者: William Corrias, Fabio De Gaspari, Dorjan Hitaj, Luigi V. Mancini

arXiv:2504.16651v1 类型: cross 摘要：生成模型的快速进化已经使其跨多种领域得到整合，其中包括密码破解，旨在生成与人类创建的密码在复杂性、结构和模式上相似的密码。尽管生成模型前景光明，但由于前期研究中的不一致性和缺乏严谨的评估，限制了对其真正潜力的全面理解。本文介绍了MAYA，一个统一、可定制的、即插即用的密码基准测试框架。MAYA通过一套高级测试场景和八个实际密码数据集，提供了一种标准化的评估生成密码破解模型的方法。利用MAYA，我们对六种领先的方法进行全面评估，这些方法已被重新实现和适应以确保标准化，总计耗时超过15,000小时的计算。我们的研究结果表明，这些模型有效地捕捉了人类密码分布的不同方面，并展现了强大的泛化能力。然而，它们在长且复杂的密码方面的效果差异显著。通过我们的评估，序列模型始终优于其他生成架构和传统的密码破解工具，展示了生成精准和复杂猜测的独特能力。此外，模型学习并生成不同的密码分布，使得多模型攻击的性能优于最佳单个模型。通过发布MAYA，我们旨在促进进一步的研究，为社区提供一种新的工具，以一致和可靠的方式基准测试密码生成技术。我们的框架在https://github.com/williamcorrias/MAYA-Password-Benchmarking上公开可用。

发布时间: 4/24/2025

查看原文

孤立手语识别的半监督学习方法

作者: Hasan Algafri, Hamzah Luqman, Sarah Alyami, Issam Laradji

arXiv:2504.16640v1 交叉公告类型：cross 摘要：手语是听力残疾人士的主要沟通语言。手语识别（SLR）系统旨在识别手语手势并将其翻译成口语。SLR的主要挑战之一是标注数据集的稀缺性。为了解决这一问题，我们提出了一种半监督学习（SSL）的方法来解决SLR问题（SSLR），采用伪标签方法对未标记的样本进行标注。手语手势使用姿态信息表示，该信息编码了手语者的骨骼关节点。这些信息被用作在提出的SSL方法中使用的Transformer主体模型的输入。为了证明SSL在各种标记数据规模下的学习能力，我们使用不同比例的标记数据和不同类别的数量进行了多项实验。我们将SSL方法与基于完全监督学习的模型在WLASL-100数据集上进行了性能比较。在许多情况下，SSL模型在较少标记数据的情况下优于基于监督学习的模型。

发布时间: 4/24/2025

查看原文

用对话否定偏见？探索AI生成的反论来挑战阴谋理论

作者: Mareike Lisker, Christina Gottschalk, Helena Mihaljevi\'c

arXiv:2504.16604v1 交叉公告类型：cross 摘要：反制言论是对抗有害网络内容的关键策略，但扩大专家驱动的努力具有挑战性。大型语言模型（LLMs）提供了一种潜在的解决方案，尽管它们在对抗阴谋理论方面的使用研究不足。与仇恨言论不同，目前不存在将阴谋论评论与专家编写的反制言论配对的数据集。我们通过评估GPT-4o、Llama 3和Mistral在通过结构化提示应用源自心理研究的反制策略方面的有效性来弥补这一空白。我们的结果显示，这些模型通常生成的是通用的、重复的或表面的结果。此外，它们过度承认恐惧，并且经常幻想事实、来源或统计数据，使得它们在实际应用中的提示式使用成为问题。

发布时间: 4/24/2025

查看原文

比较大型语言模型和传统机器翻译工具翻译医疗咨询摘要的效果：一项试点研究

作者: Andy Li, Wei Zhou, Rashina Hoda, Chris Bain, Peter Poon

arXiv:2504.16601v1 交叉公告类型：交叉摘要：本研究评估了大语言模型（LLMs）和传统机器翻译（MT）工具将英语中的医疗咨询摘要翻译成阿拉伯语、中文和越南语的效果。该研究使用标准自动评估指标评估了面向患者和面向医生的文本。结果显示，传统MT工具在整体上表现更好，尤其是在复杂文本方面，而LLMs在翻译简洁摘要时表现突出，特别是在越南语和中文方面。阿拉伯语的翻译随着复杂性的增加而改善，这是由于该语言的形态学特征。总体而言，尽管LLMs提供了上下文灵活性，但它们仍然表现出不一致性，当前的评估指标未能捕捉临床相关性。该研究强调了在医疗翻译中需要进行领域特定的培训、改进评估方法以及人类监督的重要性。

发布时间: 4/24/2025

查看原文

案例研究： fine-tuning 小型语言模型以实现 Python 代码中准确且私有的 CWE 检测

arXiv:2504.16584v1 Announce Type: cross 摘要：大型语言模型（LLMs）在理解分析代码中的安全漏洞，如常见脆弱性枚举（CWEs）方面表现出了显著的能力。然而，它们依赖于云计算基础设施和巨大的计算需求，这为分析敏感或专有代码库带来了挑战，尤其是在隐私和推断成本方面的担忧。本研究探讨了小语言模型（SLMs）作为准确、本地漏洞检测的一种可行替代方案的潜力。我们调查了是否有3.5亿参数的预训练代码模型（codegen-mono）能够有效地微调，以在Python代码中检测MITRE顶级25个CWEs。为了促进这一目标，我们采用了一种半监督的方法，结合了LLM驱动的合成数据生成和细致的人工审查，开发了一个包含500个示例的目标数据集。初步测试确认，基础的codegen-mono模型完全未能识别我们样本中的CWEs。然而，在应用指令遵循微调后，专门的小语言模型在我们的测试集上取得了显著的表现，达到了约99%的准确率、98.08%的精确率、100%的召回率和99.04%的F1分。这些结果强烈表明，微调的小语言模型可以作为高度准确和高效的CWE检测工具，为将高级安全分析直接集成到开发工作流中提供了实用且隐私保护的解决方案。

发布时间: 4/24/2025

查看原文

多模态超图对比学习推荐算法

作者: Xu Guo, Tong Zhang, Fuyun Wang, Xudong Wang, Xiaoya Zhang, Xin Liu, Zhen Cui

arXiv:2504.16576v1 交叉类型：公告摘要：多模态内容共享平台的蓬勃发展推动了个性化推荐系统的发展。以往的工作通常会受到数据稀疏性和冷启动问题的影响，可能无法充分探索来自多模态数据的语义用户-产品关联。为了解决这些问题，我们提出了一种新颖的多模态超图对比学习（MMHCL）框架，以进行用户推荐。为了全面探索用户-产品关系中的信息，我们构建了两个超图，即用户到用户（u2u）超图和物品到物品（i2i）超图，分别挖掘用户之间的共同偏好和物品之间的复杂多模态语义相似性。这一过程产生的密集的第二级语义与第一级用户-物品交互融合，以互补的方式缓解数据稀疏性问题。然后，我们设计了一种对比特征增强范式，通过协同对比学习应用。通过最大化/最小化同一/不同用户和物品的第二级（例如，用户的共同偏好模式）和第一级（用户选择的物品的信息）嵌入之间的互信息，可以有效地增强特征可区分性。与仅使用稀疏的主要用户-物品交互相比，我们的MMHCL获得更密集的第二级超图，并挖掘更多的共享特征，以探索用户-产品的关系，一定程度上缓解了数据稀疏性和冷启动问题。广泛实验全面证明了我们方法的有效性。我们的代码可在以下链接公开获取：https://github.com/Xu107/MMHCL。

发布时间: 4/24/2025

查看原文