arXiv 论文列表

作者: Runqi Wang, Caoyuan Ma, Jian Zhao, Hanrui Xu, Dongfang Sun, Haoyang Chen, Lin Xiong, Zheng Wang, Xuelong Li

arXiv:2502.11563v1 文章类型: cross 摘要：随着游戏和电影制作的迅速发展，从文本生成互动运动引起了极大的关注，因为这有可能革新内容创作流程。在许多实际应用中，需要对虚拟角色的运动范围或轨迹施加严格的限制。然而，仅依赖文本输入的现有方法在准确捕捉用户意图方面面临重大挑战，特别是在指定期望的轨迹方面。因此，生成的运动常常缺乏合理性和准确性。此外，现有的基于轨迹的方法在自定义运动生成中依赖于重新训练单人场景，这限制了其在不同类型数据集上的灵活性和适应性，以及两人运动中的互动性。为了生成遵循指定轨迹的互动运动，本文将复杂运动解耦为领导者-跟随者动态，借鉴伴侣舞蹈中的角色分配。基于此框架，本文探讨了互动运动生成中的运动范围细化过程，并提出了一种无需训练的方法，结合了一个节奏控制器和一个运动学同步适配器。该框架通过控制领导者的运动并纠正跟随者的运动以使其与领导者同步，增强了现有模型生成符合轨迹运动的能力。实验结果显示，通过更好地利用轨迹信息，所提出的方法在逼真度和准确性方面优于现有方法。

发布时间: 2/18/2025

查看原文

自动搜索与精炼：一种用于大型语言模型性别偏见缓解的自动化框架

作者: Yue Xu, Chengyan Fu, Li Xiong, Sibei Yang, Wenjie Wang

arXiv:2502.11559v1 Announce Type: cross 摘要：在大量文本语料上预训练大型语言模型（LLMs）增强了自然语言处理能力，但同时也存在一定风险，即可能嵌入社会偏见，特别是性别偏见。虽然参数修改方法如微调可以减轻偏见，但这种方法资源密集，不适合闭源模型，并且缺乏对 evolving 社会规范的适应性。基于指令的方法具有灵活性，但往往会以牺牲任务性能为代价。为解决这些局限性，我们提出了一种自动且模型独立的框架 $\textit{FaIRMaker}$，该框架采用一种自动搜索和优化 paradigm，自适应地生成公平词，这些公平词作为指令集成到输入查询中，以减少性别偏见并提高响应质量。广泛的实验结果表明，$\textit{FaIRMaker}$ 自动搜索并动态优化公平词，有效地减轻了性别偏见，同时保持了任务完整性，并确保了与基于 API 和开源 LLMs 的兼容性。

发布时间: 2/18/2025

查看原文

朝向元喻流变对话设计的语音用户界面

作者: Smit Desai, Jessie Chin, Dakuo Wang, Benjamin Cowan, Michael Twidale

arXiv:2502.11554v1 Announce Type: cross 摘要：隐喻在塑造语音用户界面（VUI）用户体验方面起着关键作用，但现有的设计往往依赖于静态的、以人为中心的隐喻，这些隐喻无法适应多种情境和用户需求。本文介绍了一种新的方法——隐喻流设计（Metaphor-Fluid Design），该方法可以根据对话使用情景动态调整隐喻的表示。我们将其与默认VUI进行了比较，后者类似于商业VUI的现有实现，通常是围绕助手的人格设计，提供统一的交互风格，跨越不同的场景。在研究1（N=130）中，隐喻被映射到四个关键使用情境-命令、信息查询、社交性和错误恢复-在形式化和层级这两个维度上，揭示了针对特定任务的隐喻设计的不同偏好。研究2（N=91）将隐喻流VUI与默认VUI进行了评估，结果显示，隐喻流VUI通过更好地与不同场景下的用户期望对齐，增强了用户采用的意愿、愉悦感和偏好性。然而，个体在隐喻偏好上的差异突显了个性化的需求。这些发现挑战了VUI设计中的一刀切模式，并展示了隐喻流设计在创建更具适应性和参与性的以人为本的AI交互方面的潜力。

发布时间: 2/18/2025

查看原文

MuSC：多粒度自对比训练改进复杂指令跟随

作者: Hui Huang, Jiaheng Liu, Yancheng He, Shilong Li, Bing Xu, Conghui Zhu, Muyun Yang, Tiejun Zhao

arXiv:2502.11541v1 类型: cross 摘要：复杂的指令跟随并结合详细的约束对于大型语言模型（LLMs）至关重要。尽管现有的方法已经构建了用于复杂指令对齐的数据，但它们都依赖于更先进的模型，特别是GPT-4，这限制了它们的应用。在本文中，我们提出了一种多粒度自我对比训练（MuSC）框架，以在不依赖更强模型的情况下提高复杂的指令对齐。我们的方法在粗粒度和细粒度上都进行了实施。在粗粒度上，我们基于指令分解和重组构建了具有约束感知偏好的数据。在细粒度上，我们进行了具有动态令牌级别监督的令牌感知偏好的优化。我们的方法在开源模型上进行了评估，并且实验结果表明，我们的方法在复杂和通用指令跟随基准上取得了显著的改进，超越了之前的自我对齐方法。

发布时间: 2/18/2025

查看原文

$\text{M}^{\text{3}}$: 基于令牌流的模块化世界模型

作者: Lior Cohen, Kaixin Wang, Bingyi Kang, Uri Gadot, Shie Mannor

arXiv:2502.11537v1 Announce Type: cross 摘要：基于标记的世界模型作为一种有前景的模块化框架出现，这种框架可以对标记流中的动力学进行建模，同时独立优化标记化。虽然在具有离散动作的视觉环境中（例如，Atari 游戏）取得了成功，但对于其更广泛的应用前景仍然不确定。在本文中，我们提出了M³，一种模块化世界模型，扩展了这种框架，通过独立的模态特定组件实现观察和动作模态的灵活组合。M³整合了现有文献中的多种改进，以提升代理性能。通过在多种基准上的广泛实证评估，M³在无策略的世界模型中达到了最先进的样本效率。值得注意的是，在这些方法中，它是第一个在Atari 100K上达到人类水平中位数得分的方法，并在13个游戏中表现出超人类性能。我们开源了我们的代码和权重。

发布时间: 2/18/2025

查看原文

DeFiScope：使用LLM推理检测各种DeFi价格操纵

作者: Juantao Zhong, Daoyuan Wu, Ye Liu, Maoyi Xie, Yang Liu, Yi Li, Ning Liu

arXiv:2502.11521v1 类型: cross 摘要：去中心化金融(DeFi)是当今加密货币和智能合约中最重要的一种应用。它管理着数以百亿美元的锁定总价值(TVL)，但却仍然容易受到常见的DeFi价格操纵攻击。尽管有最先进的(即SOTA)系统如DeFiRanger和DeFort，我们发现它们在定制DeFi协议中对非标准价格模型的检测效果较差，这些协议占过去三年报告的95起DeFi价格操纵攻击中的44.2%。在本文中，我们首次提出了一种基于大语言模型(LLM)的方法，即DeFiScope，用于检测标准和定制价格模型中的DeFi价格操纵攻击。我们的观点是，大语言模型在某种程度上具有智能，能够从代码中抽象出价格计算，并根据提取的价格模型来推断代币价格变化的趋势。为了进一步增强LLMs在这一方面的表现，我们利用Foundry合成了链上数据，并使用这些数据对该特定于DeFi价格的大语言模型进行微调。结合从低级交易数据中恢复的高级DeFi操作，DeFiScope根据系统挖掘的模式来检测各种DeFi价格操纵。实验结果表明，DeFiScope的精度高达96%，召回率高达80%，显著优于最先进的方法。此外，我们评估了DeFiScope的成本效益，并通过帮助我们的行业合作伙伴确认147起真实世界的价格操纵攻击，包括发现81起以前未知的历史事件，证明了其实用性。

发布时间: 2/18/2025

查看原文

UniGO：图上的意见动力学建模统一图神经网络

作者: Hao Li, Hao Jiang, Yuke Zheng, Hao Sun, Wenying Gong

arXiv:2502.11519v1 宣告类型：交叉摘要：社交媒体中的极化和碎片化加剧了用户偏见，使得深入了解意见演变变得越来越重要。意见动力学提供了研究意见演变的可解释性，但在将这些见解整合到预测模型中仍然面临挑战。这一挑战源于不同意见融合规则的固有复杂性以及在捕捉平衡状态的同时避免过度平滑的难度。本文构建了一个统一的意见动力学模型，以整合不同的意见融合规则，并生成相应的合成数据集。为了充分利用统一意见动力学的优势，我们提出了UniGO，一种图上建模意见演变的框架。通过粗化细化机制，UniGO 通过图神经网络高效地建模意见动力学，减少了过度平滑现象，同时保留了平衡现象。UniGO 利用合成数据集上的预训练，增强了其适应实际场景的能力，为意见动力学的应用提供了一个可行的范式。在合成和真实数据集上的实验结果证明了UniGO 在捕捉复杂意见形成过程和预测未来演变方面的有效性。预训练模型也展示了强大的泛化能力，验证了使用合成数据提升实际性能的好处。

发布时间: 2/18/2025

查看原文

具身人工智能中生成式多代理协作：一项系统综述

作者: Di Wu, Xian Wei, Guang Chen, Hao Shen, Xiangfeng Wang, Wenhao Li, Bo Jin

arXiv:2502.11518v1 Embodied 多智能体系统 (EMAS) 类型: cross 摘要: 体现式多智能体系统 (EMAS) 由于其在物流和机器人等复杂现实世界挑战领域的潜在应用而引起了越来越多的关注。基础模型的最新进展为生成性智能体的丰富沟通能力和适应性问题解决提供了可能。本文综述提供了对 EMAS 如何从中受益的系统性审查。我们提出了一种分类法，该分类法根据系统架构和体现模态对 EMAS 进行分类，强调合作如何跨越物理和虚拟环境。随后，我们分析了核心构建模块（感知、规划、通信和反馈），以说明生成性技术如何增强系统的稳健性和灵活性。通过具体示例，我们展示了将基础模型集成到体现式多智能体框架中所产生的重要影响。最后，我们讨论了挑战和未来方向，并强调了 EMAS 在重塑由 AI 驱动的协作格局方面的巨大前景。

发布时间: 2/18/2025

查看原文

MaZO：掩码零阶优化在大型语言模型多任务微调中的应用

作者: Zhen Zhang, Yifan Yang, Kai Zhen, Nathan Susanj, Athanasios Mouchtaris, Siegfried Kunzmann, Zheng Zhang

arXiv:2502.11513v1 宣告类型: cross 摘要: 大型语言模型在各种任务中展现了卓越的能力，但它们的微调需要大量的内存，这在资源受限的环境中构成了挑战。零阶（ZO）优化提供了一种内存高效的替代方案，因为它消除了反向传播的需求。然而，ZO优化存在梯度方差高的问题，之前的研究主要集中在单任务学习上，而对多任务学习的应用则鲜有涉及。多任务学习对于利用任务间的共享知识以提高泛化能力至关重要，但在ZO设置下它也带来了独特的挑战，比如梯度方差放大和共线性。本文介绍了MaZO，这是首个专为ZO优化环境下多任务LLM微调设计的框架。MaZO通过两个关键创新从参数层面解决这些挑战：一个权重重要性度量来识别关键参数，以及一个多任务权重更新掩码来选择性地更新这些参数，从而减少参数空间的维度并缓解任务冲突。实验结果表明，MaZO达到了最先进的性能，甚至超越了为一阶优化设计的多任务学习方法。

发布时间: 2/18/2025

查看原文

DifCluE: 使用扩散自编码器和模态聚类生成反事实解释

作者: Suparshva Jain, Amit Sangroya, Lovekesh Vig

arXiv:2502.11509v1 宣告类型: cross 摘要：为同一类中的不同模式生成多个反事实解释是一个重大挑战，因为这些模式虽然各自独立，但在同一分类下却会汇聚。扩散概率模型（DPMs）在捕捉数据分布的根本模式方面表现出强大的能力。在本文中，我们利用扩散自编码器生成多个独特的反事实解释。通过在潜在空间中聚类，我们揭示了对应于类内不同模式的方向，从而能够生成多样且有意义的反事实解释。我们介绍了一种新的方法论DifCluE，该方法论一致地识别这些模式并生成更可靠的反事实解释。我们的实验结果显示，DifCluE 在生成多个反事实解释方面优于当前最先进的技术，为模型可解释性带来了显著的进步。

发布时间: 2/18/2025

查看原文