arXiv 论文列表

SALMONN-omni：一种无编解码器的全双工语音理解与生成大型语言模型

作者: Wenyi Yu, Siyin Wang, Xiaoyu Yang, Xianzhao Chen, Xiaohai Tian, Jun Zhang, Guangzhi Sun, Lu Lu, Yuxuan Wang, Chao Zhang

全双工多模态大型语言模型（LLM）提供了一个统一的框架来处理各种语音理解和生成任务，从而实现更自然、更无缝的人机对话。与传统的模块化对话式AI系统（将语音识别、理解和文本到语音生成分成不同的组件）不同，多模态LLM作为一个单一的端到端模型运行。这种简化的设计消除了组件间的错误传播，并充分利用了输入语音信号中丰富的非语言信息。我们引入了SALMONN-omni，这是一个无编解码器、全双工语音理解和生成模型，能够在说话的同时同时收听自身生成的语音和背景声音。为了支持此功能，我们提出了一种新颖的全双工口语对话框架，该框架包含一种“思考”机制，该机制利用嵌入而不是编解码器（量化的语音和音频标记）来促进异步文本和语音生成。实验结果证明了SALMONN-omni在各种流式语音任务（包括语音识别、语音增强和口语问答）中的多功能性。此外，SALMONN-omni在管理轮流发言、抢话和回声消除场景方面表现出色，证明了其作为全双工对话式AI系统强大原型的潜力。据我们所知，SALMONN-omni是同类产品中第一个无编解码器的模型。完整的技术报告以及模型检查点将很快发布。

发布时间: 11/28/2024

查看原文

基于模板的数据生成方法训练和评估语言模型

作者: Yifan Zhang

大型语言模型（LLM），例如GPT-3、PaLM和Llama的快速发展，已经显著改变了自然语言处理领域，在理解和生成语言方面展现出非凡的能力。然而，这些模型往往难以胜任需要复杂推理的任务，尤其是在数学问题求解方面，部分原因是缺乏用于训练复杂推理能力的大规模、高质量、特定领域的训练数据集。为了解决这一限制，我们引入了基于模板的数据生成 (TDG) 方法，这是一种利用大型语言模型 (GPT-4) 自动生成参数化元模板的新方法，然后利用这些元模板合成大量高质量的问题和解答。利用TDG，我们创建了TemplateMath第一部分：TemplateGSM，这是一个包含超过700万个合成生成的针对小学数学问题的数据库——每个问题都附带基于代码和自然语言的解答——并且具有生成无限数量问题的潜力。该数据集缓解了大规模数学数据集的稀缺性，并作为预训练、微调和评估大型语言模型在数学推理方面的宝贵资源。我们的方法不仅能够生成几乎无限的数据，而且还通过使用GPT-4进行元模板生成将数据增强提升到一个新的水平，从而确保问题结构的多样性和高质量。TemplateMath第一部分：TemplateGSM数据集已公开发布在https://huggingface.co/datasets/math-ai/TemplateGSM。代码可在https://github.com/iiis-ai/TemplateMath获取。

发布时间: 11/28/2024

查看原文

高斯过程在对数变换目标函数上训练后，期望改进的闭合形式推导

作者: Shuhei Watanabe

预期改进 (EI) 可谓贝叶斯优化中最广泛使用的采集函数。然而，由于其对数值精度的敏感性，提升 EI 的性能往往具有挑战性。此前，Hutter 等人 (2009) 通过使用在对数变换的目标函数上训练的高斯过程解决了这个问题，据报道，这种技巧提高了 GP 的预测精度，从而带来了显著更好的性能。尽管 Hutter 等人 (2009) 提出了他们 EI 的闭合形式，但其中间推导过程迄今尚未提供。本文，我们对他们的命题给出了一个友好的推导过程。

发布时间: 11/28/2024

查看原文

从探索到揭示：检测移动应用中的暗模式

作者: Jieshan Chen, Zhen Wang, Jiamou Sun, Wenbo Zou, Zhenchang Xing, Qinghua Lu, Qing Huang, Xiwei Xu

移动应用程序已成为日常生活不可或缺的一部分，但它们经常使用暗模式，例如利用视觉技巧突出某些选项或使用语言策略诱导用户进行购买，从而操纵用户行为。当前的研究主要采用人工方法检测暗模式，这种方法费时费力，难以跟上不断更新和涌现的应用程序。虽然有一些研究针对自动化检测，但它们局限于静态模式，仍然需要人工探索应用程序。为了弥补这些不足，我们提出了AppRay，这是一个创新的系统，它将面向任务的应用程序探索与自动化暗模式检测无缝融合，从而减少人工工作量。我们的方法包括两个步骤：首先，我们利用大型语言模型的常识知识进行有针对性的应用程序探索，并辅以传统的随机探索以捕捉更广泛的UI状态。其次，我们开发了一个由基于对比学习的多标签分类器和基于规则的细化器驱动的静态和动态暗模式检测器来执行检测。我们贡献了两个数据集，AppRay-Dark和AppRay-Light，包含来自876个UI和871个良性UI的2185个独特的欺骗性模式（包括149个动态实例），涵盖18种类型。这些数据集涵盖了静态和动态暗模式，同时保留了UI关系。实验结果证实，AppRay能够高效地探索应用程序并识别各种暗模式，并具有良好的性能。

发布时间: 11/28/2024

查看原文

PersonaCraft：基于3D模型条件扩散的单参考图像多身份个性化全身图像合成

作者: Gwanghyun Kim, Suh Yoon Jeon, Seunggyu Lee, Se Young Chun

个性化图像生成技术已经取得显著进展，能够创建高度逼真和定制化的图像。然而，现有方法在生成多人图像时常常难以处理遮挡问题，并且无法准确地个性化全身形状。本文提出了一种名为PersonaCraft的新方法，它结合了扩散模型和3D人体建模来解决这些限制。我们的方法通过结合使用SMPLx-ControlNet进行3D感知姿态调节，有效地管理遮挡问题，并通过SMPLx拟合准确地个性化人体全身形状。此外，PersonaCraft允许用户自定义体型调整，增加了个性化体型定制的灵活性。实验结果表明，PersonaCraft在生成高质量、逼真的多人图像以及解决遮挡问题方面具有优越的性能，从而为多人个性化图像合成树立了新的标准。

发布时间: 11/28/2024

查看原文

强化学习缓解级联故障：基于敏感性因素的目标探索

作者: Anmol Dwivedi, Ali Tajer, Santiago Paternain, Nurali Virani

电力网络的弹性和气候变化由于一系列影响二者的技术和政策决策而相互强烈影响。本文介绍了一种基于物理信息机器学习的框架来增强电网的弹性。具体来说，当遇到破坏性事件时，本文设计了补救控制措施以防止停电。提出的物理引导强化学习 (PG-RL) 框架确定有效的实时补救性线路切换措施，同时考虑其对功率平衡、系统安全和电网可靠性的影响。为了确定有效的停电缓解策略，PG-RL 利用潮流灵敏度因子来指导智能体训练期间的强化学习探索。使用 Grid2Op 平台进行的综合评估表明，将物理信号纳入强化学习可以显著提高电力系统内的资源利用率，并实现更好的停电缓解策略——这两点对于应对气候变化都至关重要。

发布时间: 11/28/2024

查看原文

半监督多变量时间序列分类中主题与形状词的异构关系

作者: Mingsen Du, Meng Chen, Yongjian Li, Cun Ji, Shoushui Wei

多变量时间序列（MTS）分类广泛应用于工业、医疗和金融等领域，旨在从复杂的时间序列数据中提取关键特征，以实现准确的决策和预测。然而，现有的MTS方法往往难以有效建模高维数据并缺乏标记数据，导致分类性能较差。为了解决这个问题，我们提出了一种用于半监督MTS分类的基于主体异构关系和形状词的方法。该方法通过整合各种类型的附加信息并捕获它们之间的关系，提供了一种新颖的视角。具体来说，我们首先利用对比时间自注意力模块来获得稀疏的MTS表示，然后使用软动态时间规整来建模这些表示之间的相似性，从而构建一个相似性图。其次，我们学习不同主体类型的形状词，将主体特征及其形状词作为附加信息，进一步细化相似性图，最终生成一个异构图。最后，我们使用双层图注意力网络进行预测。通过这种方法，我们成功地将数据集转换为异构图，整合了多种附加信息，并实现了精确的半监督节点分类。在人体活动识别、睡眠阶段分类和东安格利亚大学数据集上的实验表明，我们的方法在MTS分类任务中优于现有的最先进方法，验证了其优越性。

发布时间: 11/28/2024

查看原文

视觉语言模型用于可解释的人-物交互分析

作者: Donggoo Kang, Dasol Jeong, Hyunmin Lee, Sangwoo Park, Hasil Park, Sunkyu Kwon, Yeongjoon Kim, Joonki Paik

大型视觉语言模型 (VLM) 最近在连接两种基本模态方面取得了显著进展。通过足够大的数据集训练的 VLM，展现出对视觉和语言的全面理解，从而能够执行各种任务。为了准确提取这些知识，本文提出了一种新方法，该方法明确地将 VLM 用作人类-物体交互 (HOI) 检测任务的目标函数形式（**VLM-HOI**）。具体来说，我们提出了一种使用图像-文本匹配技术量化预测 HOI 三元组相似度的方法。我们用语言表示 HOI 三元组，以充分利用 VLM 的语言理解能力，这比 CLIP 模型更适合，因为 VLM 具有更好的定位和以物体为中心的特点。该匹配分数被用作对比优化目标。据我们所知，这是首次将 VLM 的语言能力用于 HOI 检测。实验结果证明了该方法的有效性，在基准测试中实现了最先进的 HOI 检测精度。我们相信，将 VLM 整合到 HOI 检测中，代表着朝着更高级、更可解释的人类-物体交互分析迈出的重要一步。

发布时间: 11/28/2024

查看原文

AEGIS：一种基于智能体的通用错误重现框架，基于问题描述

作者: Xinchen Wang, Pengfei Gao, Xiangxin Meng, Chao Peng, Ruida Hu, Yun Lin, Cuiyun Gao

在软件维护中，错误重现对于有效的故障定位和修复至关重要。手动编写重现脚本是一项耗时且对开发者要求很高的任务。因此，错误重现的自动化越来越受到研究人员和实践者的关注。然而，现有的错误重现研究通常局限于特定类型的错误，例如程序崩溃，难以应用于一般的错误重现。本文考虑到基于Agent的方法在代码智能任务中的优越性能，我们专注于设计一个基于Agent的框架来完成这项任务。直接使用Agent会导致错误重现性能有限，因为子任务纠缠、检索上下文冗长以及动作不受规范。为了减轻这些挑战，我们提出了一种名为 AEGIS 的自动化通用错误重现脚本生成框架，这是第一个用于此任务的基于Agent的框架。AEGIS 主要包含两个模块：（1）简洁的上下文构建模块，旨在引导代码Agent从问题描述中提取结构化信息，识别与问题相关的代码并提供详细解释，并将这些元素整合以构建简洁的上下文；（2）基于有限状态机（FSM）的多反馈优化模块，以进一步规范代码Agent在有限状态机（FSM）中的行为，确保基于多维反馈的受控且高效的脚本生成过程。在公共基准数据集上的大量实验表明，AEGIS 在 F->P 指标上比最先进的基线提高了 23.0%。此外，AEGIS 生成的错误重现脚本可以将无Agent方法的相对解决率提高 12.5%。

发布时间: 11/28/2024

查看原文

基于因果和局部相关性的多元时间序列分类网络

作者: Mingsen Du, Yanxuan Wei, Xiangwei Zheng, Cun Ji

近年来，时间序列分类受到了众多研究者的关注，并提出了数百种方法。然而，这些方法往往忽略了维度间的空间相关性和特征间的局部相关性。为了解决这个问题，本研究提出了一种基于因果关系和局部相关性的网络（CaLoNet）用于多变量时间序列分类。首先，利用因果关系建模对维度间的成对空间相关性进行建模，以获得图结构。然后，利用关系提取网络融合局部相关性以获得长期依赖特征。最后，将图结构和长期依赖特征集成到图神经网络中。在UEA数据集上的实验表明，与最先进的方法相比，CaLoNet可以获得具有竞争力的性能。

发布时间: 11/28/2024

查看原文