arXiv:2504.11460v2 公告类型: replace-cross
摘要: 在本研究中,我们介绍了两种任务的方法:情感模仿强度 (EMI) 估计挑战和行为不确定性/犹豫 (BAH) 识别挑战,这些都是在第八届野生情感与行为分析研讨会暨竞赛中进行的。我们利用在大规模播客数据集上预训练的 Wav2Vec 2.0 模型提取各种音频特征,捕获语言和副语言信息。我们的方法结合了从 Wav2Vec 2.0 提取的情感-唤醒-主宰 (VAD) 模块、BERT 文本编码器和视觉变换器 (ViT),并通过长短期记忆 (LSTM) 架构或类似卷积的方法进行时间建模,以处理后续预测。我们将文本和视觉模态整合到分析中,认识到语义内容提供了有价值的情境线索,并强调言语的意义经常比其声学对应物单独提供的见解更为深刻。结合视觉模态有助于更好地解释文本模态。这种综合方法在 EMI 方面取得了显著的性能提升,$\rho_{\text{TEST}} = 0.706$,在 BAH 方面取得了 $F1_{\text{TEST}} = 0.702$ 的成绩,从而在 EMI 挑战中获得第一名,在 BAH 挑战中获得第二名。
arXiv:2504.11389v2 公告类型: 替换交叉
摘要:高分辨率全景视频内容对于虚拟现实中的沉浸式体验至关重要,但收集此类内容并不容易,因为这需要专门的设备和复杂的摄像机设置。在这项工作中,我们介绍了VideoPanda,这是一种基于文本或单视角视频数据合成360°视频的新型方法。VideoPanda 利用多视角注意力层扩展了视频扩散模型,使其能够生成可以组合成沉浸式全景内容的一致多视角视频。VideoPanda 是通过两种条件联合训练的:仅文本和单视角视频,并支持长视频的自回归生成。为了克服多视角视频生成的计算负担,我们在训练过程中随机子采样了使用的持续时间和摄像机视角,并表明该模型在推理时能够优雅地泛化以生成更多的帧。在真实世界和合成视频数据集上的广泛评估表明,与现有方法相比,VideoPanda 在所有输入条件下生成的360°全景更加逼真和连贯。请访问项目网站 https://research.nvidia.com/labs/toronto-ai/VideoPanda/ 查看结果。
arXiv:2504.10020v2 Announce Type: replace-cross
摘要:对比解码策略广泛用于减少多模态大型语言模型(MLLMs)中的自生成现象。这些方法通过构造对比样本来诱导自生成现象,然后在输出分布中抑制它们。然而,本文展示了这类方法在有效缓解自生成问题方面存在缺陷。POPE基准上观察到的性能提升主要由两个误导性的因素驱动:(1) 对模型输出分布进行粗略的单向调整,(2) 自适应可 plausibility 约束,这将采样策略简化为贪婪搜索。为了进一步说明这些问题,我们引入了一系列虚假改进方法,并将这些方法的性能与对比解码技术进行了评估。实验结果揭示,对比解码观察到的性能提升与缓解自生成现象的目标完全无关。我们的 findings 挑战了对比解码策略有效性的常见假设,并为开发真正有效的 MLLMs 中自生成现象解决方案铺平了道路。
arXiv:2504.09164v2 通知类型: 替换交叉
摘要: 鉴于生成式人工智能作为创作多语言内容和绕过机器和传统翻译方法的工具使用日益增长,本研究探讨了经过语言训练的人士能否辨别机器生成的内容与人的写作文本(HT)的能力。在简短的培训后,了解通常在合成文本(ST)中发现的文本异常,二十名研究生翻译学生分析了意大利散文片段,并分配概率评分以表明他们认为这些文本是人写的还是AI生成(ChatGPT-4o)的。结果显示,学生们平均难以区分HT和ST,只有两名参与者达到了明显的准确性。进一步分析发现,学生们在HT和ST中都指出了相同的文本异常,尽管像低突度特征和自相矛盾这样的特点更常与ST相关联。这些发现表明需要改善预备培训。此外,研究还引发了需要编辑合成文本以使其听起来更像人类写成的必要性的疑问,并建议进一步研究以确定AI生成的文本是否已经足够自然,无需进一步精炼。
arXiv:2504.08725v2 通告类型: replace-cross
摘要:高质量的代码文档在人工智能时代的软件开发中至关重要。然而,使用大规模语言模型(LLMs)自动生成它仍然颇具挑战性,因为现有方法往往会产生不完整、无用或事实错误的输出。我们介绍了DocAgent,这是一种使用拓扑代码处理进行增量上下文构建的新型多智能体协作系统。然后,专门化智能体(Reader、Searcher、Writer、Verifier、Orchestrator)协作生成文档。我们还提出了一种多方面的评估框架,评估完整性、有用性和真实准确性。全面的实验表明,DocAgent在基准模型上始终显著优于基准模型。我们的消融研究证实了拓扑处理顺序在其中的关键作用。DocAgent为复杂和专有仓库中的可靠代码文档生成提供了一种稳健的方法。
arXiv:2504.07566v2 宣告类型: 替换-交叉
摘要:表格数据生成近年来由于其不同的应用场景而引起了越来越多的兴趣。然而,生成时间序列的表格数据仍然是一个很大程度上未被探索的领域,其中序列中的每个元素都依赖于其他元素。这个差距很可能归因于同时解决多种问题的难度,其中最主要的是表格数据的异质性(这是一般非时间依赖方法面临的共同问题)和时间序列的可变长度。在本文中,我们提出了一种基于扩散变换器(DiTs)的方法来生成表格数据序列。受到近期DiTs在图像和视频生成方面取得成功的影响,我们将这个框架扩展以处理异质数据和可变长度序列。通过在六个数据集上的大量实验,我们展示了所提出的方法在很大程度上优于之前的工作。
arXiv:2504.05050v2 通告类型: 替换-交叉
摘要:大型语言模型(LLMs)是人工智能通用性的基础探索,但通过指令调整和偏好学习与人类价值的对齐仅实现了表面合规。在这里,我们证明了预训练过程中嵌入的危害性知识在LLMs的参数记忆中持久存在,难以避免对齐保障措施,并在分布变化下被诱导重新出现。在这项研究中,我们首先通过证明当前的对齐方法只能在知识流形中提供局部的“安全区”来理论分析对齐LLMs的内在伦理脆弱性。相反,预训练知识仍然通过高概率对抗路径与有害概念保持全球连接。基于这一理论见解,我们通过使用语义连贯性诱导在分布变化下进行实证验证——这种方法通过优化的对抗提示系统地绕过了对齐约束。这种结合理论和实证的方法在19种最新的对齐LLM(包括DeepSeek-R1和LLaMA-3)中实现了100%的攻击成功率,揭示了它们的普遍脆弱性。
arXiv:2504.03085v2 宣告类型: 替换交叉
摘要:缺乏可解释性是限制AI模型实际应用的主要障碍。已经采用了一些可解释的人工智能(XAI)技术(例如SHAP、LIME)来解释这些模型的性能。然而,用户在实际场景中使用这些技术时常常遇到挑战,因此他们在技术问答论坛(如Stack Overflow)上提交问题以解决这些挑战。我们进行了一项探索性研究,揭示了这些挑战、其严重程度以及可以使得XAI技术更易于使用和更易于获取的特征。我们对此研究的贡献有四个方面。首先,我们手动分析了663个讨论与XAI技术相关的挑战的Stack Overflow问题。我们的仔细调查产生了一份七项挑战的清单(例如,分歧问题)。然后,我们分析了这些问题的普遍性,发现模型集成和分歧问题是最常见的挑战。第二,我们试图通过确定挑战类型与答案元数据(如被接受的答案的存在)之间的相关性来估计每种XAI挑战的严重程度。我们的分析表明,模型集成问题是最严重的挑战。第三,我们基于从业者在其工作中有效使用XAI技术的能力来感知这些挑战的严重程度。从业务人员的回答来看,分歧问题对XAI技术的使用影响最大。第四,我们寻求从业务人员那里获取关于可以使得XAI技术更易于使用和用户友好的改进或功能的共识。大多数人建议解释的一致性和简化集成。我们的研究发现可能会(a)帮助提高XAI的可访问性和易用性,并且(b)作为激励未来研究的初步基准。
arXiv:2503.23798v2 层级跳过类型:替换交叉
摘要:为加快大型语言模型(LLMs)中的标记生成,已经提出了各种层级跳过方法。然而,这些方法忽视了一个基本问题:在生成不同标记时,计算需求如何变化?在本文中,我们介绍了FlexiDepth方法,该方法动态调整用于文本生成的Transformer层数量。通过引入插件路由器和适配器,FlexiDepth能够在不修改LLM原始参数的情况下实现自适应层级跳过。将FlexiDepth应用于Llama-3-8B模型,实现了从32层中跳过8层,并同时保持100%的基准性能。FlexiDepth的实验结果表明,LLM中的计算需求显著取决于标记类型。具体来说,生成重复标记或固定短语需要较少的层,而产生涉及计算或高不确定性的标记则需要更多的层。有趣的是,这种自适应分配模式与人类直觉相符。为了促进该领域的研究,我们开源了FlexiDepth以及记录FlexiDepth层级分配模式的数据集,以供未来研究。
arXiv:2503.21729v2 宣告类型: 替换交叉
摘要: 大型推理模型(LRMs)展现出卓越的推理能力,但主要依赖参数化知识,限制了事实的准确性。虽然最近的研究让基于强化学习(RL)的LRMs具备检索能力,但它们在推理过程中容易出现过度推理,并且推理的鲁棒性不足,降低了它们在问答(QA)任务中的有效性。为了解决这一问题,我们提出了一种名为ReaRAG的事实增强推理模型,该模型在不进行过多迭代的情况下探索多样的查询。我们的解决方案包括一种新颖的数据构建框架,该框架设定了推理链的最大长度上限。具体来说,我们首先利用LRM生成有目的的思考,然后从预定义的动作空间(搜索和结束)中选择一个动作。对于搜索动作,执行对RAG引擎的查询,查询结果作为观察结果返回,以指导后续的推理步骤。此过程一直持续到选择结束动作为止。得益于ReaRAG强大的推理能力,我们的方法在多跳问答任务中优于现有基线。进一步的分析突显了其强大的反思能力,能够识别错误并优化其推理轨迹。我们的研究提高了LRMs的事实准确性,并有效地将鲁棒推理集成到检索增强生成(RAG)中。