arXiv 论文列表

情感化对话：基于音频信息解耦和情感视频扩散的表达性说话头像生成

作者: Haotian Wang, Yuzhe Weng, Yueyan Li, Zilu Guo, Jun Du, Shutong Niu, Jiefeng Ma, Shan He, Xiaoyan Wu, Qiming Hu, Bing Yin, Cong Liu, Qingfeng Liu

扩散模型彻底改变了虚拟人物头像生成的领域，但在长时间生成中仍然面临表达性、可控性和稳定性方面的挑战。本研究提出了一种名为 EmotiveTalk 的框架来解决这些问题。首先，为了更好地控制唇部动作和面部表情的生成，设计了一种视觉引导的音频信息解耦 (V-AID) 方法，以生成与唇部动作和表情对齐的基于音频的解耦表示。具体来说，为了实现音频和面部表情表示空间之间的对齐，我们在 V-AID 中提出了一种基于扩散的共语音时间扩展 (Di-CTE) 模块，以在多源情绪条件约束下生成与表情相关的表示。然后，我们提出了一种设计良好的情感化虚拟人物头像扩散 (ETHD) 主干网络，以高效地生成高表达性的虚拟人物头像视频，其中包含一个表情解耦注入 (EDI) 模块，可以自动将表情与参考肖像解耦，同时整合目标表情信息，从而实现更具表达性的生成性能。实验结果表明，EmotiveTalk 可以生成表达性丰富的虚拟人物头像视频，确保了情绪的可控性和长时间生成的稳定性，与现有方法相比取得了最先进的性能。

发布时间: 11/27/2024

查看原文

双头胜过一：用于人机交互的协作式大型语言模型具身智能体

作者: Mitchell Rosser, Marc. G Carmichael

随着大型语言模型（LLM）的最新发展，为改进人与机器人助手交互方式开辟了一种潜在的应用场景。这些LLM应该能够利用其广泛的理解能力，将自然语言指令转换成有效、合适的和安全的机器人任务执行。然而，实际上，这些模型存在幻觉问题，这可能会导致安全问题或偏离任务目标。在其他领域，通过使用多个LLM代理协同工作的协作式人工智能系统，已经改善了这些问题，这些代理可以共同规划、编写代码并自我检查输出。本研究将多个协作式人工智能系统与单个独立人工智能代理进行了对比测试，以确定其他领域取得的成功是否会转化为人机交互性能的提升。结果表明，代理数量与模型成功之间没有明确的趋势。然而，很明显，一些协作式人工智能代理架构能够显著提高生成无错误代码和解决抽象问题的能力。

发布时间: 11/27/2024

查看原文

远离危害：一种防御视觉语言模型免受越狱攻击的自适应方法

作者: Han Wang, Gang Wang, Huan Zhang

视觉语言模型 (VLMs) 在遭受对抗性攻击时可能会产生意外的有害内容，特别是由于其视觉能力带来了新的漏洞。现有的防御方法，例如输入预处理、对抗性训练和基于响应评估的方法，由于其高成本，往往难以在现实世界中部署。为了应对这一挑战，我们提出了 ASTRA，这是一种高效且有效的防御方法，它通过自适应地将模型引导远离对抗性特征方向来抵抗 VLM 攻击。我们的关键步骤包括：寻找代表有害响应方向的可迁移转向向量，并在推理时应用自适应激活转向来消除这些方向。为了创建有效的转向向量，我们随机去除对抗性图像中的视觉标记，并识别与越狱最密切相关的标记。然后使用这些标记来构建转向向量。在推理过程中，我们执行自适应转向方法，该方法涉及转向向量和校准激活之间的投影，从而在良性输入上几乎不会降低性能，同时在对抗性输入下有效避免有害输出。在多个模型和基线上的大量实验表明，我们在减轻越狱风险方面具有最先进的性能和高效率。此外，ASTRA 表现出良好的可迁移性，能够防御设计时未见过的攻击（即基于结构的攻击）和来自不同分布的对抗性图像。

发布时间: 11/27/2024

查看原文

基于形式化验证的文本到视频模型的神经符号评估

作者: S. P. Sharan, Minkyu Choi, Sahil Shah, Harsh Goel, Mohammad Omama, Sandeep Chinchali

Sora、Gen-3、MovieGen和CogVideoX等文本到视频模型的最新进展正在突破合成视频生成的界限，并在机器人技术、自动驾驶和娱乐等领域得到应用。随着这些模型的普及，涌现出各种评估生成视频质量的指标和基准。然而，这些指标强调视觉质量和流畅性，而忽略了时间保真度和文本到视频的对齐，这对于安全关键型应用至关重要。为了解决这一差距，我们引入了NeuS-V，这是一种新颖的合成视频评估指标，它使用神经符号形式化验证技术严格评估文本到视频的对齐。我们的方法首先将提示转换为形式化定义的时间逻辑（TL）规范，并将生成的视频转换为自动机表示。然后，通过正式检查视频自动机是否符合TL规范来评估文本到视频的对齐。此外，我们提供了一个包含时间扩展提示的数据集，以评估最先进的视频生成模型与我们的基准。我们发现，与现有指标相比，NeuS-V与人工评估的相关性提高了5倍以上。我们的评估进一步表明，当前的视频生成模型在这些时间上复杂的提示方面表现不佳，突出了未来改进文本到视频生成能力的必要性。

发布时间: 11/27/2024

查看原文

基于反馈驱动的多智能体框架增强大型语言模型在电力系统仿真中的应用

作者: Mengshuo Jia, Zeyu Cui, Gabriela Hug

大型语言模型 (LLM) 与实验技术的整合正在改变科学研究，将 AI 定位于一个多功能的研究助手，而不仅仅是一个简单的解决问题的工具。然而，在电力系统领域，由于 LLM 领域特定知识有限、推理能力受限以及对仿真参数处理不精确，管理仿真（一种重要的实验技术）仍然是一个挑战。为了解决这些限制，我们提出了一种反馈驱动的多智能体框架，该框架包含三个提出的模块：增强的检索增强生成 (RAG) 模块、改进的推理模块以及具有错误反馈机制的动态环境作用模块。在 Daline 和 MATPOWER 的 69 个不同任务上进行验证，该框架分别实现了 93.13% 和 96.85% 的成功率，显著优于最新的 LLM（ChatGPT 4o 和 o1-preview），后者在标准仿真任务上的成功率为 27.77%，在复杂任务上的成功率为 0%。此外，我们的框架还支持快速、经济高效的任务执行，每个仿真的完成时间约为 30 秒，令牌平均成本为 0.014 美元。总的来说，这种适应性强的框架为开发面向人类研究人员的基于 LLM 的智能助手奠定了基础，促进了电力系统研究及其他领域的发展。

发布时间: 11/27/2024

查看原文

基于反应条件的新酶设计：GENzyme方法

作者: Chenqing Hua, Jiarui Lu, Yong Liu, Odin Zhang, Jian Tang, Rex Ying, Wengong Jin, Guy Wolf, Doina Precup, Shuangjia Zheng

大型语言模型（LLM）等模型的引入彻底改变了蛋白质结构建模和相互作用预测，主要从结合的角度出发，侧重于创建理想的锁钥模型。然而，对于酶-底物相互作用，这些方法可能存在不足，因为完美的结合模型很少见，而诱导契合状态更为常见。为了解决这个问题，我们将视角转向酶设计的函数层面，其中酶的功能由其催化的反应定义。在这里，我们介绍了\textsc{GENzyme}，这是一个从头设计的酶设计模型，它以催化反应为输入，生成催化口袋、完整的酶结构和酶-底物结合复合物。\textsc{GENzyme}是一个端到端的、三阶段模型，它集成了：（1）催化口袋生成和序列协同设计模块；（2）口袋修复和酶逆折叠模块；以及（3）结合和筛选模块，用于优化和预测酶-底物复合物。整个设计过程都由目标催化反应驱动。这种反应优先的方法可以实现更准确和更符合生物学规律的酶设计，在创建能够催化特定反应的酶方面，可能优于基于结构和侧重结合的模型。我们提供了\textsc{GENzyme}代码，网址为https://github.com/WillHua127/GENzyme。

发布时间: 11/27/2024

查看原文

利用ChatGPT4作为计算机科学学生助教的益处与风险

作者: Yaiza Aragon\'es-Soria, Julia Kotovich, Chitsutha Soomlek, Manuel Oriol

ChatGPT3.5 发布后，其解答关于编码的专业问题的能力震惊了软件工程界。许多教育工作者立即想知道是否可以将该聊天机器人用作帮助学生解答编程问题的辅助工具。本文从三个层面评估了这种可能性：基础计算机科学知识（基本算法和数据结构）、核心能力（设计模式）和高级知识（量子计算）。在每种情况下，我们多次向 ChatGPT3.5 提出标准化的问题，然后查看答案的正确性，最后检查这是否会产生问题。主要结果是，随着领域专业化的提高，ChatGPT3.5 的性能急剧下降：对于基本算法，它返回的答案几乎总是正确的；对于设计模式，生成的代码包含许多代码异味，质量普遍较低，但它有时仍然能够修复它（如果被要求）；而对于量子计算，它往往是明显错误的。

发布时间: 11/27/2024

查看原文

基于像素的以对象为中心的原型符号行为推理

作者: Ruben van Bergen, Justus H\"ubotter, Pablo Lanillos

自主智能体必须跨越不同抽象层次的计算挑战，从低层次的感官输入和运动指令空间到高层次的抽象推理和规划领域。设计此类智能体的一个关键问题是如何最好地实例化将在这两个层次之间进行交互的表示空间——理想情况下，无需以昂贵的数据标注形式进行监督。这些目标可以通过根据对象（以感知和行动为基础）来表示世界而有效地实现。在这项工作中，我们提出了一种新颖的、受大脑启发的深度学习架构，该架构从像素学习解释、控制和推理其环境，使用以对象为中心的表示。我们通过合成环境中的任务展示了我们方法的效用，这些任务需要结合（高层次）逻辑推理和（低层次）连续控制。结果表明，智能体可以学习紧急条件行为推理，例如$(A \to B) \land (\neg A \to C)$，以及逻辑组合$(A \to B) \land (A \to C) \vdash A \to (B \land C)$和异或运算，并成功地控制其环境以满足从这些逻辑规则推导出的目标。由于动态内部期望目标的生成，智能体可以在线适应其环境中的意外变化，并且对世界模型的轻微违反具有鲁棒性。虽然目前的结果仅限于合成环境（dSprites 的 2D 和 3D 激活版本），这未能达到现实世界的复杂程度，但所提出的架构展示了如何操作基于感知的对象表示，作为无监督学习的关键归纳偏置，以实现行为推理。

发布时间: 11/27/2024

查看原文

通过图示化、超化和不确定化推进不确定组合学：模糊、中智、软、粗糙及其他

作者: Takaaki Fujita

为了更好地处理现实世界中的不确定性，模糊集、中智集、粗糙集和软集等概念被引入。例如，同时表示真值、不确定性和假值的中智集已被证明是模拟复杂系统中不确定性的宝贵工具。这些集合概念越来越多地在图形化形式中被研究，广义图概念现在包含超图和超超图等已知结构。此外，超概念和超超概念正在图论以外的领域积极研究。组合数学、不确定集（包括模糊集、中智集、粗糙集、软集和多义集）、不确定图以及超概念和超超概念是活跃的研究领域，具有重要的数学和实践意义。鉴于这些概念的重要性，本文探讨了新的图和集合概念，以及超概念和超超概念，详见“论文结构”部分的“结果”部分。此外，这项工作旨在整合最新的研究成果，提供一份类似综述的资源，以告知和吸引读者。例如，我们通过引入中智超集、中智子集、中智偏集和非标准实数集来扩展几个图概念。本文定义了各种概念，旨在激发新的想法，并作为研究人员在学术追求中的宝贵资源。

发布时间: 11/27/2024

查看原文

BPP搜索：增强树形思维推理以解决数学建模问题

作者: Teng Wang, Wing-Yin Yu, Zhenqi He, Zehua Liu, Xiongwei Han, Hailei Gong, Han Wu, Wei Shi, Ruifeng She, Fangzhou Zhu, Tao Zhong

大型语言模型（LLM）展现出先进的推理能力，有潜力将自然语言问题转化为数学模型。然而，现有的开源运筹学数据集缺乏对建模过程的详细标注，例如变量定义，仅关注目标值，这阻碍了强化学习的应用。为了解决这个问题，我们发布了StructuredOR数据集，该数据集使用全面标签进行标注，捕捉完整的数学建模过程。我们进一步提出了BPP-Search算法，该算法使用波束搜索、过程奖励模型和成对偏好算法将强化学习集成到思维树结构中。这种方法能够有效地探索树结构，避免穷举搜索，同时提高准确性。在StructuredOR、NL4OPT和MAMO-ComplexLP数据集上的大量实验表明，BPP-Search显著优于最先进的方法，包括思维链、自洽性和思维树。在基于树的推理中，BPP-Search也优于与贪婪算法或波束搜索相结合的过程奖励模型，展现出更高的准确性和效率，并能够更快地检索正确的解决方案。

发布时间: 11/27/2024

查看原文