arXiv 论文列表

基于生成式AI和数字孪生技术的工程教育变革

作者: Yu-Zheng Lin, Ahmed Hussain J Alhamadah, Matthew William Redondo, Karan Himanshu Patel, Sujan Ghimire, Banafsheh Saber Latibari, Soheil Salehi, Pratik Satam

数字孪生技术，传统上应用于工业领域，日益被认可其在提升教育体验方面的潜力。本研究调查了工业数字孪生（DT）在教育中的应用，重点关注不同保真度的DT模型如何支持认知领域布鲁姆分类法的不同阶段。我们将布鲁姆的六个认知阶段与教育水平相对应：“记住”和“理解”对应本科学习，“应用”和“分析”对应硕士水平，“评价”和“创造”对应博士水平。低保真度DT有助于基本的知识获取和技能培训，为掌握基本概念提供低风险环境。中等保真度DT提供更详细和动态的模拟，增强应用技能和解决问题的能力。高保真度DT通过复制物理现象来支持高级学习者，从而进行创新设计和复杂实验。在这个框架内，大型语言模型（LLM）充当导师，评估进度，填补知识空白，并协助DT交互、参数设置和调试。我们使用柯克帕特里克模型评估教育影响，考察每个DT模型的保真度如何影响学习成果。该框架帮助教育者在整合DT和LLM以满足特定学习目标方面做出明智的决策。

发布时间: 11/25/2024

查看原文

赋能客户：生成式AI对设计流程的变革

作者: Johannes Schneider, Kilic Sinem, Daniel Stockhammer

生成式AI的进步正在改变计算设计领域，并深刻影响着创意产业。本文探讨了生成式AI对建筑设计过程的变革性影响，以及建筑师角色的转变。住宅设计因其复杂性及广泛的客户互动而成为一个有趣的案例研究。我们采用了一种被试内实验，使用流行的通用文本转图像工具生成设计方案并对现有设计方案提供反馈，之后再进行专家访谈。研究表明，AI可以通过快速可视化客户的想法，从而扰乱构思阶段，使客户能够参与到设计过程中。相应地，建筑师的角色更多地转变为评估客户和AI共同生成的方案的可行性。我们的研究还表明，虽然AI可以对设计提供有价值的反馈，但它可能无法生成此类设计，这与计算机科学的基础（例如NP完全性）存在有趣的联系。AI的反馈也往往会通过建议将新颖、创新的方法改为更标准化的设计来阻碍创造力和创新。我们的研究还揭示了建筑师对建筑的解释主权、以及当AI越来越多地接管设计过程中的创作权时意义和身份的丧失存在不确定性。

发布时间: 11/25/2024

查看原文

mR$^2$AG：基于知识的多模态检索-反思增强型问答生成

作者: Tao Zhang, Ziqi Zhang, Zongyang Ma, Yuxin Chen, Zhongang Qi, Chunfeng Yuan, Bing Li, Junfu Pu, Yuxuan Zhao, Zehua Xie, Jin Ma, Ying Shan, Weiming Hu

先进的多模态大型语言模型 (MLLM) 在最近的基于知识的视觉问答 (VQA) 任务（例如 INFOSEEK 和 Encyclopedic-VQA）中表现挣扎，因为它们的知识范围有限且固定，常常导致回答模棱两可且不准确。因此，多模态检索增强生成 (mRAG) 方法被自然地引入，为 MLLM 提供全面且最新的知识，有效地扩展了知识范围。然而，目前的 mRAG 方法存在固有的缺点，包括：1）即使不需要外部知识也进行检索；2）缺乏对支持查询的证据的识别；3）由于额外的信息过滤模块或规则而增加了模型复杂性。为了解决这些缺点，我们提出了一种新颖的通用框架，称为多模态检索-反思-增强生成 (mR$^2$AG)，它通过两个易于实现的反思操作实现自适应检索和有用信息定位，从而生成答案，避免了高模型复杂性。在 mR$^2$AG 中，检索-反思旨在区分不同的用户查询并避免冗余的检索调用，而相关性-反思则用于引导 MLLM 定位检索内容的有益证据并据此生成答案。此外，mR$^2$AG 可以集成到任何经过良好训练的 MLLM 中，并在提出的 mR$^2$AG 指令微调数据集 (mR$^2$AG-IT) 上进行高效的微调。mR$^2$AG 在 INFOSEEK 和 Encyclopedic-VQA 上显著优于最先进的 MLLM（例如，GPT-4v/o）和基于 RAG 的 MLLM，同时保持了基础 MLLM 在各种视觉相关任务中的出色能力。

发布时间: 11/25/2024

查看原文

仅从动作轨迹学习提升的STRIPS模型：一种简单、通用且可扩展的解决方案

作者: Jonas G\"osgens, Niklas Jansen, Hector Geffner

仅从动作轨迹学习 STRIPS 动作模型是一个具有挑战性的问题，因为它也涉及学习领域谓词。这项工作引入了一种新方法，它像著名的 LOCM 系统一样具有可扩展性，但像 SAT 方法一样，是健全且完整的。此外，该方法是通用的，并且不对隐藏域或谓词的数量或元数施加任何限制。这种新的学习方法基于一种**高效的新型测试**，该测试检查假设一个谓词受一组动作模式（即具有特定参数位置的动作）的影响是否与轨迹一致。通过测试的谓词和动作模式为学习的领域提供了基础，然后可以很容易地用先决条件和静态谓词来完成它。对这种新方法进行了理论和实验研究。对于后者，该方法在从 8 数码难题等标准经典领域获得的轨迹和图上进行了评估，这些领域涉及数十万个状态和转换。然后在更大的实例上验证学习到的表示。

发布时间: 11/25/2024

查看原文

自由能投射模拟 (FEPS)：具有可解释性的主动推理

作者: Jos\'ephine Pazem, Marius Krumm, Alexander Q. Vining, Lukas J. Fiderer, Hans J. Briegel

在过去十年中，自由能原理 (FEP) 和主动推断 (AIF) 在将学习和认知的概念模型与感知和行动的数学模型联系起来方面取得了许多成功。这项工作是由对理解自组织复杂自适应系统（包括能动性因素）各个方面的多学科兴趣驱动的。人们已经提出了各种执行主动推断的强化学习 (RL) 模型，并使用深度神经网络在标准 RL 任务上对其进行了训练。最近的工作重点是通过结合最新的机器学习技术来提高这些智能体在复杂环境中的性能。在本文中，我们采取了一种替代方法。在 FEP 和 AIF 施加的约束条件下，我们尝试通过引入自由能投射模拟 (FEPS) 来以一种可解释的方式对智能体进行建模，而无需使用深度神经网络。仅使用内部奖励，FEPS 智能体构建了其与之交互的部分可观测环境的表示。遵循 AIF，通过最小化预期自由能从该世界模型中推导出实现给定任务的策略。利用模型的可解释性，引入了一些技术来处理长期目标并减少由错误的隐藏状态估计引起的预测误差。我们在两个受行为生物学启发的 RL 环境中测试了 FEPS 模型：一个定时反应任务和一个部分可观测网格中的导航任务。我们的结果表明，FEPS 智能体仅基于预测精度适当地将它们的观察结果置于上下文中，从而完全消除了这两个环境的歧义。此外，它们能够灵活地为环境中的任何目标观测推断最优策略。

发布时间: 11/25/2024

查看原文

知识图谱嵌入模型中基于域和范围的合成负样本生成

作者: Alberto Bernardi, Luca Costabello

知识图谱嵌入模型将实体和边表示在低维空间中，在解决与知识图谱（KG）补全和探索相关的任务方面取得了极大的成功。大多数此类模型训练的关键方面之一是学会区分真实的陈述（正例）和虚假的陈述（负例）。然而，负例的定义方式并非易事，因为知识图谱中缺失的事实并不一定就是错误的，并且几乎从未给出真实的负例集合。这使得合成负例的生成成为必要。不同的生成策略会严重影响嵌入的质量，使其成为需要考虑的首要方面。我们改进了一种在训练过程中生成扰动数据的策略，该策略遵守关系的定义域和值域，我们扩展了其功能，并证明我们的方法为标准基准数据集带来了显著的改进（+10% MRR），对于更大的本体支持数据集则带来了超过+150% MRR 的改进。

发布时间: 11/25/2024

查看原文

SRSA：一种面向真实人机交互的经济高效的策略路由搜索代理

作者: Yaqi Wang, Haipei Xu

大型语言模型 (LLM) 近来展现出令人印象深刻的新兴能力并获得了广泛的普及，基于 LLM 的搜索代理的研究也随之蓬勃发展。在现实生活中，用户经常向聊天机器人输入上下文相关且高度个性化的查询，这使得 LLM 难以捕捉上下文并生成合适的答案。然而，以往的大部分研究并没有特别关注真实的“人机对话”场景，也忽略了响应质量和计算成本之间的重要平衡，强制所有查询都遵循相同的代理流程。为了解决这些差距，我们提出了一种策略路由搜索代理 (SRSA)，它将不同的查询路由到合适的搜索策略，并实现细粒度的串行搜索，从而以相对较低的成本获得高质量的结果。为了评估我们的工作，我们引入了一个新的数据集——上下文查询增强数据集 (CQED)，其中包含上下文查询，以模拟人和聊天机器人之间真实且日常的交互。我们使用基于 LLM 的自动评估指标，评估了 SRSA 在信息量、完整性、新颖性和可操作性方面的性能。总之，SRSA 提供了一种方法，解决了简单的串行搜索导致冗长且上下文相关的查询产生退化答案的问题，能够有效且高效地解析复杂的用户信息查询，并在无需微调 LLM 的情况下生成更全面和信息丰富的响应。

发布时间: 11/25/2024

查看原文

用于高效序列存储和检索的关联知识图谱

作者: Przemys{\l}aw Stok{\l}osa, Janusz A. Starzyk, Pawe{\l} Raif, Adrian Horzyk, Marcin Kowalik

本文提出了一种构建关联知识图谱的新方法，该方法能够高效地存储和识别序列。该图谱通过将重叠的物体序列表示为更大图谱中紧密连接的集群来创建。单个物体（表示为节点）可以属于多个序列，或者在一个序列中重复出现。为了检索序列，我们利用上下文，提供一个物体的子集来触发与完整序列的关联。系统的记忆容量由图谱的大小及其连接的密度决定。我们从理论上推导了图谱临界密度与存储序列的记忆容量之间的关系。临界密度是指无错误序列重建变得不可能的点。此外，我们还开发了一种高效的算法来对序列中的元素进行排序。通过对各种类型序列的大量实验，我们证实了这些关系的有效性。这种方法在金融交易异常检测或基于过去行为预测用户行为等不同领域具有潜在的应用价值。

发布时间: 11/25/2024

查看原文

扭曲扩散：利用图像扩散模型解决视频逆问题

作者: Giannis Daras, Weili Nie, Karsten Kreis, Alex Dimakis, Morteza Mardani, Nikola Borislavov Kovachki, Arash Vahdat

将图像模型直接用于解决逆向视频问题通常会导致生成的视频出现闪烁、纹理粘连和时间不一致等问题。为了解决这些问题，本文将帧视为二维空间中的连续函数，并将视频视为不同帧之间的一系列连续扭曲变换。这种视角允许我们仅在图像上训练函数空间扩散模型，并利用它们来解决时间相关的逆问题。函数空间扩散模型需要相对于底层空间变换保持等变性。为了确保时间一致性，我们引入了一种简单的事后测试时间引导，以实现（自）等变解。我们的方法允许我们部署最先进的潜在扩散模型，例如 Stable Diffusion XL，来解决视频逆问题。我们证明了我们的方法在视频修复和 8 倍视频超分辨率方面的有效性，优于基于噪声变换的现有技术。我们提供了生成的视频结果：https://giannisdaras.github.io/warped_diffusion.github.io/。

发布时间: 10/23/2024

查看原文

基于点互信息加权模仿学习的多样性策略恢复

作者: Hanlin Yang, Jian Yao, Weiming Liu, Qing Wang, Hanmin Qin, Hansheng Kong, Kirk Tang, Jiechao Xiong, Chao Yu, Kai Li, Junliang Xing, Hongwu Chen, Juchao Zhuo, Qiang Fu, Yang Wei, Haobo Fu

从一组专家轨迹中恢复多种不同的策略是模仿学习中的一个重要研究课题。在确定轨迹的潜在风格后，以往的多种策略恢复方法通常采用以潜在风格为条件的简单行为克隆学习目标，对轨迹中的每个状态-动作对给予同等的重要性。基于在许多场景中，行为风格通常只与状态-动作对的子集高度相关这一观察结果，本文提出了一种新的原理性方法来恢复多种策略。具体来说，在推断或分配轨迹的潜在风格后，我们通过结合基于点互信息的加权机制，增强了简单的行为克隆。这种额外的加权反映了每个状态-动作对对学习风格的贡献的重要性，从而使我们的方法能够专注于最能代表该风格的状态-动作对。我们为新的目标提供了理论依据，大量的实证评估证实了我们的方法在从专家数据中恢复多种策略方面的有效性。

发布时间: 10/23/2024

查看原文