arXiv 论文列表

作者: Benedikt Alkin, Andreas F\"urst, Simon Schmid, Lukas Gruber, Markus Holzleitner, Johannes Brandstetter

作为物理代理模型的神经算子最近受到了越来越多的关注。随着问题复杂性的不断增加，一个自然而然的问题出现了：如何有效地将神经算子扩展到更大、更复杂的模拟中——最重要的是，如何考虑不同类型的模拟数据集。这一点尤其重要，因为与它们的数值对应物类似，即使系统的底层动力学相似，不同的应用也会使用不同的技术。虽然Transformer的灵活性使得跨领域的统一架构成为可能，但神经算子大多遵循特定于问题的设计，其中图神经网络 (GNN) 常用于拉格朗日模拟，而基于网格的模型则在欧拉模拟中占主导地位。我们引入了通用物理Transformer (UPT)，这是一种用于各种时空问题的有效且统一的学习范式。UPT无需基于网格或粒子的潜在结构，从而在网格和粒子之间实现灵活性和可扩展性。UPT通过逆编码和解码技术有效地传播潜在空间中的动力学。最后，UPT允许在时空中的任何点查询潜在空间表示。我们在基于网格的流体模拟、稳态雷诺平均纳维-斯托克斯模拟和基于拉格朗日的动力学中证明了UPT的多样化适用性和有效性。

发布时间: 10/10/2024

查看原文

Quanda：一个用于训练数据归属评估及其他用途的可解释性工具包

作者: Dilyara Bareeva, Galip \"Umit Yolcu, Anna Hedstr\"om, Niklas Schmolenski, Thomas Wiegand, Wojciech Samek, Sebastian Lapuschkin

近年来，训练数据归因 (TDA) 方法作为神经网络可解释性的一种有前景的方向而出现。虽然围绕 TDA 的研究蓬勃发展，但致力于评估归因的工作却有限。类似于为传统的特征归因方法开发评估指标，已经提出了一些独立的指标来评估 TDA 方法在各种环境下的质量。然而，缺乏一个允许系统比较的统一框架，限制了对 TDA 方法的信任，并阻碍了其广泛应用。为了解决这一研究空白，我们引入了 Quanda，这是一个旨在促进 TDA 方法评估的 Python 工具包。Quanda 不仅提供了一套全面的评估指标，还提供了一个统一的接口，可以与不同存储库中现有的 TDA 实现无缝集成，从而实现系统的基准测试。该工具包易于使用，经过全面测试，文档齐全，并作为开源库在 PyPi 和 https://github.com/dilyabareeva/quanda 上提供。

发布时间: 10/10/2024

查看原文

基于度分布的脉冲图网络用于领域自适应

作者: Yingxu Wang, Siwei Liu, Mengzhu Wang, Shangsong Liang, Nan Yin

脉冲图网络(SGNs)凭借其解决图分类中能耗挑战的能力，受到了研究人员和行业的广泛关注。然而，SGNs仅对分布内数据有效，无法处理分布外数据。本文首先提出了SGNs中的域适应问题，并引入了一种名为度感知脉冲图域适应分类的新框架。提出的DeSGDA框架从三个方面解决了脉冲图域适应问题：节点度感知个性化脉冲表示、对抗性特征分布对齐和伪标签蒸馏。首先，我们引入个性化脉冲表示方法来生成依赖于节点度的脉冲信号。具体而言，触发脉冲的阈值由节点度决定，这种个性化方法能够捕获更多用于分类的表达信息。然后，我们提出了图特征分布对齐模块，该模块使用膜电位对抗域鉴别器进行对抗性训练。这种对齐模块能够在分布不一致的情况下有效地保持高性能和低能耗。此外，我们提取两个空间中一致的预测以创建可靠的伪标签，有效地利用未标记数据来增强图分类性能。在基准数据集上的大量实验验证了所提出的DeSGDA方法与现有竞争基线相比的优越性。

发布时间: 10/10/2024

查看原文

抑制内容偏移：利用现成生成技术改进扩散特征

作者: Benyuan Meng, Qianqian Xu, Zitai Wang, Zhiyong Yang, Xiaochun Cao, Qingming Huang

扩散模型是强大的生成模型，这种能力也可以应用于判别任务。预训练扩散模型的内部激活可以作为判别任务的特征，即扩散特征。我们发现，扩散特征受到一个隐藏但普遍存在的现象——我们称之为内容偏移——的阻碍。具体来说，特征和输入图像之间存在内容差异，例如某个物体的精确形状。我们将内容偏移的原因定位为扩散模型的一个固有特性，这表明这种现象在扩散特征中广泛存在。进一步的实证研究也表明，即使内容偏移在视觉上不易察觉，其负面影响也并非微不足道。因此，我们提出抑制内容偏移以提高扩散特征的整体质量。具体来说，内容偏移与从噪声输入恢复图像的过程中信息漂移有关，这指出了将现成的生成技术转化为内容偏移抑制工具的可能性。我们进一步提出了一种名为GATE的实用指南，以有效评估一项技术的潜在益处，并提供我们方法的实现。尽管简单，但所提出的方法在各种任务和数据集上都取得了优异的结果，验证了其作为扩散特征通用增强器的潜力。我们的代码可在https://github.com/Darkbblue/diffusion-content-shift 获取。

发布时间: 10/10/2024

查看原文

大型语言模型作为代码执行器：一项探索性研究

作者: Chenyang Lyu, Lecheng Yan, Rui Xing, Wenxi Li, Younes Samih, Tianbo Ji, Longyue Wang

大型语言模型（LLM）的能力已显著提升，其应用范围已从自然语言处理扩展到代码理解和生成等复杂任务。我们进一步拓展了LLM的能力范围，利用LLM执行代码片段以获取输出。本文率先探索了LLM作为代码执行器的可能性，其中代码片段直接输入模型进行执行，并返回输出结果。我们是首个全面考察这一可行性，并涵盖OpenAI的o1、GPT-4o、GPT-3.5、DeepSeek和Qwen-Coder等各种LLM的研究团队。值得注意的是，o1模型的代码执行准确率超过90%，而其他模型的准确率较低。此外，我们引入了一种迭代指令提示（IIP）技术，该技术逐行处理代码片段，使较弱模型的准确率平均提高了7.22%（最高提高了18.96%），并且相较于思维链提示法（CoT prompting）平均绝对提升了3.86%（最高提升了19.46%）。我们的研究不仅突出了LLM在编码领域的变革潜力，也为未来自动化编程和复杂任务的完成奠定了基础。

发布时间: 10/10/2024

查看原文

基于广义表示的任务导向时间序列插补评估

作者: Zhixian Wang, Linxiao Yang, Liang Sun, Qingsong Wen, Yi Wang

时间序列分析广泛应用于电力能源、经济学和交通运输等诸多领域，涵盖预测、异常检测、分类等多种任务。这些任务中普遍存在缺失值，往往会对现有方法产生不可预测的负面影响，阻碍其进一步应用。针对这种情况，现有时间序列插补方法主要关注基于数据特征恢复序列，而忽略了恢复序列在下游任务中的性能。考虑到下游任务（例如预测）的不同需求，本文提出了一种高效的面向下游任务的时间序列插补评估方法。该方法通过将时间序列插补与用于下游任务的神经网络模型相结合，无需重新训练即可估计不同插补策略在下游任务上的增益，并根据估计的增益组合不同的插补策略，从而给出最有利于下游任务的插补值。

发布时间: 10/10/2024

查看原文

基于视觉运动语言引导的机器人策略接地

作者: Arthur Bucker, Pablo Ortega-Kral, Jonathan Francis, Jean Oh

自然语言处理和计算机视觉领域的最新进展已展现出从大规模互联网数据中理解世界底层动态的巨大潜力。然而，鉴于人机交互的匮乏以及缺乏大规模真实世界机器人数据的现状，将这些知识转化为机器人系统仍然是一个开放性挑战。以往的机器人学习方法，例如行为克隆和强化学习，已在从人类演示中学习机器人技能或在特定环境中从零开始学习方面展现出强大的能力。然而，这些方法通常需要特定于任务的演示或设计复杂的仿真环境，这限制了为新环境开发泛化性和鲁棒性策略的发展。为了解决这些局限性，我们提出了一种基于智能体的框架，用于将机器人策略与当前上下文联系起来，并考虑当前机器人及其环境的约束，使用视觉运动接地语言指导。该框架由一组为特定角色设计的对话智能体组成——即高级顾问、视觉接地、监控和机器人智能体。给定一个基础策略，这些智能体共同在运行时生成指导，以将基础策略的动作分布转移到更理想的未来状态。我们证明了我们的方法可以有效地指导操作策略，在模拟和真实世界实验中都能显著提高成功率，而无需额外的演示或大量的探索。项目视频请访问 https://sites.google.com/view/motorcortex/home。

发布时间: 10/10/2024

查看原文

面向桌面场景的上下文感知命令理解

作者: Paul Gajewski, Antonio Galiza Cerdeira Gonzalez, Bipin Indurkhya

本文提出了一种新颖的混合算法，用于解释桌面场景中自然的人类指令。该系统通过整合语音、手势和场景上下文等多种信息来源，提取机器人可执行的指令，识别相关的物体和动作。该系统以零样本的方式运行，无需依赖预定义的对象模型，从而能够在各种环境中灵活自适应地使用。我们评估了多种深度学习模型的集成，评估了它们在现实世界机器人设置中的适用性。我们的算法在不同的任务中表现稳健，结合了语言处理和视觉定位。此外，我们还发布了一个用于评估系统的小型视频记录数据集。该数据集捕捉了人类用自然语言向机器人发出指令的真实世界交互，为未来人机交互研究做出了贡献。我们讨论了该系统的优缺点，特别关注它如何处理多模态指令解释，以及它如何集成到符号机器人框架中以实现安全和可解释的决策。

发布时间: 10/10/2024

查看原文

基于大型语言模型的联合知识图谱自然语言SPARQL查询生成

作者: Vincent Emonet, Jerven Bolleman, Severine Duvaud, Tarcisio Mendes de Farias, Ana Claudia Sima

我们提出了一种基于检索增强生成 (RAG) 的系统，用于将用户问题翻译成精确的、针对生物信息学知识图谱 (KG) 的联合 SPARQL 查询，该系统利用了大型语言模型 (LLM)。为了提高准确性并减少查询生成过程中的幻觉，我们的系统利用了知识图谱的元数据，包括查询示例和模式信息，并包含一个验证步骤来纠正生成的查询。该系统可在 chat.expasy.org 在线访问。

发布时间: 10/10/2024

查看原文

从词元到单词：关于大型语言模型内部词典的研究

作者: Guy Kaplan, Matanel Oren, Yuval Reif, Roy Schwartz

自然语言由单词构成，但现代大型语言模型 (LLM) 以子词作为输入进行处理。这种差异引发了一个自然的问题：LLM 是否在内部编码单词，如果是，如何编码？我们提供的证据表明，LLM 参与了一种内在的去标记化过程，其中子词序列被组合成连贯的词表示。我们的实验表明，此过程主要发生在模型的早期和中间层。它们还表明，该过程对非形态词分割、错别字以及——也许更重要的是——对不在词汇表中的单词具有鲁棒性：当将此类单词的内部表示作为输入向量馈送到模型时，即使在训练期间从未见过这些单词，它也能“理解”它们。我们的发现表明，LLM 保持着超出标记器范围的潜在词汇表。这些见解为扩展预训练模型的词汇表提供了一种实用的、无需微调的应用。通过添加新的词汇表单词，我们减少了输入长度和推理迭代次数，从而减少了空间和模型延迟，而模型精度几乎没有损失或根本没有损失。

发布时间: 10/10/2024

查看原文