arXiv:2411.00554v3 宣告类型: replace-cross
摘要: 从面团到黏土等食品和建筑材料到塑性可变形材料的机器人操作还处于起步阶段,主要是由于在高维空间中建模和感知的困难。模拟这些材料的动力学计算成本昂贵。这通常会受到材料和环境物理参数估算不准确的影响,阻碍了高精度操作。从光学相机捕获的原始点云估算这些参数还会受到严重遮挡的进一步影响。为了解决这一挑战,这项工作提出了一种新的可微分物理系统识别(DPSI)框架,该框架使机器人臂能够通过简单的操作运动和不完整的3D点云推断弹性塑性材料和环境的物理参数,使模拟与现实世界一致。大量实验表明,仅通过一次真实世界的交互,估算出的弹性模量、泊松比、屈服应力和摩擦系数可以准确模拟由未见过且远期的操作运动引起的视觉和物理上逼真的变形行为。此外,DPSI框架本身提供了物理直觉的参数解释,而传统的黑盒方法如深度神经网络则不具备这种解释能力。该项目通过https://ianyangchina.github.io/SI4RP-data/ 完全开源。
arXiv:2410.17714v2 通知类型: 替换-交叉
摘要:大规模语言模型(LLMs)通过在大量数据上进行预训练,实现了出色的性能。这使得它们能够高效地适应各种下游任务。然而,其内部机制的缺乏解释性限制了对LLMs的有效引导以适应特定应用的能力。在这项工作中,我们从认知角度出发,利用眼动测量研究LLMs的内在机制。具体来说,我们分析了人类认知指标与LLM表示之间的逐层相关性。基于这些见解,我们提出了一种启发式方法,用于选择最佳调节层以调整LLM语义。为此,我们引入了一种基于参数高效微调方法的高效选择性层干预,传统上调整所有层或仅最后一层。此外,我们还在推理期间提出了一种隐式层对比干预,以使LLMs偏离有毒输出。在使用GPT-2、LLaMa2-7B和Mixtral-7B进行的自然语言理解、推理和生成任务的广泛实验中,展示了我们方法的有效性和效率。作为一种模型无关的框架,它增强了LLMs的解释性,同时提高了安全部署的效率。
arXiv:2410.12866v2 通告类型: 替换-交叉
摘要: 近年来脑-计算机接口(BCIs)的进步使得从颅内记录中解码词汇音调成为可能,这为恢复失语音调语言使用者的沟通能力提供了潜力。然而,由生理和仪器因素引起的异质性数据导致了一种统一的侵入性脑音调解码的显著挑战。传统的针对特定受试者的模型,在异质性解码范式下运行,无法捕捉到通用的神经表示,并且不能有效地利用跨受试者的数据。为了应对这些限制,我们引入了神经表示中异质性和同质性分离学习框架(H2DiLR),这是一种新颖的框架,能够在多受试者的颅内记录中分离并学习同质性和异质性。为了评估H2DiLR,我们从多个参与者阅读包含407个音节的普通话材料中收集了立体电encephalography(sEEG)数据,这些音节几乎涵盖了所有普通话的汉字。广泛的实验表明,H2DiLR作为一种统一的解码框架,显著优于传统的异质性解码方法。此外,我们通过经验验证了H2DiLR在神经表示学习中能够有效捕捉到同质性和异质性。
arXiv:2410.12537v2 任务类型: replace-cross
摘要:复杂查询回答(CQA)在知识图谱(KGs)上的研究正在成为一个具有挑战性的推理任务。在本文中,我们展示了现有的CQA基准可能不像我们想象的那样复杂,因为它们的构建方式扭曲了我们在该领域取得进展的感知。例如,我们发现,在这些基准中,大多数查询(某些查询类型的查询多达98%)可以简化为更简单的问题,例如链接预测,其中只需要预测一个链接。当使用这些无法简化为更简单类型的问题评估最先进的CQA模型时,这些模型的表现会显著下降。因此,我们提出了一组更具挑战性的基准,由需要模型在多个跳跃中推理且更好地反映真实世界KG构建的查询组成。在系统的实证研究中,新的基准表明,当前的方法远未达到当前CQA方法的效果。
arXiv:2410.12381v3 宣告类型: replace-cross
摘要: 理解和推理图像是人类智能的基本方面。尽管大型多模态模型(LMMs)在各种任务中展现了令人印象深刻的性能,但现有的基准测试缺乏对它们在图示解释和推理能力的全面评估,特别是在编码环境中。我们介绍了HumanEval-V,这是一个严格的基准测试,涵盖了六种任务类型,并评估了多样的视觉推理能力。每个任务都包含精心设计的图示、函数签名和测试案例,采用新的代码生成任务来全面评估模型对图示的理解。通过与22个LMMs的广泛实验,我们发现即使表现最佳的模型也只能达到一定程度的成功,Claude 3.5 Sonnet仅达到36.8%的pass@1通过率,这突显出巨大的改进空间。我们的分析表明,当前的LMMs在空间变换、拓扑关系以及人类直观易懂的动态模式方面存在困难。这些发现为提高LMMs的视觉推理能力提供了有价值的见解。我们已在https://github.com/HumanEval-V/HumanEval-V-Benchmark 开源了我们的代码和基准测试。
arXiv:2410.11687v2 宣布类型: replace-cross
摘要:深度状态空间模型(Deep SSMs)已成为有效建模序列数据的有效方法。它们也被证明能够进行上下文学习,类似于变压器。然而,有关状态空间模型如何能够进行上下文学习的完整图景一直缺失。在本研究中,我们提供了一种直接且明确的构造,以证明状态空间模型可以进行梯度学习,并且可以像变压器一样用于上下文学习。具体来说,我们证明了一个带有乘法输入和输出门控的单层结构化状态空间模型层,可以在一次梯度下降步骤后,再现最小二乘损失隐含线性模型的输出。然后,我们展示了对多步线性和非线性回归任务的简单扩展。我们通过在线性和非线性回归任务中对随机初始化的增强状态空间模型进行训练来验证我们的构造。通过优化获得的参数与理论构造中预测的参数相符。总体而言,我们阐明了输入门控和输出门控在递归架构中的作用,作为使能表现出众基础模型表达能力的关键归纳偏置。我们还提供了状态空间模型与线性自注意力关系的新见解,以及它们进行上下文学习的能力。
arXiv:2410.08336v2 宣告类型: replace-cross
摘要: Banzhaf 值提供了一种流行的、可解释的特征重要性量化方法,作为广泛使用的 Shapley 值的替代方案。与 Shapley 值类似,精确计算 Banzhaf 值需要的时间为特征数量的指数级,因此需要使用高效估计器。然而,现有估计器仅限于蒙特卡洛采样方法。在本文中,我们介绍了 Kernel Banzhaf,这是首个用于 Banzhaf 值的回归估计器。我们的方法利用了一种新颖的回归公式,其精确解对应于精确的 Banzhaf 值。受到 Kernel SHAP 在 Shapley 值上取得成功的启发,Kernel Banzhaf 高效地解决了这一回归问题的一个采样实例。通过在八个数据集上的实证评估,我们发现 Kernel Banzhaf 在准确性、采样效率、对噪声的鲁棒性以及特征排名恢复方面显著优于现有的蒙特卡洛方法。最后,我们通过强大的理论保证补充了 Kernel Banzhaf 性能的实验评估。
arXiv:2410.08115v2 宣告类型: replace-cross
摘要: 基于大型语言模型(LLM)的多智能体系统(MAS)在协作问题解决方面展现了显著的潜力,但仍面临关键挑战:低通信效率、差的可扩展性和缺乏有效的参数更新优化方法。我们提出了一种名为Optima的新框架,通过通过LLM训练显著提高LLM基于MAS中的通信效率和任务有效性。Optima采用了一种迭代生成、排名、选择和训练的范式,利用奖励函数平衡任务性能、标记效率和通信可读性。我们探索了包括监督微调、直接偏好优化及其混合方法在内的各种RL算法,提供了它们在有效性和效率之间的权衡方面的见解。我们结合了受蒙特卡洛树搜索启发的技术进行DPO数据生成,将对话轮次视为树节点来探索多样化的交互路径。在信息不对称问答和复杂推理等常见多智能体任务上进行评估,Optima在单智能体基线和基于Llama 3 8B的vanilla MAS上展示了持续且显著的改进,仅在需要大量信息交换的任务中使用不到10%的标记即可获得高达2.8倍的性能提升。此外,Optima的效率提升为更有效地利用推理-计算资源开启了新的可能性,从而改善了解析时间的扩展法则。通过解决基于LLM的MAS中的基础挑战,Optima展示了可扩展、高效和有效的MAS的潜力(https://chenweize1998.github.io/optima-project-page)。
arXiv:2410.07708v2 类别替换
摘要:解释为什么一棵树 \(t\) 在结构上不同于另一棵树 \(t^\star\),这是一个在计算机科学中经常遇到的问题,包括在理解树形结构数据(如XML或JSON数据)时。在本文中,我们探讨了如何从样本数据中学习解释树之间的结构差异的方法:假设我们给定了一个由树对 \(\{(t_1, t_1^\star), \dots, (t_n, t_n^\star)\}\) 组成的集合;是否存在一组简单的规则可以解释所有树对 \((t_i, t_i^\star)\) 之间的结构差异?这一问题提出了两个研究方向:(i)在这种情况下,“规则”的良好定义是什么?;和(ii)如何通过算法学习能够解释数据集的规则集?
我们从数据库理论的角度来探索这些问题,具体包括:(1)引入一种基于模式的规范语言来描述树的转换;(2)探讨上述算法问题变种的计算复杂性,例如显示具有高度限制条件的变种为NP难问题;以及(3)讨论如何使用SAT求解器来解决来自计算机科学教育研究的数据问题。
arXiv:2410.07610v3 宣告类型: 替换-交叉
摘要:像CLIP这样的多模态编码器在零样本图像分类和跨模态检索等任务上表现出色。然而,它们需要大量的训练数据。我们提出了一种典型的相似性分析(CSA),它使用两个单模态编码器在有限的数据下复制多模态编码器。CSA将单模态特征映射到多模态空间,并使用新的相似性得分保留仅有的多模态信息。CSA仅涉及单模态编码器的推理和三次复杂度的矩阵分解,从而消除了大量的基于GPU的模型训练的需要。实验结果显示,与CLIP相比,CSA在给定预训练的单模态编码器的情况下,在ImageNet分类和误导性的新闻标题检测中,只需要少50,000倍的多模态数据对来桥接模态。CSA超越了最先进的方法,用于将单模态特征映射到多模态特征。我们还展示了CSA在图像和文本之外的模态上的能力,为未来有限配对的多模态数据但丰富的未配对单模态数据的模态配对铺平了道路,例如 lidar 和文本。