arXiv:2504.10961v1 Announce Type: 跨域
摘要:随着生成式人工智能(AI)正在改变教育反馈实践,理解不同反馈提供者的学生感知变得至关重要,以便有效地实施这些实践。本研究通过比较本科生对AI生成、人类创建和人类与AI联合生成反馈的信任度,填补了这一关键缺口,从而指导机构在这一新时代如何调整反馈实践。通过一项包含91名参与者的单被试实验,我们调查了预测学生区分不同反馈类型的能力、对反馈质量的看法以及对学生参与AI反馈潜在偏见的看法。研究发现,学生通常更倾向于AI和联合生成的反馈,而非人类反馈,特别是在感知实用性和客观性方面。当反馈来源被揭示时,只有AI反馈在感知真实性方面有所下降,而联合生成的反馈保持了其积极的看法。教育AI经验提高了学生识别AI反馈的能力,并增强了他们对所有反馈类型的信任,而一般的AI经验则降低了感知的实用性和可信度。男性学生一致认为所有反馈类型的价值低于其女性和非二元性别同伴。这些见解为在高等教育反馈系统中整合AI提供了基于证据的指导方针,并解决信任问题和培养学生对AI的认知能力。
arXiv:2504.10948v1 宣言类型: cross
摘要:子图计数是确定查询模式在大数据图中的实例数量的任务,这是许多关键应用的核心,从分析财务网络和交通系统到理解生物相互作用。尽管几十年的工作产生了高效算法(AL)解决方案,并且近年来出现了机器学习(ML)方法,但清晰的比较理解仍然难以捉摸。这种差距源于缺乏统一的评价框架、标准化数据集和可访问的参考答案,所有这些都阻碍了系统的分析和公平的基准测试。为了克服这些障碍,我们引入了BEACON:一种全面的基准测试,旨在严格评估基于AL和基于ML的子图计数方法。BEACON提供了一个标准化数据集,具有验证过的参考答案,一个集成的评估环境,以及一个公开的排行榜,使跨不同方法的可重复和透明比较成为可能。我们广泛的经验表明,尽管AL方法在高效计数非常大的图上的子图方面表现出色,但在处理复杂模式(例如,超过六个节点的模式)时却存在问题。相比之下,ML方法能够处理更大的模式,但需要大量的图数据输入,并且在小型密集图上往往导致不理想的准确性。这些见解不仅突显了每种方法的独特优势和局限性,还为未来的子图计数技术进步铺平了道路。总体而言,BEACON代表了朝着统一和加速子图计数研究迈出的重要一步,鼓励创新解决方案并促进对算法范式和机器学习范式之间权衡的更深层次理解。
arXiv:2504.10936v1 声明类型: cross
摘要: 因果发现通常依赖于应用于观测数据的统计方法,这通常需要大容量的数据集和对潜在因果结构的假设。近年来,大型语言模型(LLMs)的进展为因果发现引入了新的可能性,因为它提供了领域专家的知识。然而,目前尚不清楚LLMs是否能够有效地处理观测数据以进行因果发现。在这项工作中,我们通过将观测数据整合到LLM推理中,探讨了LLMs在数据驱动的因果发现方面的可行性。具体来说,我们研究了两种提示策略(成对提示和广度优先搜索(BFS)提示)是否能使LLMs有效利用观测数据。在两种方法中,我们将观测数据直接纳入提示中,以评估LLMs从这类数据中推断因果关系的能力。基准数据集上的实验表明,整合观测数据可以增强因果发现,使用成对和BFS LLM提示,F1分数提高了最多0.11点,同时比传统的统计因果发现基线提高了最多0.52点。我们的研究突显了LLMs在数据驱动的因果发现中的潜力和局限性,展示了它们能够超越文本元数据,有效解释和利用观测数据进行更有针对性的因果推理的能力。我们的研究为未来全LLM驱动的因果发现的发展奠定了基础。
arXiv:2504.10925v1 交叉发布类型: cross
摘要:图上的链接预测应用范围从推荐系统到药物发现。时间敏感的链接预测(TLP)指的是预测随时间演化的图中的未来链接,并增加了与图的动态性质相关的额外复杂性。最先进的TLP模型在图神经网络中结合了记忆模块来学习传入节点的时间机制和图拓扑的变化。然而,记忆模块仅存储训练时间看到的节点信息,因此在测试时间和部署时无法直接将此类模型应用于全新的图。在本工作中,我们研究了一种新的TLP的迁移学习任务,并开发了适用于记忆负载模型的有效迁移方法。具体来说,基于工作所展示的结构信号对TLP任务的有用性,我们在现有的TLP模型结构中增加了结构映射模块,该模块学习一种从图结构(拓扑)特征到记忆嵌入的映射。我们的工作为TLP铺平了无记忆基础模型的道路。
arXiv:2504.10917v1 类型: cross
摘要: 近年来,在大规模预训练方面的进展表明,可以学习适用于下游任务的一般化表示。然而,在图域中,跨越不同图域捕获和转移结构性信息依然具有挑战性,主要原因在于各种上下文中的拓扑模式固有的差异。此外,大多数现有模型难以捕获复杂的图结构,导致嵌入空间的探索不足。为了解决这些挑战,我们提出了GFSE(通用图结构编码器),一种旨在捕获跨越多种领域(如分子图、社交网络和引文网络)的可转移结构模式的图结构编码器。GFSE是第一个使用多种自监督学习目标进行跨域图结构预训练的编码器。依托于图变换器,GFSE整合了受图归纳偏差启发的注意力机制,使其能够编码复杂的多层次和精细的拓扑特征。经过预训练的GFSE生成了通用且理论表达性的位置和结构编码,可以无缝集成到各种下游图特征编码器中,包括用于向量化特征的图神经网络和用于文本标注图的语言大模型。综合实验表明,GFSE能够显著提高模型的性能,同时需要较少的任务特定微调。值得注意的是,GFSE在81.6%的评估案例中达到了最先进的性能,涵盖了多种图模型和数据集,突显了其作为强大且多功能的图结构数据编码器的潜力。
arXiv:2504.10915v1 Announce Type: cross
摘要:自主人工智能代理的兴起,具备独立感知、推理和行动的能力,标志着数字生态系统运作、治理和演变方式的重大转变。随着这些代理超越中心化基础设施的范围,暴露了身份、问责制和道德对齐方面的基础性差距。三个关键问题随之浮现:身份:这个代理是什么?或者谁才是这个代理?问责制:其行动能否被验证、审计和信任?道德共识:自主系统能否可靠地与人类价值观对齐,防止有害的新兴行为?我们提出了新颖的LOKA协议(知识化代理的分层编排),这是一种统一的系统级架构,用于构建受道德治理、兼容的AI代理生态系统。LOKA引入了去中心化的可验证身份层(UAIL),用于分散、可验证的身份;针对多样代理的意图中心通信协议,实现语义协调;以及分散的道德共识协议(DECP),使代理能够基于共享的道德基线做出情境感知的决策。基于新兴标准,如去中心化标识符(DIDs)、可验证凭证(VCs)和后量子密码学技术,LOKA提供了一种可扩展、对未来具有韧性的多代理AI治理蓝图。通过将身份、信任和道德嵌入协议层本身,LOKA为跨越数字和物理领域的负责任、透明和自主AI生态系统的时代奠定了基础。
arXiv:2504.10903v1 通告类型: cross
摘要: 推理模型在生成扩展的思维链(Chain-of-Thoughts, CoTs)之前通过生成详细的思维过程解决了复杂且逻辑密集的任务方面展现出了显著的进步。然而,这种“慢思考”范式的出现,伴随着大量按顺序生成的标记,不可避免地引入了巨大的计算开销。为此,强调了有效加速的迫切需求。本文综述旨在提供近年来高效推理进展的全面概述。它将现有的工作归类为三个关键方向:(1) 更短的 - 将长思维链压缩为简洁但有效的推理链;(2) 更小的 - 通过知识蒸馏、其他模型压缩技术以及强化学习等方法开发紧凑的语言模型,具备强大的推理能力;(3) 更快的 - 设计高效的解码策略以加速推理。本文综述中讨论的论文集合可以在我们的GitHub仓库中查阅。
arXiv:2504.10900v1 宣布类型: cross
摘要:大规模预训练在多样化的大型数据集上取得了显著的成果,使基础模型在各种机器学习领域中取得了 remarkable 的成功。然而,在如此大规模和多样化的数据集上进行预训练引入了重大挑战,特别是在时间序列数据中,由于数据分布的巨大不匹配所产生的问题尤为突出。在本文中,我们通过在Transformer架构内提出一种领域感知自适应归一化策略来解决这个问题。具体而言,我们用一种基于原型引导的动态归一化机制(ProtoNorm)取代传统层归一化(LayerNorm),其中学习到的原型封装了不同的数据分布,样本与原型的相关性决定了合适的归一化层。这种机制有效地捕捉了时间序列特征的异质性,使预训练表示能够与下游任务对齐。通过全面的经验评估,我们证明了我们的方法在分类和预测任务中显著优于传统的预训练技术,同时有效地缓解了预训练过程中数据分布偏移的负面影响。将ProtoNorm集成仅需替换一行代码即可。在多种实际时间序列基准上的广泛实验验证了我们方法的稳健性和通用性,促进了更通用的时间序列基础模型的发展。
arXiv:2504.10898v1 类型: cross
摘要: 查询逆向工程(QRE)旨在综合生成一个SQL查询,以连接给定的数据库和结果实例。QRE的一个近期变种是提供一个附加输入,即包含真实查询的不透明可执行文件,目标是仅通过输入输出示例非侵入性地提取该特定查询。这种变种称为隐藏查询提取(HQE),其工业用途包括查询恢复、数据库安全和供应商迁移。用于HQE的基于数据库变异和生成技术的逆向工程(RE)工具只能提取基于键的等值连接和平面查询以及结合算术过滤谓词,这在查询结构和查询操作符方面使其受限。在本文中,我们提出了Xpose,这是一种HQE解决方案,将提取范围扩展到现实中的复杂查询,例如TPCH基准测试中找到的查询。采用两管齐下的方法:(1)现有RE范围大幅扩展,以包含联合连接、代数过滤谓词以及值和谓词的析取;(2)利用大语言模型的预测能力,将不透明应用程序的业务描述转换为提取指导,即所谓的正向工程(FE)。FE模块识别常见的结构,如子查询的嵌套、外连接和标量函数。本质上,FE确定了广泛的查询轮廓,而RE则填充了细微的细节。我们已经将Xpose在(a)E-TPCH上进行了评估,这是一个查询套件,包含了TPCH基准测试的完整版本,并扩展了包含联合、多种连接类型和子查询的查询;以及(b)实际的STACK基准测试。实验结果表明,其双向工程方法准确地提取了这些复杂查询,相对于HQE的涵盖范围,这代表着一个重要的进步。
arXiv:2504.10888v1 类别: cross
摘要: 敌对补丁广泛用于评估物体检测系统在现实场景中的鲁棒性。这些补丁最初设计用于欺骗单模态检测器(例如可见光或红外),最近已被扩展以针对可见光-红外双模态检测器。然而,现有的双模态对抗补丁攻击在多种物理场景中的攻击效果有限。为解决这一问题,我们提出了CDUPatch,这是一种针对可见光-红外物体检测器的跨模态补丁攻击,适用于不同尺度、视角和场景。具体来说,我们观察到颜色变化导致不同的热吸收程度,从而在红外成像中产生温度差异。利用这一特性,我们提出了一种RGB到红外的适配器(RGB-to-infrared adapter),可以将RGB补丁映射到红外补丁,实现跨模态补丁的统一优化。通过学习敌对补丁的最佳颜色分布,可以使补丁的热响应发生变化,并生成对抗性的红外纹理。此外,我们引入了多尺度裁剪策略,并构建了一个新的可见光-红外数据集MSDrone,该数据集包含不同尺度和视角的空中车辆图像。这些数据增强策略在真实环境条件下增强了我们补丁的鲁棒性。在四个基准数据集(例如DroneVehicle、LLVIP、VisDrone、MSDrone)上的实验表明,我们的方法在数字领域优于现有补丁攻击。广泛的物理测试进一步证实了该补丁在不同尺度、视角和场景之间的强大迁移能力。