arXiv 论文列表

作者: Erik B. Terres-Escudero, Javier Del Ser, Aitor Mart\'inez-Seras, Pablo Garcia-Bringas

arXiv:2407.14097v2 更新类型: 替换-交叉摘要：近年来，人工智能（AI）模型在各个领域取得了显著的成功，但在两个关键领域仍存在挑战：确保对不确定输入的鲁棒性和在训练和推断过程中大幅提高模型效率。受生物系统启发的脉冲神经网络（SNNs）为克服这些局限性提供了一条有希望的途径。通过基于事件驱动的方式工作，SNNs实现了低能耗，并且能够自然地实现生物系统中已知的高抗噪方法。在本文中，我们探索了脉冲前向-前向算法（FFA）的潜力，利用其表示特性来解决这两个挑战，以实现对区间外（Out-of-Distribution，OoD）检测和可解释性的支持。为了实现这一点，我们利用FF网络中稀疏且高度专门化的神经潜在空间来估计样本属于训练分布的可能性。此外，我们提出了一种新颖的无梯度归因方法，用于检测将样本驱离类别分布的特征，解决了大多数视觉归因方法中存在的梯度缺失问题。我们将在著名的图像数据集（例如Omniglot、Not-MNIST、CIFAR10）上评估我们的OoD检测算法，其性能超越了最近文献中提出的适用于脉冲网络的OoD检测方法。此外，我们的归因方法精确地识别了显著的OoD特征，如伪影或缺失区域，从而为用户提供了一个视觉解释界面，以了解为什么未知输入被该方法识别为此类输入的原因。

发布时间: 2/20/2025

查看原文

连续学习中混合专家理论

作者: Hongbo Li, Sen Lin, Lingjie Duan, Yingbin Liang, Ness B. Shroff

arXiv:2406.16437v3 公告类型: 替换-交叉摘要：持续学习（CL）因其能够适应时间上到来的新任务而引起了广泛关注。由于模型会适应新任务，灾难性遗忘（遗忘旧任务）已成为CL中的主要问题之一。最近的研究显示，通过使用门控网络将任务在多个专家之间进行稀疏化和分布化，混合专家模型（MoE）能够有效缓解灾难性遗忘。然而，MoE及其对CL学习性能的影响缺乏理论分析。本文提供了通过过参数线性回归任务的观点来刻画MoE在CL中的影响的首个理论结果。我们通过证明MoE模型可以使其专家多样化地专长于不同的任务，同时其路由器学习选择适合每个任务的正确专家并平衡所有专家的工作负荷，来说明MoE相较于单一专家的优势。进一步的研究还表明，MoE在CL中需要在充分训练轮次后终止门控网络的更新，以实现系统收敛，这与现有研究中的MoE不同，这些研究未考虑持续任务的到来。此外，我们为MoE在CL中的学习性能中的遗忘效应和整体泛化误差提供了显式的表达式，以刻画MoE的效果。有趣的是，增加更多的专家可能需要更多的收敛轮次，这可能不会提升学习性能。最后，我们在合成数据集和真实数据集上进行了实验，将这些洞见从线性模型扩展到深度神经网络（DNN），并为MoE在CL中的实际算法设计提供了见解。

发布时间: 2/20/2025

查看原文

从心理测量学视角评估大型语言模型中的隐含偏见

作者: Yuchen Wen, Keping Bi, Wei Chen, Jiafeng Guo, Xueqi Cheng

arXiv:2406.14023v2 通告类型: 替换交叉摘要：随着大型语言模型（LLMs）成为信息访问的重要途径，人们越来越担心LLMs可能会加剧不道德内容的传播，包括对某些群体造成伤害的隐性偏见，即使没有明确的有害词汇。在本文中，我们通过从心理测量学视角攻击LLMs来严格评估其对某些人口统计学的隐性偏见，从而引出对偏见观点的认同。受到认知心理学和社会心理学心理测量原则的启发，我们提出了三种攻击方法，即伪装、欺骗和教学。结合相应的攻击指令，我们构建了两个基准：（1）一个多语言数据集，包含涵盖四种偏见类型（2700个实例）的带有偏见声明的数据集，用于广泛的比较分析；（2）BUMBLE，一个更大的基准，覆盖九种常见的偏见类型（12700个实例），用于全面评估。对流行的商业和开源LLMs进行广泛测试表明，我们的方法比竞争对手的基础方法更能有效引出LLMs的内在偏见。我们的攻击方法和基准为评估LLMs的伦理风险提供了有效手段，推动了其开发中更大责任的进步。

发布时间: 2/20/2025

查看原文

CoSQA+: 以测试驱动代理引领多选代码搜索基准

作者: Jing Gong, Yanghui Wu, Linxi Liang, Jiachi Chen, Mingwei Liu, Yanlin Wang, Zibin Zheng

arXiv:2406.11589v3 宣告类型: 替换-交叉摘要：语义代码搜索，即检索与给定自然语言查询匹配的代码，是提高软件工程生产力的重要任务。现有的代码搜索数据集面临限制：它们依赖于通过语义理解而非功能验证来进行代码评估的人工标注员，这可能导致潜在的不准确性和可扩展性问题。此外，当前的评估指标往往忽略了代码搜索的多选性质。本文介绍了CoSQA+，将高质量的CoSQA查询与多个合适的代码进行配对。我们开发了一个自动化的流水线，其中包括基于多个模型的候选选择以及新的基于测试的代理标注系统。在单一大型语言模型（LLM）标注员和Python专家标注员（无需基于测试的验证）之间，代理利用基于测试的验证，达到了最高的准确率96.4%。通过广泛的实验，CoSQA+已经展示了相对于CoSQA的更高质量。在CoSQA+上训练的模型表现出了改进的表现。我们在https://github.com/DeepSoftwareAnalytics/CoSQA_Plus提供了代码和数据。

发布时间: 2/20/2025

查看原文

LLM生成的代码有多高效？一个严格且高标准的基准

作者: Ruizhong Qiu, Weiliang Will Zeng, James Ezick, Christopher Lott, Hanghang Tong

arXiv:2406.06647v4 宣告类型: replace-cross 摘要: 大型语言模型(LLMs)的出现显著推动了程序合成的前沿。基于LLM的程序合成的进步要求对LLM生成的代码进行全面评估。现有的评估框架主要关注生成代码的功能正确性；作为代码质量的重要指标之一的效率，在现有评估中往往被忽视。在这项工作中，我们开发了ENAMEL（EfficeNcy AutoMatic EvaLuator），这是一种严格的高标准基准，用于评估LLM在生成高效代码方面的能力。首先，我们提出了一种新的效率度量标准eff@k，它将pass@k度量标准从正确性推广到效率，并适当地处理了右截尾的执行时间。此外，通过拉奥-布莱克韦尔化，我们得到了eff@k的无偏且方差减少估计值；我们也提供了新估计值的数值稳定实现。其次，为了设定高效评估的标准，我们雇用了一名人类专家来设计最佳算法和实现作为我们效率的参考解决方案，其中许多解决方案比现有的HumanEval和HumanEval+的标准解决方案更加高效。此外，为了确保严格的评估，我们雇用了一名人类专家来编纂强大的测试用例生成器，以筛选出错误的代码并区分次优算法。使用我们的基准ENAMEL对30个流行LLM进行广泛研究显示，LLM仍然无法生成专家级高效的代码。通过我们问题集的两个子集，我们证明了这种缺陷是因为当前的LLM在设计高级算法方面存在困难，并且几乎没有意识到实现优化。我们的基准可在 https://github.com/q-rz/enamel 获取。

发布时间: 2/20/2025

查看原文

价值激励偏奱отimization：线上线下RLHF的统一方法

作者: Shicong Cen, Jincheng Mei, Katayoon Goshvadi, Hanjun Dai, Tong Yang, Sherry Yang, Dale Schuurmans, Yuejie Chi, Bo Dai

arXiv:2405.19320v4 公告类型: 替换-交叉摘要：人类反馈强化学习（RLHF）在使大型语言模型（LLMs）与人类偏好保持一致方面展现出了巨大的潜力。根据可用的偏好数据，线上和离线RLHF都是活跃的研究领域。一个主要瓶颈是如何在从偏好数据中学习奖励函数时理解如何集成不确定性估计，无论偏好数据是如何收集的。虽然在标准强化学习（RL）中，乐观或悲观的基本原则已经确立，但适用于大型语言模型的、可实践实施且理论依据充分的形式尚未出现，因为在任意策略参数化下，标准建立置信区间的技术变得难以处理。在本文中，我们介绍了一种统一的线上和离线RLHF方法——价值激励偏好优化（VPO），它用相应的价值函数正则化最大似然估计的奖励函数，并通过一个“符号”来调节是选择乐观还是悲观。VPO 直接对策略进行优化，采用隐式的奖励建模，并因此共享与直接偏好优化类似的简单RLHF管道。VPO 在线上和离线设置中的理论保证与标准RL的对应者相匹配。此外，在文本摘要和对话实验中验证了VPO的实用性和有效性。

发布时间: 2/20/2025

查看原文

因果概念图模型：超越深度学习中的因果不透明性

作者: Gabriele Dominici, Pietro Barbiero, Mateo Espinosa Zarlenga, Alberto Termine, Martin Gjoreski, Giuseppe Marra, Marc Langheinrich

arXiv:2405.16507v5 公告类型: replace-cross 摘要: 因果不透明性是指理解深度神经网络（DNN）模型决策背后的“隐藏”因果结构的难度。这导致在高风险场景中无法依赖和验证基于DNN的系统。因此，在深度学习、可解释性和因果性交汇点，规避DNN的因果不透明性代表了一个关键的开放挑战。本项工作通过引入因果概念图模型（Causal CGMs），一类设计上因果透明的可解释模型来填补这一空白。我们的实验表明，Causal CGMs能够：（i）与因果不透明模型的一般化性能相匹配，（ii）使人类介入纠正错误的中间推理步骤成为可能，不仅在纠正后提高下游准确性，还提高特定实例解释的可靠性，以及（iii）支持干预和反事实场景的分析，从而提高模型的因果可解释性，并支持其可靠性和公平性的有效验证。

发布时间: 2/20/2025

查看原文

将你的思绪动画化：从缓慢的大脑活动解耦重建动态自然视觉

作者: Yizhuo Lu, Changde Du, Chong Wang, Xuanliu Zhu, Liuyun Jiang, Xujin Li, Huiguang He

arXiv:2405.03280v2 通知类型: 交叉替换摘要: 从大脑活动重建人类动态视觉是一项具有重大科学意义的挑战性任务。尽管先前的视频重建方法已取得显著进展，但它们仍然存在一些局限性，包括：(1) 同时协调语义（例如分类描述）、结构（例如大小和颜色）和一致运动信息（例如帧的顺序）的困难；(2) 磁共振成像(fMRI)的时间分辨率较低，这为从单个fMRI帧解码视频动力学的多帧带来了挑战；(3) 依赖于视频生成模型，这引入了关于在重建视频中观察到的动力学是否真正源自fMRI数据，还是生成模型产生的幻觉的不确定性。为克服这些局限，我们提出了一种名为Mind-Animator的两阶段模型。在fMRI到特征阶段，我们从fMRI中解耦语义、结构和运动特征。具体而言，我们使用fMRI-视觉-语言三模态对比学习来从fMRI中解码语义特征，并设计稀疏因 alan 关注机制以通过下一帧预测任务解码多帧视频运动特征。在特征到视频阶段，通过使用放大的稳定扩散模型将这些特征集成到视频中，有效消除了外部视频数据的干扰。在多个视频-fMRI数据集上的广泛实验表明，我们的模型达到了最先进的性能。全面的可视化分析进一步从神经生物学角度阐明了我们模型的可解释性。项目页面: https://mind-animator-design.github.io/.

发布时间: 2/20/2025

查看原文

洞察专家混合模型（MoTE）：思考链与专家混合的协同自对齐效应

作者: Zhili Liu, Yunhao Gou, Kai Chen, Lanqing Hong, Jiahui Gao, Fei Mi, Yu Zhang, Zhenguo Li, Xin Jiang, Qun Liu, James T. Kwok

arXiv:2405.00557v4 宣告类型: replace-cross 摘要：随着大规模语言模型（LLMs）的能力不断扩展，使这些模型与人类价值观保持一致仍然是一个巨大的挑战。最近的研究表明，推理能力对模型的安全性有重大贡献，而集成混合专家（MoE）架构可以进一步增强一致性的效果。在此项工作中，我们提出了一种Mixture of insighTful Experts（MoTE）的新颖框架，该框架以协同方式结合了推理链和专家混合，以提高自我一致性的效果。从数据角度来看，MoTE采用了一个结构化的推理链，其中包括四个关键阶段：问题分析、答案引导、安全答案和安全性检查。这种方法通过多步推理增强安全性，并且即使对于较小和不太强大的LLM模型（例如，7B模型）也证明是有效的。从架构角度来看，MoTE采用了一个多LoRA框架，其中每个专家负责特定的推理步骤。此设计消除了平衡损失的需要，确保了稳定的训练，并支持自适应的推理长度。实验结果表明，MoTE显著提高了模型的安全性、逃逸攻击抵御能力和过度拒绝能力，其性能与OpenAI的最先进的o1模型相当。

发布时间: 2/20/2025

查看原文

从局部到全局：一种图RAG方法的查询聚焦总结

作者: Darren Edge, Ha Trinh, Newman Cheng, Joshua Bradley, Alex Chao, Apurva Mody, Steven Truitt, Dasha Metropolitansky, Robert Osazuwa Ness, Jonathan Larson

arXiv:2404.16130v2 宣布类型: 替换-交叉摘要：通过检索增强生成（RAG）从外部知识源检索相关信息的能力使大型语言模型（LLMs）能够回答私人和/或先前未见过的文本文档集合的问题。然而，RAG 在针对整个文本语料库的全局问题上失败，例如“数据集中有哪些主要主题？”，因为这本质上是一个查询聚焦总结（QFS）任务，而不是明确的检索任务。与此同时，先前的QFS方法无法扩展到典型RAG系统索引的文本数量。为了结合这两种方法的优势，我们提出了GraphRAG，这是一种针对私人文本文档的基于图的方法，该方法可以同时根据用户问题的普遍性和源文本的数量进行扩展。我们的方法使用一个LLM在两个阶段构建图索引：首先从源文档中推断实体知识图，然后为所有紧密相关实体的组生成先验社区摘要。给定一个问题，每个社区摘要用于生成部分响应，然后所有部分响应再次被总结为最终的用户响应。对于一类针对包含100万词类别的数据集的全局意义问题，我们展示了GraphRAG在生成的答案的全面性和多样性方面显著优于传统RAG基线。

发布时间: 2/20/2025

查看原文