arXiv:2504.20079v1 Announce Type: cross
摘要:在可微架构搜索(DARTS)的搜索空间中施加了强有力的先验知识,使得相同类型的单元具有相同的拓扑结构,并且每个中间节点保留来自不同节点的两种操作。这些先验知识虽然减少了优化难度并提高了搜索到的架构的应用性,但也阻碍了自动化机器学习(Auto-ML)的后续发展,并阻止优化算法通过增强的架构灵活性来探索更强大的神经网络。本文旨在通过消除单元拓扑结构的限制和修改超级网络的离散化机制来减少这些先验约束。具体而言,提出了一种利用基于熵的超级网络收缩(ESS)框架的灵活DARTS(FX-DARTS)方法,以应对消除先验约束所带来的挑战。值得注意的是,FX-DARTS在无严格先验规则的情况下能够导出神经网络架构,同时在扩展的搜索空间中保持稳定性。在图像分类基准上的实验结果表明,FX-DARTS能够在单一搜索过程中探索到一系列具有竞争力的性能与计算复杂度之间的权衡的神经网络架构。
arXiv:2504.20077v1 通报类型: cross
摘要:敌对噪声会在图像中引入微小的扰动,误导深度学习模型进行错误分类,显著影响识别准确性。本研究分析了快速梯度符号方法(FGSM)敌对噪声对图像分类的影响,并探讨了特定图像特征训练是否能提高模型的鲁棒性。我们的假设是,尽管敌对噪声会扰动图像的各个区域,但边缘可能相对稳定,并提供必要的结构信息以进行分类。为了检验这一点,我们在脑肿瘤和COVID数据集上进行了系列实验。最初,我们在干净的图像上训练模型,然后引入微妙的敌对扰动,导致深度学习模型在图像分类上严重错误分类。重新在干净和噪声图像的组合上训练,使得模型性能有所提高。为了评估基于边缘特征的鲁棒性,我们从原始/干净图像中提取边缘,并将模型仅训练在基于边缘的表示上。当向图像中引入噪声时,基于边缘的模型在面对敌对攻击时比仅在原始或干净图像上训练的模型更具韧性。这些结果表明,尽管敌对噪声比边缘区域更有效地利用复杂的非边缘区域,但在重新训练后的准确性改进在原始数据中略高于边缘区域。因此,利用基于边缘的学习可以提高深度学习模型对抗敌对扰动的鲁棒性。
arXiv:2504.20074v1 类型: cross
摘要:深度神经网络加速器中日益采用近似计算(AxDNNs)有望显著提高能效。然而,AxDNNs 中的永久性故障会严重降低它们的性能,相比其准确的对应物(AccDNNs),性能会大幅下降。传统的方法虽然对于 AccDNNs 是有效的,但在 AccDNNs 上引入了大量开销和延迟,使得它们不适合受能效约束的实时部署。为了解决这一问题,我们提出了一种名为 EPSILON 的轻量级框架,该框架利用预计算的统计签名和层间重要性度量,以高效的方式在 AxDNNs 中检测和缓解故障。我们的框架引入了一种新颖的非参数模式匹配算法,能够在不中断正常执行的同时进行常数时间故障检测,并且能够根据不同网络架构和故障模式动态适应。EPSILON 通过基于权重分布和层关键性的统计分析来智能调整缓解策略,同时保持近似计算的能效好处,从而保持模型的准确性。在不同近似乘法器、AxDNN 架构、流行数据集(MNIST、CIFAR-10、CIFAR-100、ImageNet-1k)以及故障场景下的广泛评估表明,EPSILON 在保持 80.05% 的准确性的同时,提供 22% 的推理时间改进和 28% 的能效改进,确立了 EPSILON 作为一种在安全关键边缘应用中部署可靠 AxDNN 的实用解决方案。
arXiv:2504.20073v1 公告类型: cross
摘要: 将大规模语言模型(LLMs)训练为交互代理带来了独特的挑战,包括长期决策制定以及与随机环境反馈的交互。虽然强化学习(RL)在静态任务中取得了进展,但多轮代理RL训练仍处于探索阶段。我们提出了一种面向轨迹级别的代理RL通用框架StarPO(State-Thinking-Actions-Reward Policy Optimization),并介绍了一种模块化系统RAGEN,用于训练和评估LLM代理。我们的研究在三个简化环境中揭示了三个核心发现。首先,我们的代理RL培训显示出回声陷阱的现象,其中奖励方差悬崖和梯度尖峰;我们通过引入StarPO-S,一种包含轨迹过滤、批评家整合和解耦裁剪的稳定变体来解决这一问题。其次,我们发现,强化学习轨迹的塑形将受益于多样化的初始状态、中等交互粒度和更频繁的采样。第三,我们展示了,在缺乏细粒度、基于推理的奖励信号的情况下,通过多轮RL几乎不会出现代理推理,它们可能会展示出浅显的战略或错觉。代码和环境可在 https://github.com/RAGEN-AI/RAGEN 获取。
arXiv:2504.20069v1 Announce Type: cross
摘要:脑电图(EEG)信号在理解脑活动和诊断神经疾病中发挥着 crucial 作用。本文综述了近期脑电图基础模型(EEG-FMs)的发展,这些模型在处理和分析EEG数据方面显示出了巨大的潜力。我们讨论了各种EEG-FMs,包括它们的架构、预训练策略、预训练和下游数据集以及其他细节。综述还强调了该领域面临的挑战和未来方向,旨在为有兴趣于EEG分析及相关EEG-FMs的研究人员和实践者提供全面的概述。
arXiv:2504.20059v1 宣布类型: cross
摘要:临床试验对于评估新疗法至关重要;然而,面临的招募挑战,如有限的意识、复杂的入选标准以及转诊障碍,阻碍了试验的成功。随着在线平台的增长,患者越来越多地转向社交媒体和健康社区寻求支持、研究和倡导,从而扩大了招募池并建立了新的登记途径。认识到这一点,我们利用了TrialGPT框架,该框架以大型语言模型(LLM)为基础,将50个在线患者案例(来自已发表的病例报告和一个社交媒体网站)与临床试验匹配,并评估其性能,与传统的关键词搜索方法相比。结果显示,TrialGPT在识别符合条件的试验方面比传统方法高出46%,平均每名患者符合条件的临床试验约为7项。此外,我们向病例作者和试验组织者关于这些患者-试验匹配的努力收获了非常积极的反馈,我们从两个角度展示了这些反馈。
arXiv:2504.20055v1 交叉类型:交叉
摘要:教育中日益使用的复杂机器学习模型引发了对其可解释性的担忧,这反过来又激发了开发既忠实于模型内部机制又易于人类最终用户理解的可解释性技术的兴趣。在本文中,我们描述了一种通过设计即可解释的基于神经网络的行为检测模型的新方法。我们的模型是完全可解释的,这意味着我们用于解释的提取参数具有明确的解释,完全捕捉了模型对感兴趣的学习者行为所学到的知识,并可用于创建既忠实又可理解的解释。我们通过实施一系列对模型的约束来实现这一目标,这些约束既简化了其推理过程,又使其更接近人类对任务的理解。我们训练该模型以检测体系作弊行为,对其在该任务上的性能进行了评估,并将其学到的模式与人类专家识别的模式进行了比较。研究表明,该模型成功地学习了表明体系作弊行为的模式,同时提供了完全可解释的解释的证据。我们讨论了我们方法的含义,并提出了使用基于人类的方法评估可解释性的建议。
arXiv:2504.20047v1 Announce Type: 横向
摘要:嵌入在PDF文件、网页和其他文档格式中的表格数据在政府、工程、科学和商业等众多领域中普遍存在。这些以人为中心的表格(HCTs)具有高商业价值的独特组合,复杂的布局,大规模操作时有限的处理能力,并且有时是获得关键洞察的唯一数据来源。然而,它们的复杂性给传统的数据提取、处理和查询方法带来了重大挑战。尽管当前的解决方案专注于将这些表格转换为关系格式以供SQL查询,但它们在处理HCTs的多样性和复杂性布局方面能力有限,因此不便于查询。本文描述了HCT-QA,这是一个涵盖了数千个表格、自然语言查询和相关答案的广泛基准数据集。我们的数据集包括2,188个真实的HCTs,有9,835个问答对,以及4,679个合成表格,有67,500个问答对。虽然HCTs可以被不同类型的数据查询引擎处理,但在本文中,我们主要关注大型语言模型作为潜在的数据查询引擎,并评估它们处理和查询这些表格的能力。
arXiv:2504.20983v1 宣告类型: 新
摘要: 我们研究了一种LTLf合成的变体,该变体为在非确定性规划领域实现一个由多个日益具有挑战性的LTLf目标组成的多层次目标合成适应性策略。适应性策略是在其执行的任何点上(i)尽可能满足多层次目标中的多个目标,并且(ii)利用环境可能的合作来满足剩余目标中的尽可能多的目标。这种动态发生:如果环境合作(ii)且一个目标变得可强制执行(i),那么我们的策略将强制执行它。我们提供了一种博弈论技术来计算适应性策略,并且该技术是安全且完备的。值得注意的是,该技术在目标的数量上是多项式的,实际上是平方级的。换句话说,与标准的LTLf合成相比,它处理多层次目标时仅需要较小的额外开销。
arXiv:2504.20980v1 通告类型: 新
摘要:人们对人工智能的信任受到破坏,因为目前没有一门科学能够预测或向公众解释,在特定情况下(例如LLM的输出,例如ChatGPT)何时可能会突然变得错误、误导、无关或危险。由于已经有人将死亡和创伤归咎于LLM,这种不确定性甚至促使人们更加礼貌地对待他们的“宠物”LLM,以“劝阻”它(或其未来的通用人工智能后代)突然对其不利。在这里,我们通过从基本原理出发,推导出一个精确公式,来解决LLM最基本层次上的“妖艳双面人”临界点何时出现的问题。该公式仅需初中数学水平,表明问题是由于AI的关注力分散到极致突然断裂所致。这个精确公式提供了通过改变提示和AI训练来推迟或防止临界点的方法的定量预测。特定泛化将为决策者和公众提供一个坚实的基础,以讨论AI更广泛的应用和风险,例如作为个人咨询师、医疗顾问或冲突情况下使用武力的决策者。它还满足了诸如“我是否应该对我的LLM礼貌?”这类问题清晰透明的解答需求。