arXiv:2407.15532v2 宣告类型: replace-cross
摘要:除了评估单个资产的表现,金融市场中的投资者还需要考虑一组公司在组合中的集体表现。尽管传统的基于马科维茨的均值-方差组合广泛应用,基于网络的优化技术提供了捕捉资产价值之间复杂依赖关系的更灵活工具。然而,大多数现有的研究并未包含潜在违约的公司,并且会移除那些因时间因素从指数中剔除的公司。这是第一个在大规模组合优化中同时包含此类公司的研究。我们提出并实证测试了一种新颖的方法,利用图注意网络(GATs),这是图神经网络(GNNs)的一个子类。作为基于深度学习的模型,GNNs 可以利用网络数据发现非线性关系。它们处理高维数据的能力以及能够为特定目的定制层的特点,使它们适用于中、小盘组合优化这样大规模的问题。本研究利用过去30年中盘公司的数据,使用距离相关性和三角化最大化滤波图方法构建公司的图。将这些图作为包含权重和分配约束条件以及源自夏普比率的损失函数的GAT模型的输入,从而专注于最大化组合的风险调整回报。这种新模型与基于网络特征的组合、基于均值-方差的组合以及等权重组合进行了比较。结果表明,基于GAT模型产生的组合优于所有基准,并且在长期表现上始终优于其他策略,同时也能够反映市场动态。
arXiv:2407.08442v2 补充类型: 替换交叉
摘要: 我们对深度学习在电子健康记录(EHR)时间序列填充中的应用进行了全面分析,探讨了架构和框架偏见如何结合影响模型性能。我们的研究揭示了深度填充器在捕捉EHR中的复杂时空依赖性方面的不同能力,并且模型的有效性取决于其结合偏见与医疗时间序列特征的对齐程度。我们的实验评估挑战了关于模型复杂性的常见假设,表明更大的模型并不一定能够提高性能。相反,精心设计的架构可以更好地捕捉临床数据中固有的复杂模式。该研究强调了优先考虑临床相关数据重构而非统计准确性的填充方法的需求。我们的实验表明,基于预处理和实现选择的不同,填充性能存在高达20%的差异,突出了标准化基准测试方法的必要性。最后,我们确定了当前深度填充方法与医疗保健需求之间的关键差距,强调了整合临床洞察以实现更可靠填充方法的重要性。
arXiv:2406.13292v3 宣布类型: replace-cross
摘要:**目标:**阿尔茨海默病(AD)是全球范围内最常见的痴呆症形式,包含一个被称为轻度认知障碍(MCI)的前驱阶段,在这一阶段,患者可能会进展为AD或保持稳定。本研究的目标是通过利用多模态MRI数据和单核苷酸多态性数据捕捉大脑结构和功能的结构性和功能性变化,尤其是在缺失视图的情况下。这两个目标分别是区分AD患者与健康对照组以及识别MCI转换者,从而实现分类和检测任务。% 在两个不同的任务中,同时也处理缺失数据。
**方法:** 我们提出了一种基于多模态深度学习的分类框架,在潜在空间中引入了生成模块(采用循环生成对抗网络)以填补缺失数据(多模态方法中的常见问题)。然后使用可解释的人工智能方法提取输入特征的相关性,以进行事后验证并增强学习表示的可解释性。**主要结果:** 在AD检测和MCI转换两个任务上的实验结果表明,我们的框架在现有技术中表现出色,分别达到了$0.926\pm0.02$和$0.711\pm0.01$的准确率。可解释性分析揭示了与AD相关的皮层和亚皮层大脑区域的灰质变化。此外,还识别出沿着疾病谱系的感官-运动和视觉静息状态网络的损害,以及与内吞作用、β淀粉样蛋白和胆固醇相关的生物过程中的基因突变。**意义:** 我们整合且可解释的深度学习方法在AD检测和MCI预测方面表现出有希望的性能,同时提供了重要的生物见解。
arXiv:2406.09321v2 宣告类型: replace-cross
摘要: 拘禁攻击促使大型语言模型(LLMs)生成有害响应,带来了严重的误用威胁。尽管有关拘禁攻击和防御的研究正在兴起,但在评估拘禁攻击方面仍没有一致意见,即评估LLM响应有害性的方法多种多样。每种方法都有其各自的优点和缺点,影响其与人类价值观的契合程度,以及所需的时间和财务成本。这种多样性给研究人员在选择合适的评估方法和比较不同的攻击与防御策略带来了挑战。在本文中,我们对拘禁攻击评估方法进行了全面分析,依托于2023年5月到2024年4月期间近90篇拘禁攻击研究论文。我们的研究引入了一套系统化的拘禁攻击评估分类体系,深入探讨了各种评估方法的优点和缺点,以及它们当前的适应情况。为了进一步促进研究,我们提出了JailbreakEval工具包,该工具包包含多种评估方法,使用户能够通过单个命令或自定义评估工作流程获得结果。总之,我们认为JailbreakEval是简化拘禁攻击研究中评估过程的催化剂,并促进了社区内拘禁攻击评估的包容性标准。
arXiv:2406.02596v2 宣告类型: replace-cross
摘要:本研究探讨了神经网络的一般化能力退化问题,重访了Ash & Adams的预热实验。我们的实验分析表明,旨在通过保持可训练性来增强可塑性的常用方法对一般化提供的益处有限。虽然重新初始化网络可能是有效的,但也存在失去有价值的先验知识的风险。为此,我们介绍了Hare & Tortoise,灵感来源于大脑的互补学习系统。Hare & Tortoise由两个组件组成:Hare网络,快速地类似海马体那样适应新信息;以及Tortoise网络,逐渐整合知识,类似于新皮层。通过定期将Hare网络重新初始化到Tortoise的权重,我们的方法保持了可塑性,同时保留了一般知识。Hare & Tortoise能够有效地保持网络的一般化能力,这在Atari-100k基准测试中改善了高级强化学习算法的表现。代码可以在https://github.com/dojeon-ai/hare-tortoise获得。
arXiv:2406.01793v2 逆强化学习类型:replace-cross
摘要:逆强化学习(IRL)旨在从专家示例中推断奖励,其动机是奖励而不是策略是任务最简洁和可转移的描述[Ng等人,2000]。然而,对应于最优策略的奖励不是唯一的,这使得不清楚利用IRL学习到的奖励在新的转移法则下是否可转移,其最优策略是否与专家真实奖励对应的最优策略对齐。过去的研究所解决的这一问题是在能够完全访问专家策略的情况下,当从具有相同奖励但满足特定秩条件的两个专家处学习时,保证了转移性[Rolland等人,2022]。在这项工作中,我们证明了在能够完全访问专家策略的情况下开发的条件并不能保证在只能访问专家示例的更实际场景中可转移性。我们不再使用二元秩条件,而是提出主角度作为更精确的转移法则之间相似性和差异性的度量。基于此,我们建立了两个关键结果:1)在从至少两个具有足够不同转移法则的专家处学习时,转向任何转移法则的一个充分条件,以及2)在从单个专家处学习时,转向转移法则局部变化的一个充分条件。此外,我们还提供了可能正确(PAC)算法,并对从多位专家的示例中学习可转移奖励进行了端到端分析。
arXiv:2405.20446v3 宣告类型: replace-cross
摘要:检索增强生成(RAG)系统在自然语言处理领域展现出了巨大的潜力。然而,这些系统依赖于存储在检索数据库中的数据,而这些数据可能包含专有或敏感信息,这引入了新的隐私问题。具体而言,攻击者可能通过观察RAG系统的输出推断出某个特定文本片段是否出现在检索数据库中,这种攻击被称为成员归类推理攻击(MIA)。尽管这一威胁的重要性不言而喻,但针对RAG系统的MIA研究仍然相对较少。本研究通过引入一种高效且易于使用的MIA方法来填补这一空白。我们使用两个基准数据集和多种生成模型展示了攻击的有效性,证明在黑盒和灰盒环境中,通过创建适当的提示,可以高效地确定文档是否在检索数据库中。此外,我们提出了基于向RAG模版添加指令的初步防御策略,该策略对某些数据集和模型显示出较高的有效性。我们的研究结果强调了在部署的RAG系统中实施安全对策以及开发更先进防御措施以保护检索数据库的隐私和安全的重要性。
arXiv:2404.17871v3 宣布类型: replace-cross
摘要:近年来,基于深度学习(DL)技术的软件系统在许多方面显著地改善了人们的生活。作为这些DL系统的基石,各种DL库负责进行底层的优化和计算。然而,就像传统软件一样,DL库也不免存在漏洞,这些漏洞可能会对用户的个人财产和安全构成严重威胁。研究DL库的特性和相关漏洞,以及相应的测试方法,对于增强DL系统的安全性和推动DL技术的广泛应用至关重要。本文提供了与各种DL库相关的测试研究概览,讨论现有方法的优点和缺点,并为DL库的应用提供指导和参考。本文首先介绍了DL底层库的工作流程,并介绍了三种类型的DL库——DL框架、DL编译器和DL硬件库——的特点。然后,本文为DL底层库定义了漏洞和测试方法。此外,本文总结了针对这些DL库的现有测试方法和工具,并分析了它们的有效性和局限性。本文还讨论了DL库测试中存在的现有挑战,并概述了未来研究的潜在方向。
arXiv:2403.19871v5 Announce Type: replace-cross
摘要:我们考虑当新批次的数据可用时重新训练机器学习(ML)模型的问题。现有方法在每个批次上单独优化预测能力,而不考虑模型结构在重新训练迭代过程中的稳定性或分析洞察力。我们提出了一种通用框架,用于寻找在重新训练迭代过程中稳定的模型序列。我们开发了一种混合整数优化模型,可以保证恢复帕累托最优模型(基于预测能力-稳定性的权衡),同时具有良好的泛化性能,还开发了一个高效的多项式时间算法,在实践中表现良好。我们通过使用可以直接纳入优化问题的自定义定义的距离度量来关注保持一致的分析洞察力,这对于模型解释性、实施简便性和与用户的信任培养非常重要。我们在回归、决策树、提升树和神经网络等多个模型以及医疗保健、视觉和语言等多个应用领域进行了评估,包括在美国一家大型医院的生产管道中部署。我们发现,平均而言,预测能力降低2%会带来30%的稳定性提升。
arXiv:2403.08828v3 宣传类型: 替换-交叉
摘要:人们经常认为有效的以人类为中心的可解释人工智能(XAI)应该模仿人类的推理。然而,关于如何借助认知科学的概念来帮助设计XAI的实证研究却很少见。基于认知科学的见解,我们提出了一个解释模式框架,分析人们是如何构建解释的,是基于机制、目的还是反事实。利用自主驾驶这一复杂的安全关键领域,我们进行了一项由两个研究组成的实验,分别探讨了(i) 在14个独特的场景下人们对车辆行为的解释 (N1=54),以及(ii) 他们对这些解释的感知 (N2=382),并且编纂了新的《自主驾驶决策的人类解释》(HEADD)数据集。我们的主要发现是,参与者认为目的性的解释明显比反事实性的解释更好,感知到的目的性是最能预测感知质量的因素。基于我们的结果,我们认为在设计和评估XAI时,解释模式是一个重要的分析维度,并且强调需要有原则性和实证依据的理解认知机制。HEADD数据集及其代码可在以下链接获取:https://datashare.ed.ac.uk/handle/10283/8930。