arXiv:2408.17253v3 公告类型: replace-cross
摘要:基础模型已成为时间序列预测(TSF)的一个有前途的方法。现有方法不是重新利用大型语言模型(LLMs),就是构建大规模时间序列数据集,以开发适用于通用预测的TSF基础模型。然而,这些方法由于横跨领域的显著差距或领域内的异质性面临挑战。本文探讨了一条新的道路,从丰富的高质量自然图像中构建TSF基础模型。我们的关键洞察是,预训练在ImageNet数据集上的视觉遮蔽自动编码器可以自然地成为数字序列预测器。通过将TSF重新表述为图像重构任务,我们弥合了图像预训练与TSF下游任务之间的差距。令人惊讶的是,在时间序列领域无需进一步适应,所提出的VisionTS在零样本预测性能上优于现有TSF基础模型。通过一个周期的微调,VisionTS可以进一步提高预测性能,并在大多数情况下达到最先进的水平。广泛的实验揭示了图像和真实世界时间序列之间的内在相似性,表明视觉模型可能为TSF提供“免费午餐”,并强调了未来跨模态研究的潜力。我们的代码已在https://github.com/Keytoyze/VisionTS公开。
arXiv:2408.17017v3 宣告类型: replace-cross
摘要:自我一致性通过采样多种推理路径来减轻大型语言模型(LLMs)中的幻觉现象,但缺乏系统的方法来确定最优的采样数量或选择最忠实的推理。为了解决这一局限性,我们引入了一种新型框架——感知推理自一致性(RASC),通过动态评估输出和推理,增强采样效率和推理忠实度。RASC 对每条生成样本的质量推理和答案的一致性进行评估,并利用这些评估来指导早期停止决策和推理选择。该框架采用基于标准的停止和加权多数投票方法,使在何时停止采样以及选择哪种推理能够做出更明智的选择。我们的跨多种问答数据集的全面实验表明,RASC 在保持准确性的同时,比现有方法减少了约 70% 的样本使用量。此外,RASC 促进了高保真推理的选择,从而提高了 LLMS 输出的忠实度。我们提出的方法有效地解决了 LLMS 推理任务中的效率-准确性的权衡问题,在资源受限的环境中提供了更细致、忠实和有效的 LLMS 利用的新视角。
arXiv:2408.11053v2 宣布类型: 替换-交叉
摘要:大型语言模型(LLMs)在数字硬件代码生成中的应用是一个新兴领域,大多数LLM主要是在自然语言和软件代码上进行训练。像Verilog这样的硬件代码在训练数据中所占的比例很小,而且很少有硬件基准测试。2023年11月发布的开源VerilogEval基准测试提供了一套一致的框架,用于评估LLM在代码完成任务中的性能。自那时起,商业和开源模型都取得了显著的进步。
在这项工作中,我们使用了自VerilogEval最初发布以来的新商用和开源模型——包括GPT-4o、GPT-4 Turbo、Llama3.1(8B/70B/405B)、Llama3 70B、Mistral Large、DeepSeek Coder(33B和6.7B)、CodeGemma 7B和RTL-Coder——对改进后的VerilogEval基准测试集进行了评估。我们发现最先进的模型取得了可测量的改进:GPT-4o在规格到RTL任务中的通过率达到63%。最近发布且开源的Llama3.1 405B的通过率为58%,几乎与GPT-4o持平,而较小的专门领域RTL-Coder 6.7B模型的通过率为34%。
此外,我们通过自动分类失败情况、引入上下文学习支持,并扩展任务为规格到RTL翻译,增强了VerilogEval的基础设施。我们发现,提示工程对于实现良好的通过率仍然至关重要,并且随着模型和任务的不同而有很大的变化。一个允许提示工程和失败分析的基准基础设施对于持续的模型开发和部署是至关重要的。
arXiv:2407.20242v4 透露类型: 替换-交叉
摘要:具身AI代表了一种将AI集成到物理实体中的系统。大规模语言模型(LLM),表现出强大的语言理解能力,已被广泛应用于具身AI中,通过促进复杂的任务规划。然而,一个关键的安全问题仍然被忽视:这些具身LLM是否会实施有害行为?为应对这一问题,我们引入了BadRobot,这是一种新的攻击范式,旨在通过典型的基于语音的用户-系统交互使具身LLM违反安全和伦理约束。具体而言,为了实现这种类型的攻击,利用了以下三种脆弱性:(i)在机器人系统中操控LLM,(ii)语言输出与物理动作之间的不一致,以及(iii)由于世界知识的缺陷导致的无意中的危险行为。此外,我们构建了一个包含各种恶意物理动作查询的基准集,以评估BadRobot的攻击性能。基于此基准集,对现有突出的具身LLM框架(例如Voxposer、Code as Policies和ProgPrompt)进行的广泛实验证明了BadRobot的有效性。
arXiv:2407.19200v2 类型: replace-cross
摘要:自然语言处理(NLP)系统最近的发展,特别是通过引入大型语言模型(LLMs),导致这些系统被各个领域广泛用户采用,影响了决策、就业市场、社会和科学研究。这种使用量的激增带来了NLP模型解释性和分析研究的爆炸性增长,以及众多的技术综述。然而,这些综述往往忽略了解释利害关系者的需要和视角。在本文中,我们回答了三个基本问题:我们需要解释性的原因是什么,我们解释什么,以及如何解释。通过探讨这些问题,我们检查了现有的解释性范式、其属性及其对不同利害关系者的相关性。我们进一步通过分析过去十年多个研究领域的趋势,探讨了这些范式的实际影响。为此,我们检索了数千篇论文,并使用了LLM来描述它们。我们的分析揭示了NLP开发人员和非开发人员用户之间,以及不同研究领域之间的重大差异,突显了不同利害关系者多样化的需要。例如,在NLP领域之外,很少使用对内部模型组件的解释。我们希望本文能为未来适合各种利害关系者目标和要求的方法的设计、开发和应用提供信息。
arXiv:2407.15532v2 宣告类型: 交叉替换
摘要:除了评估单个资产的表现外,金融市场中的投资者还需要考虑一组公司在作为投资组合时的整体表现。尽管传统的马科维茨均值-方差投资组合广泛使用,但基于网络的优化技术能更好地捕捉资产价值之间的复杂相互依赖性。然而,现有的大多数研究并未包含违约风险较高的公司,并在一段时间内从指数中剔除任何公司。这是首次在大规模的优化过程中将此类公司纳入投资组合考虑。我们提出并实证测试了一种新方法,利用图注意力网络(GATs),这是一个图神经网络(GNNs)的子类。作为基于深度学习的模型,GNNs 能利用网络数据发现非线性关系。它们处理高维数据的能力以及为特定目的配置自定义层的能力,使它们适用于中盘和小盘股票投资组合优化等大规模问题。本研究利用30年中盘公司的数据,使用距离相关性和三角最大化过滤图方法构建公司的图形。这些图作为包含权重和分配约束以及来自夏普比率的损失函数的GAT模型的输入,从而专注于最大化投资组合的风险调整后回报。这种新的模型与基于网络特征的投资组合、均值方差投资组合和等权重投资组合进行了对比测试。结果显示,基于GAT模型产生的投资组合在所有基准指标中表现最佳,并且在长期中持续优于其他策略,同时还能反映市场动态。
arXiv:2407.08442v2 类型: replace-cross
摘要:我们对电子健康记录(EHR)时间序列填充的深度学习方法进行了全面分析,探讨了架构和框架偏见如何结合影响模型性能。我们的研究揭示了不同深度填充方法在捕捉EHR中复杂的时空依赖关系方面的不同能力,并表明模型的有效性取决于其组合偏见与医疗时间序列特征的对齐程度。我们的实验评估挑战了关于模型复杂性的常见假设,证明了更大规模的模型并不一定能够提高性能。相反,精心设计的架构能够更好地捕捉临床数据中存在的复杂模式。该研究强调了优先考虑具有临床意义的数据重建而非统计准确性的重要性。我们的实验表明,预处理和实现选择的不同会导致填充性能变化高达20%,突显了需要标准化基准测试方法的重要性。最后,我们识别了当前深度填充方法与医疗需求之间的关键差距,强调了集成临床见解以实现更可靠填充方法的重要性,用于医疗保健应用。
arXiv:2406.13292v3 Announce Type: replace-cross
摘要:**目标:**阿尔茨海默病(AD)是全球最常见的痴呆形式,包括一种前驱阶段,称为轻度认知损害(MCI),患者在这个阶段可能会进展为AD或保持稳定。本研究的目标是利用多模态MRI数据和单核苷酸多态性捕获脑结构和功能的结构和功能变化,即使在缺失视图的情况下也能进行捕捉,以双重目标对AD患者与健康对照进行分类,并发现MCI转换者。% 在两个不同的任务中处理缺失的数据。**方法:** 我们提出了一种基于多模态深度学习的分类框架,在潜在空间中引入了一种生成模块,使用循环生成对抗网络用于填充缺失数据(多模态方法中常见的问题)。然后使用可解释的人工智能方法提取输入特征的相关性,允许事后验证并增强学习表示的可解释性。**主要结果:** 在AD检测和MCI转换两个任务上的实验结果表明,我们的框架在最新的研究中达到了竞争力的表现,分别为两个任务达到了0.926±0.02和0.711±0.01的准确率。可解释性分析揭示了与AD相关的皮层和皮层下脑区的灰质变化。此外,还识别出沿着疾病连续谱出现的感觉-运动和视觉静息状态网络的损害,以及与内吞作用、β-淀粉样蛋白和胆固醇相关的生物过程的相关遗传突变。**意义:** 我们综合且可解释的深度学习方法在AD检测和MCI预测方面表现出有前景的表现,同时为重要生物学见解提供了光明。
arXiv:2406.09321v2 安全类型: 替换交叉
摘要: 拷贝攻击促使大语言模型(LLMs)生成有害的响应,这带来了严重的滥用威胁。尽管关于拷贝攻击和防御的研究正在兴起,但关于如何评估拷贝攻击还没有达成共识,即用来评估LLM响应的危害性的方法多种多样。每种方法都有其各自的优点和缺点,影响其与人类价值观的一致性,以及所需的时间和财务成本。这种多样性挑战了研究人员在选择合适的评估方法以及比较不同攻击和防御方面的选择。在本文中,我们对近90篇自2023年5月至2024年4月发布的拷贝攻击评估方法进行了全面分析。我们的研究提出了系统的拷贝攻击评估器分类法,深入探讨了它们的优点和缺点,以及当前的适应状况。为帮助进一步的研究,我们提出了JailbreakEval,这是一个评估拷贝攻击尝试的工具包。JailbreakEval包含多种开箱即用的评估器,使用户可以通过单个命令或自定义评估工作流获得结果。总之,我们认为JailbreakEval是一个催化剂,简化了拷贝攻击研究中的评估过程,并促进了社区内拷贝攻击评估的标准包容性。
arXiv:2406.02596v2 传输类型: replace-cross
摘要:这项研究探讨了神经网络的一般化能力退化问题,并重温了 Ash & Adams 的预热实验。我们的实证分析表明,设计用于通过保持可训练性来增强可塑性的常见方法对一般化提供的益处有限。虽然重新初始化网络可能有效,但也存在失去宝贵先验知识的风险。为此,我们引入了 Hare & Tortoise,灵感来源于大脑的互补学习系统。Hare & Tortoise 由两个组件组成:快速适应新信息的 Hare 网络,类似于海马体;以及逐步整合知识的 Tortoise 网络,类似于新皮层。通过定期将 Hare 网络重新初始化为 Tortoise 的权重,我们的方法可以在保持可塑性的同时保留一般知识。Hare & Tortoise 可以有效地维护网络的一般化能力,从而在 Atari-100k 基准测试中改进高级强化学习算法。代码可在 https://github.com/dojeon-ai/hare-tortoise 上获得。