arXiv:2409.19546v4 说明类型: replace-cross
摘要:随机逼近是一类重要的算法,此前大量分析主要集中在由收缩算子驱动的随机逼近上,但在某些重要的强化学习设置中并不适用。本文则针对仅由非扩张算子驱动的随机逼近进行研究。特别地,我们研究了具有马尔可夫噪声的非扩张随机逼近,提供了渐近和有限样本分析。我们分析的关键在于泊松方程噪声项的一些新颖界。作为应用,我们首次证明,经典的基于表的平均奖励时差学习收敛到一条样本路径依赖的固定点。
arXiv:2409.16791v3 宣告类型: replace-cross
摘要:表格强化学习方法不能直接操作连续状态空间。解决这一问题的一种方法是对状态空间进行分区。一个好的分区能够在学习过程中促进泛化,并更有效地利用先前的经验。因此,学习过程变得更快,并且生成更可靠的政治。然而,分区引入了近似,特别是在状态组件之间存在非线性关系时,这种近似尤为有害。理想的分区应该是尽可能粗略,同时为给定的问题捕捉状态空间的关键结构。本研究通过符号执行从环境动态中提取分区。我们表明,符号分区提高了对环境行为的状态空间覆盖,并使强化学习在稀疏奖励情况下表现更好。我们从精度、可扩展性、学习智能体性能和学到的政治的状态空间覆盖的角度评估符号状态空间分区。
arXiv:2409.14175v2 通知类型: replace-cross
摘要:大规模语言模型(LLMs)在问答系统领域带来了重大进展。这些模型在多种学科中应对复杂问题方面表现出色。然而,由于领域特定的词汇、复杂的科学技术概念以及需要精确回答的需求,将LLMs应用于如电信这样的专门领域带来了额外的障碍。最近的工作中使用了GPT-3.5,在检索增强生成(RAG)框架中获得了电信相关问题的显著准确性。尽管取得了这些进展,但如GPT-3.5这样的模型因其专有性质和高计算需求限制了其实际应用。本文介绍了一种名为QMOS的创新方法,该方法使用问题掩蔽损失和选项洗牌技巧来增强电信领域对多项选择题回答的LLM性能。我们的重点是在改进的RAG框架中使用开源的小型语言模型(Phi-2和Falcon-7B)。我们的多方面方法涉及整个LLM-RAG管道的细化、检索、提示工程和推理的多项改进。我们的方法显著优于现有结果,使用Falcon-7B时从基线提高了24.70%至49.30%,使用Phi-2时从42.07%提高至84.65%。
arXiv:2409.12477v2 宣告类型: replace-cross
摘要:模拟基频(F0)的自然轮廓在音乐音频合成中起着关键作用。然而,在多声部音乐中转录和管理多个F0轮廓具有挑战性,而且显式的F0轮廓建模尚未应用于多声部乐器合成。在本文中,我们提出了一种基于扩散的两阶段合成框架 ViolinDiff。对于给定的小提琴MIDI文件,第一阶段估计F0轮廓作为音高弯曲信息,第二阶段生成包含这些表达性细节的梅尔频谱图。定量指标和听觉测试结果表明,所提出的模型生成的箫琴声音比未进行显式音高弯曲建模的模型更具有现实感。在线音频样本可在以下网址获取:daewoung.github.io/ViolinDiff-Demo。
arXiv:2409.09727v2 宣告类型: replace-cross
摘要:联邦学习在确保数据隐私和安全的前提下,为多中心的大规模医疗研究和合作提供了巨大的潜力。尽管许多近期的研究建议或利用基于联邦学习的方法进行医疗研究,但对于哪些方法具有潜在的临床实用性仍不清楚。本文回顾并分析了截至2024年5月描述医疗领域基于联邦学习方法的研究文献。经过详细审查,我们发现大多数研究由于方法论缺陷和/或潜在偏差(包括但不限于隐私问题、泛化问题和通信成本)而不适合临床使用。因此,联邦学习在医疗领域的有效性受到显著影响。为了克服这些挑战,本文提供了建议并指出了可能实施的有希望的机会,这些机会可能有助于解决这些问题并提高联邦学习在医疗领域模型开发的质量。
arXiv:2408.17253v3 宣告类型: 替换-交叉
摘要:基础模型已经成为时间序列预测(TSF)的一种有前景的方法。现有的方法要么重新利用大型语言模型(LLMs),要么构建大规模时间序列数据集,以开发适用于通用预测的时间序列预测基础模型。然而,这些方法由于跨领域差距严重或领域内异质性而面临挑战。本文探索了一条新的途径,即从丰富的高质量自然图像中构建时间序列预测基础模型。我们的关键洞察是,预训练于ImageNet数据集上的视觉掩码自编码器可以自然地成为数值序列预测器。通过将TSF重新表述为图像重建任务,我们填补了图像预训练和TSF下游任务之间的差距。令人惊讶的是,提出的眼动TSF在不需要进一步的时间序列领域调整的情况下,其零样本预测性能优于现有的TSF基础模型。通过一周期的微调,眼动TSF可以进一步提高预测能力,并在大多数情况下实现最先进的性能。广泛的实验揭示了图像与真实世界时间序列之间的内在相似性,表明视觉模型可能为TSF提供“免费午餐”,并突显了未来跨模态研究的潜力。我们的代码可在 https://github.com/Keytoyze/VisionTS 公开获取。
arXiv:2408.17017v3 宣布类型: replace-cross
摘要:自我一致性通过采样多种推理路径来减轻大型语言模型(LLMs)的幻觉现象,但缺乏系统的方法来确定最佳采样数量或选择最忠实的论据。为了解决这一限制,我们引入了推理感知自我一致性(RASC),这是一种新型框架,通过动态评估输出和论据来增强采样效率和推理忠实度。RASC 评估每个生成样本的质量和答案的一致性,并使用这些评估来指导早期停止决策和论据选择。该框架采用基于准则的停止和权重多数投票机制,使人们在何时停止采样和选择哪份论据时能够做出更为明智的选择。我们在多种问题回答数据集上的全面实验表明,RASC 能够在保持准确性的同时将样本使用量降低约 70%。此外,RASC 促进了高保真论据的选择,从而提高了 LLM 输出的忠实度。我们的方法有效解决了 LLM 推理任务中的效率-准确性权衡问题,为更细腻、忠实和有效的 LLM 利用提供了一个新的视角,尤其是在资源受限的环境中。
arXiv:2408.11053v2 宣布类型: 替换-交叉
摘要:大语言模型(LLMs)在数字硬件代码生成中的应用是一个新兴领域,大多数LLMs主要是在自然语言和软件代码上进行训练。像Verilog这样的硬件代码仅占训练数据的一小部分,而且很少有硬件基准存在。开源的VerilogEval基准于2023年11月发布,为其在代码补全任务上的评估提供了一个一致的框架。此后,无论是商业还是开源模型都取得了显著的发展。
在这项工作中,我们评估了VerilogEval首批发布以来的新商业和开源模型,包括GPT-4o、GPT-4 Turbo、Llama3.1(8B/70B/405B)、Llama3 70B、Mistral Large、DeepSeek Coder(33B和6.7B)、CodeGemma 7B和RTL-Coder,针对改进后的VerilogEval基准套件。我们发现最先进的模型有可测量的进步:GPT-4o在规格到RTL任务上达到了63%的通过率。最近发布的开源Llama3.1 405B达到了58%的通过率,几乎与GPT-4o相当,而较小的领域专用RTL-Coder 6.7B模型则达到了令人印象深刻的34%的通过率。
此外,我们通过自动分类失败、引入上下文学习支持,并将任务扩展到规格到RTL转换,增强了VerilogEval的基础架构。我们发现,良好的通过率对于提示工程而言仍至关重要,并且随着模型和任务的不同而差异很大。一个允许进行提示工程和失败分析的基准基础架构对于持续的模型开发和部署是必不可少的。
arXiv:2407.20242v4 公告类型: replace-cross
摘要:具身AI表示将AI集成到物理实体中的系统。大型语言模型(LLM),因其强大的语言理解能力,已被广泛应用于具身AI,通过促进复杂的任务规划。然而,仍然存在一个关键的安全问题:这些具身LLM是否会执行有害行为?为应对这一问题,我们提出了BadRobot,这是一种新型攻击范式,旨在通过典型的基于语音的用户-系统交互使具身LLM违反安全和伦理约束。具体而言,利用了三种漏洞来实现这种类型的攻击:(i)在机器人系统中操纵LLM;(ii)语言输出与物理动作之间的对齐不一致;(iii)由于世界知识的缺陷引起的无意危险行为。此外,我们构建了一个包含各种恶意物理动作查询的基准,以评估BadRobot的攻击性能。基于此基准,针对现有知名具身LLM框架(如Voxposer、Code as Policies和ProgPrompt)进行了大量实验,证明了BadRobot的有效性。
arXiv:2407.19200v2 宣告类型: 代替-交叉
摘要:自然语言处理(NLP)系统的最新进展,尤其是随着大规模语言模型(LLMs)的引入,这些系统已经被广泛用户在各个领域采用,影响了决策、就业市场、社会和科学研究。这种使用量的激增导致了NLP模型解释性和分析研究的爆炸性增长,伴随了大量的技术调研。然而,这些调研往往忽略了解释利益相关者的需要和视角。在本文中,我们解答了三个基本问题:为什么我们需要解释性,我们解释什么,以及如何解释?通过探索这些问题,我们检查了现有的解释性范式、它们的性质以及它们对不同利益相关者的相关性。我们进一步通过分析过去十年跨多个研究领域的趋势,探讨了这些范式的实际意义。为此,我们检索了数千篇论文,并使用LLM来描述它们。我们的分析揭示了NLP开发人员和非开发人员用户之间,以及不同研究领域之间的显著差异,突显了利益相关者的多样化需求。例如,内部模型组件的解释在NLP领域之外几乎很少被使用。我们希望本文能够为未来符合各种利益相关者目标和要求的方法的设计、开发和应用提供信息。