arXiv:2409.05358v2 展示类型: 替换交叉
摘要:内在动机和奖励塑造通过添加伪奖励来引导强化学习(RL)代理,这可以导致有用的现象行为。然而,它们也可能促进不正当的利用,例如对有噪音的电视屏幕的固着。在这里,我们提供了一个理论模型,可以预测这些行为,并提供了广泛的条件,以限制不良影响。我们将所有伪奖励视为贝叶斯自适应马尔可夫决策过程(BAMDP)中的奖励塑造,该过程将MDP(马尔可夫决策过程)中的学习问题表述为代理知识上的MDP。最优探索最大化BAMDP状态价值,我们将其分解为获取的信息的价值和物理状态的先验价值。伪奖励通过奖励增加了这些价值组件的行为来引导RL代理,而当它们与实际价值不一致时,则妨碍探索。我们扩展了基于潜力的塑造理论,证明了BAMDP潜力基形成功能(BAMPFs)在元强化学习中免疫于奖励作弊(追求复合奖励的最大化而牺牲真正奖励),并展示了如何在伯努利臂域中通过BAMPF帮助元强化学习代理学习最优的RL算法。最后,我们证明了具有边界单调增加潜力的BAMPFs也能够在常规的RL设置中抵抗奖励作弊。我们展示了这种形式的原型或设计新的伪奖励项是直接的,并提供了在山车环境中的一种实证演示。
arXiv:2409.01688v3 宣布类型: replace-cross
摘要: 我们介绍了一种细化的同态差分隐私(DP)数据结构,用于核密度估计(KDE),不仅提供了更好的隐私-实用性权衡,还在效率上超越了先前的结果。具体来说,我们研究了以下数学问题:给定一个相似性函数 \(f\)(或DP KDE)和一个私人数据集 \(X \subset \mathbb{R}^d\),我们的目标是预处理 \(X\),以便对于任何查询点 \(y \in \mathbb{R}^d\),我们可以以差分隐私的方式近似 \(\sum_{x \in X} f(x, y)\)。对于 \(f(x, y) = \| x - y \|_1\),最佳的先前算法是 [Backurs, Lin, Mahabadi, Silwal, and Tarnawski, ICLR 2024] 的节点污染平衡二叉树。他们的算法在预处理时需要 \(O(nd)\) 的空间和时间,其中 \(n=|X|\)。对于任何查询点,查询时间是 \(d \log n\),且有 \((1+\alpha)\)-近似和误差界 \(\epsilon^{-1} \alpha^{-0.5} d^{1.5} R \log^{1.5} n\)。
在这篇论文中,我们从三个方面改进了 [Backurs, Lin, Mahabadi, Silwal, and Tarnawski, ICLR 2024] 的最佳先前结果:
- 我们将查询时间减少了一个因子 \(\alpha^{-1} \log n\)。
- 我们将近似比从 \(\alpha\) 改进为 1。
- 我们将误差依赖性减少了一个因子 \(\alpha^{-0.5}\)。
从技术角度看,我们构建搜索树的方法不同于先前的工作 [Backurs, Lin, Mahabadi, Silwal, and Tarnawski, ICLR 2024]。在以前的工作中,对于每个查询,答案被分割成 \(\alpha^{-1} \log n\) 个数字,每个数字都是从区间树计数的 \(\log n\) 个值中得出的。相比之下,我们以不同的方式构建树,将答案分割成 \(\log n\) 个数字,每个数字是两个距离值、两个计数值和 \(y\) 本身的巧妙结合。我们认为我们的树结构可能具有独立的兴趣。
arXiv:2408.03866v2 宣布类型: replace-cross
摘要: 《来源本体》(PROV-O) 是万维网联盟 (W3C) 推荐的一种本体,用于结构化在各种领域的来源数据。《基本正式本体》(BFO) 是一个顶级本体,ISO/IEC 标准,用于结构化各种本体,如 OBO 发现本体和通用核心本体 (CCO)。为了增强这两个本体及其扩展以及由它们组织的数据的互操作性,根据具体的准则,提出了映射方法和一套对齐方法,这些准则优先考虑语义和逻辑原则。通过检查与 PROV-O 实例的经典示例的逻辑一致性,并查询不满足形式化为 SPARQL 的对齐准则的术语,来评估本体对齐。使用各种语义网技术来支持 FAIR (可获取的、可访问的、互操作的、可重用的) 原则。
arXiv:2408.03093v5 宣告类型: replace-cross
摘要:我们提出了一种数据驱动的方法,用于生成在未知随机环境中可证明鲁棒性的策略。现有方法可以学习单一环境的模型作为区间马尔可夫决策过程(IMDP),并产生具有大概率近似正确(PAC)性能保证的鲁棒策略。然而,这些方法无法处理决定不确定性背后环境参数的影响。我们提出了一种基于参数马尔可夫决策过程(MDPs)的框架,这些过程具有未知参数分布。我们为由参数引起的多个未知样本环境学习并分析IMDP。关键挑战是生成能够结合这两层不确定性(1)由未知分布引起的多个环境;(2)由这些环境近似表示的IMDP的未知诱导环境)的有效性能保证。我们提出了一种基于情景优化的新型方法,该方法提供一个单一的PAC保证,量化了保证特定性能水平时可承受的风险水平,同时还提供了一种在风险和性能之间进行权衡的方法。我们使用多种鲁棒策略生成方法在一系列基准上实现了并评估了该框架。我们展示了我们的方法在未知环境中提供了策略性能的紧密界限,并具有很高的置信度。
arXiv:2408.01536v2 宣告类型: replace-cross
摘要:求解偏微分方程(PDEs)是科学和工程中的基本问题。虽然神经网络PDE求解器比传统数值求解器更高效,但它们往往需要大量训练数据,这些数据的获取成本高昂。通过使用更具信息量的初始条件和PDE参数查询经典求解器,主动学习(AL)可以帮助代理模型在较小的训练集上达到相同的准确性。虽然AL在其他领域较为常见,但对于神经网络PDE求解器的研究尚未广泛进行。为了弥合这一差距,我们引入了AL4PDE,这是一个模块化且可扩展的主动学习基准。该基准提供了多种参数化的PDE和最先进的代理模型,适用于求解器在环情境,从而可以评估现有和开发新的针对神经PDE求解的主动学习方法。我们使用该基准评估了批量主动学习算法,如基于不确定性和特征的方法。我们发现,与随机采样相比,AL可将平均误差降低高达71%,并且显著减少了最坏情况下的误差。此外,AL生成的数据库在多次运行中具有相似性,参数和初始条件的分布保持一致。获取的数据集是可重用的,为未参与数据生成的代理模型提供了好处。
arXiv:2407.18755v2 通知类型: 交叉替换
摘要:从观察数据中发现因果关系具有巨大的潜力,但现有的方法依赖于对潜在因果结构的强烈假设,通常需要全面观测所有相关变量。我们通过利用观察变量的得分函数 $\nabla \log p(X)$ 来应对这些挑战,并提出以下贡献。首先,我们通过将得分应用于加性噪声模型来细化现有的识别结果,表明因果机制的非线性假设并不是必要的。其次,即使存在隐藏变量,我们确立了从得分推断因果关系的条件;这一结果两面性体现在:我们展示了得分在推断包含隐藏变量的因果图等价类方面的潜力(而之前的成果仅限于全可观测性设置),同时提供了识别潜在变量模型中直接因果关系的充分条件。基于这些见解,我们提出了一种适用于线性、非线性和潜在变量模型的灵活算法,并通过实证验证了该算法。
arXiv:2407.18468v3 Announce Type: replace-cross
摘要:近年来,由于其卓越的生成能力,扩散模型被广泛应用于AI生成内容(AIGC)中。结合语义通信,扩散模型被用于去噪、数据重构和内容生成等任务。然而,现有的基于扩散的生成模型没有考虑严格的带宽限制,这限制了它们在无线通信中的应用。本文介绍了一种基于扩散的先进VAE压缩语义通信框架,旨在为带宽受限的生成模型提供支持。我们设计的架构利用了扩散模型,其中通过无线信道的信号传输过程充当扩散的前向过程。为了减少带宽需求,我们结合了一个下采样模块和一个基于变分自编码器的配对上采样模块,在接收端采用重参数化以确保恢复的特征符合高斯分布。此外,我们推导了我们提出系统中的损失函数,并通过全面的实验评估其性能。我们的实验结果在像素级指标(如峰值信噪比(PSNR))和语义指标(如学习感知图像片段相似性(LPIPS))上展示了显著的改进。这些改进在压缩率和信噪比方面相较于深度联合源信道编码(DJSCC)更为显著。
arXiv:2407.18242v3 宣布类型: replace-cross
摘要: 低秩适应(也称为LoRA)已成为参数高效微调基础模型的一种 prominent 方法。尽管LoRA具有计算效率,但在性能上仍比全量微调略逊一筹。在本文中,我们首先揭示了LoRA和全量微调的优化过程之间的基本联系:使用LoRA进行优化从数学上等价于使用低秩梯度进行参数更新的全量微调。这个低秩梯度可以用LoRA中的两个低秩矩阵的梯度来表示。利用这一洞见,我们引入了LoRA-Pro,一种通过有策略地调整这两个低秩矩阵的梯度来增强LoRA性能的方法。这种调整使得低秩梯度更能准确地模拟全量微调梯度,从而缩小了LoRA与全量微调之间的性能差距。此外,我们从理论上推导了调整低秩矩阵梯度的最优解,并在LoRA-Pro训练过程中应用它们。我们在自然语言理解、对话生成、数学推理、代码生成和图像分类任务中进行了广泛的实验,证明LoRA-Pro显著提高了LoRA的性能,并有效地缩小了与全量微调之间的差距。代码已公开可在https://github.com/mrflogs/LoRA-Pro上获取。
arXiv:2407.14766v2 通知类型: 替换-交叉
摘要:在这篇文章中,我们提出了一项关于AI分类公平性问题的哲学和实验性研究。我们认为,在AI分类中实现公平性不仅仅是操作性地实现公平性指标那么简单,还需要建立所选择分类模型及其背后原则的可解释性。具体来说,这包括让训练过程透明化,确定公平性标准实际上产生的结果,以及通过与可能产生不同结果的紧密相关模型进行比较来评估它们的权衡。为了说明这种方法,我们训练了一个模型并开发了一个用于差异检测和公平干预的工具包FairDream。尽管FairDream旨在强制实施人口均衡性,实验表明它满足了相等概率的结果约束。因此,该算法比用户预期的更为保守。为了证明这一结果,我们首先澄清了人口均衡性和相等概率作为公平性标准的关系。然后,我们解释了FairDream的加权方法,并通过与紧密相关模型的基准比较来证明FairDream所达成的权衡。我们得出了关于这些解释性步骤如何使AI模型值得信赖的结论。
arXiv:2407.03387v3 宣告类型: replace-cross
摘要: 近期的工作表明,在零样本和少样本设置下的大规模语言模型(LLMs)在各种文本生成任务中难以理解自然语言约束。而在代码领域,广泛使用代码格式的约束来维护像JSON和YAML这样的域特定语言(DSLs)编写的代码的完整性,这些DSLs在企业级编程任务中被广泛使用。鉴于LLMs越来越多地用于企业级代码任务,评估它们是否能理解这些代码约束变得至关重要。然而,还没有任何工作评估它们在代码约束方面的可控性。因此,我们引入了ConCodeEval,这是一个首创的基准,包含五个表示形式下的两个新颖的代码约束任务。我们的研究表明,语言模型在处理代码约束方面存在困难。那些在常规代码任务中表现优异的代码语言,在表示精细粒度约束时表现不佳。