基于模型的强化学习(RL)为解决大多数无模型 RL 算法所面临的数据效率低下问题提供了一种解决方案。然而,学习一个鲁棒的世界模型通常需要复杂且深层的架构,这在计算和训练方面成本高昂。在世界模型中,动力学模型对于准确预测至关重要,并且已经探索了各种动力学模型架构,每种架构都有其自身的挑战。目前,基于循环神经网络 (RNN) 的世界模型面临着梯度消失和难以有效地捕捉长期依赖关系等问题。相比之下,使用 Transformer 会遇到自注意力机制的众所周知的缺陷,其中内存和计算复杂度都随着 $O(n^2)$ 增长,其中 $n$ 代表序列长度。
为了解决这些挑战,我们提出了一种基于状态空间模型 (SSM) 的世界模型,具体来说是基于 Mamba 的模型,它实现了 $O(n)$ 的内存和计算复杂度,同时有效地捕捉长期依赖关系并有效地促进更长训练序列的使用。我们还引入了一种新的采样方法来缓解训练初期不正确世界模型带来的次优性,将其与上述技术相结合,使用仅 700 万个可训练参数的世界模型,实现了与其他最先进的基于模型的 RL 算法相当的归一化分数。该模型易于访问,可以在普通笔记本电脑上进行训练。我们的代码可在 https://github.com/realwenlongwang/drama.git 上获取。
联邦学习(FL)是一种机器学习技术,它允许多个实体协作学习一个共享模型,而无需交换本地数据。在过去十年中,FL 系统取得了重大进展,扩展到跨各种学习领域的数百万台设备,同时提供了有意义的差分隐私 (DP) 保证。来自 Google、Apple 和 Meta 等组织的生产系统证明了 FL 的现实世界适用性。然而,一些关键挑战依然存在,包括验证服务器端的 DP 保证以及协调跨异构设备的训练,限制了更广泛的采用。此外,大型(多模态)模型和训练、推理和个性化之间界限模糊等新兴趋势挑战了传统的 FL 框架。作为回应,我们提出了一个重新定义的 FL 框架,该框架优先考虑隐私原则而不是严格的定义。我们还通过利用可信执行环境和开源生态系统来解决这些挑战,并促进 FL 未来发展,指明了前进方向。
银行通过消费和商业贷款在任何金融生态系统中对经济发展至关重要。然而,贷款存在风险;因此,银行必须确定申请人的财务状况以降低违约的可能性。因此,许多银行目前已采用数据分析和最先进的技术来做出更好的贷款审批决策。预测建模技术通过应用机器学习算法来预测还款概率。在本研究项目中,我们将应用多种机器学习方法来进一步提高贷款审批流程的准确性和效率。我们的工作重点是银行贷款审批的预测;我们使用机器学习方法对包含 148,670 个实例和 37 个属性的数据集进行了研究。目标属性将贷款申请分为“批准”和“拒绝”两组。我们使用了多种机器学习技术,包括决策树分类、AdaBoosting、随机森林分类器、SVM 和 GaussianNB。随后,我们对模型进行了训练和评估。其中,AdaBoosting 算法表现最佳,达到了惊人的 99.99% 的准确率。因此,结果表明集成学习可以有效地提高贷款审批决策的预测能力。本研究表明,有可能实现极其准确和高效的贷款预测模型,为将机器学习应用于金融领域提供有用的见解。
最近,一种称为 DHOL 的高阶逻辑扩展被引入,它用依赖类型丰富了语言,并创造了一种强大的外延类型理论。本文提出了两种将选择添加到 DHOL 的方法。我们通过希尔伯特的非确定选择算子 $\epsilon$ 扩展 DHOL 项结构,定义了选择项到 HOL 选择的翻译,该翻译扩展了现有的从 DHOL 到 HOL 的翻译,并证明了翻译扩展的完备性,并论证了其健全性。最后,我们在一组需要选择的依赖 HOL 问题上评估了扩展的翻译。
我们将现有的基于后门的**水印**和**对抗防御**定义形式化并扩展为两个参与者之间的交互协议。这些方案的存在本质上与它们所针对的学习任务相关联。我们的主要结果表明,对于几乎所有判别式学习任务,至少存在两种方案之一:**水印**或**对抗防御**。“几乎所有”一词表示我们还识别出第三种方案,它既反直觉又必要,即我们称之为可转移攻击的方案。通过可转移攻击,我们指的是一种高效算法,该算法计算出的查询与数据分布看起来无法区分,并且可以欺骗所有高效的防御者。为此,我们通过使用名为同态加密的加密工具的构建来证明可转移攻击的必要性。此外,我们证明任何满足我们对可转移攻击的定义的任务都隐含着一个加密原语,因此需要底层任务具有计算复杂度。这两个事实意味着可转移攻击的存在与密码学之间的“等价性”。最后,我们证明了有界 VC 维的任务类具有对抗防御,而它们的一个子类具有**水印**。
在 TinyML 领域,将深度神经网络 (DNN) 部署到异构边缘平台,并将指令处理器和硬件加速器耦合到同一微控制器单元 (MCU) 中,成为一项至关重要的挑战。
性能最佳的 DNN 编译工具链通常针对单个 MCU 系列深度定制,移植到不同的异构 MCU 系列意味着几乎整个编译器的劳动密集型重新开发。另一方面,可重定向工具链(如 TVM)无法利用定制加速器的功能,导致生成通用但未优化的代码。为了克服这种二元性,我们引入了 MATCH,这是一种基于 TVM 的新型 DNN 部署框架,它专为跨不同 MCU 处理器和加速器的轻松敏捷重定向而设计,这得益于可定制的基于模型的硬件抽象。
我们表明,一个通用的可重定向映射框架,通过硬件成本模型增强,可以在各种目标上与定制工具链竞争,甚至优于定制工具链,而只需要定义一个抽象硬件模型和一个 SoC 特定的 API。
我们在两个最先进的异构 MCU,GAP9 和 DIANA 上测试了 MATCH。
在 MLPerf Tiny 套件的四个 DNN 模型上,MATCH 将 DIANA 上的推理延迟降低了高达 60.88 倍,这得益于对板载 HW 加速器的利用。与 DIANA 的完全定制工具链 HTVM 相比,我们仍然将延迟降低了 16.94%。在 GAP9 上,使用相同的基准,与专用 DORY 编译器相比,我们通过 2.15 倍提高了延迟,这得益于我们的异构 DNN 映射方法,它协同利用了 DNN 加速器和板载的八核集群。
大型语言模型(LLMs)因其卓越的推理和理解能力而近来备受关注。本研究探索将 LLMs 应用于车联网,旨在联合优化车路协同 (V2I) 通信和自动驾驶 (AD) 策略。我们将 LLMs 用于 AD 决策,以最大化交通流量并避免碰撞以确保道路安全;并采用双重深度 Q 学习算法 (DDQN) 进行 V2I 优化,以最大化接收数据速率并减少频繁切换。具体而言,对于 LLM 驱动的 AD,我们采用欧几里得距离来识别先前探索的 AD 经验,然后 LLMs 可以从过去的优劣决策中学习,以进一步改进。随后,基于 LLM 的 AD 决策将成为 V2I 问题中的状态的一部分,DDQN 将相应地优化 V2I 决策。在此之后,AD 和 V2I 决策将迭代优化,直至收敛。这种迭代优化方法可以更好地探索 LLMs 与传统强化学习技术之间的相互作用,揭示使用 LLMs 进行网络优化和管理的潜力。最后,仿真结果表明,我们提出的混合 LLM-DDQN 方法优于传统的 DDQN 算法,展现出更快的收敛速度和更高的平均奖励。
在交互式模仿学习(IL)中,不确定性量化提供了一种方法,使学习者(即机器人)能够通过在线主动寻求专家的额外反馈(即人类)来应对部署过程中遇到的分布偏移。先前的工作使用集成差异或蒙特卡罗 dropout 等机制来量化黑盒 IL 策略的不确定性;然而,当面临部署时分布偏移时,这些方法会导致过度自信的估计。相反,我们认为我们需要不确定性量化算法,这些算法可以利用部署时间收到的专家人类反馈来在线调整机器人的不确定性。为了解决这个问题,我们借鉴了在线一致预测,这是一种无需分布的在线构建预测区间的方法,前提是有一系列真实标签。然而,在交互式 IL 设置中,人类标签是间歇性的。因此,从一致预测的角度来看,我们引入了一种称为间歇分位数跟踪(IQT)的新型不确定性量化算法,该算法利用间歇标签的概率模型,保持渐近覆盖保证,并在经验上实现所需的覆盖水平。从交互式 IL 角度来看,我们开发了 ConformalDAgger,这是一种新方法,其中机器人使用 IQT 校准的预测区间作为部署时不确定性的可靠度量,以主动查询更多专家反馈。我们将 ConformalDAgger 与先前的不确定性感知 DAgger 方法进行比较,在这些方法中,由于专家策略的变化,分布偏移(存在或不存在)。我们发现,在 7DOF 机器人操纵器上的模拟和硬件部署中,ConformalDAgger 在专家发生变化时检测到高不确定性,并且与基线相比增加了干预次数,从而使机器人能够更快地学习新行为。
直接偏好优化 (DPO) 及其变体越来越多地用于使语言模型与人类偏好相一致。虽然这些方法旨在教会模型更频繁地生成偏好响应,而不是非偏好响应,但先前的工作观察到,偏好响应的可能性在训练过程中往往会下降。目前的工作阐明了这种反直觉现象(我们称之为可能性位移)的原因和影响。我们证明,可能性位移可能是灾难性的,它会将概率质量从偏好响应转移到具有相反含义的响应。举个简单的例子,训练模型偏好 $\texttt{No}$ 而不是 $\texttt{Never}$ 会显著增加 $\texttt{Yes}$ 的概率。此外,当将模型与拒绝不安全提示对齐时,我们表明这种位移可能会无意地导致不对齐,通过将概率质量从偏好的拒绝响应转移到有害响应(例如,将 Llama-3-8B-Instruct 的拒绝率从 74.4% 降低到 33.4%)。我们从理论上描述了可能性位移是由诱导相似嵌入的偏好驱动的,如中心隐藏嵌入相似性 (CHES) 分数所衡量的那样。在经验上,CHES 分数能够识别出在给定数据集中对可能性位移贡献最大的训练样本。在我们的实验中,过滤掉这些样本有效地减轻了无意间的不对齐。更广泛地说,我们的结果强调了策划具有足够不同偏好的数据的必要性,我们相信 CHES 分数可能会证明其价值。
有机光电材料因其溶液可加工性、机械柔韧性和可调谐的电子特性,成为下一代电子器件的有希望的途径。特别是,近红外 (NIR) 敏感分子在夜视设备和生物医学成像中具有独特的应用。分子工程在开发非富勒烯受体 (NFA)(如 Y 系列分子)方面发挥了至关重要的作用,这些分子显着提高了太阳能电池的功率转换效率 (PCE),并增强了 NIR 区域的光谱覆盖范围。然而,在确保合成可及性的同时,系统地设计具有目标光电特性的分子仍然是一个挑战。为了解决这个问题,我们利用来自以领域为中心的、专利挖掘的有机电子分子数据集的结构先验信息,使用对称感知片段分解算法和片段约束蒙特卡罗树搜索 (MCTS) 生成器。我们的方法生成的候选分子保留了来自专利数据集的对称约束,同时还表现出红移吸收,这已通过 TD-DFT 计算得到验证。