机器学习导致了计算需求的指数级增长,进而催生了庞大的数据中心,这些数据中心消耗大量的能源并加剧气候变化。这使得可持续数据中心控制成为重中之重。本文介绍了 SustainDC,一个用于评估数据中心 (DC) 多智能体强化学习 (MARL) 算法的 Python 环境集合。SustainDC 支持自定义 DC 配置和任务,例如工作负载调度、冷却优化和辅助电池管理,多个智能体管理这些操作,同时考虑彼此的影响。我们在 SustainDC 上评估了各种 MARL 算法,展示了它们在不同 DC 设计、位置、天气条件、电网碳排放强度和工作负载要求下的性能。我们的结果突出了利用 MARL 算法改进数据中心运营的巨大潜力。鉴于人工智能对 DC 的使用日益增加,SustainDC 为开发和基准测试先进算法提供了一个重要平台,这些算法对于实现可持续计算和解决其他异构现实世界挑战至关重要。
新型成像和神经刺激技术为生物神经网络活动闭环控制的进步打开了大门。这将使人们能够在活动传播的研究,以及病理行为的诊断和治疗方面得到应用。由于活动传播的部分可观察特性,通过网络中的边缘无法观察到,以及神经系统的动态特性,因此需要自适应的、可泛化的控制。在本文中,我们介绍了一种环境,它以过程化的方式生成具有不同拓扑结构的神经网络,以研究这种泛化问题。此外,对现有的基于 Transformer 的架构进行了调整,以评估深度强化学习代理在所提出的部分可观察环境中的泛化性能。该代理展示了从有限数量的训练网络泛化控制到未见过的测试网络的能力。
本文设计了一种针对 AIoT 系统中设备级时间序列预测优化的 Transformer 硬件加速器。它将仅整数量化和量化感知训练与优化硬件设计相结合,实现了 6 位和 4 位量化 Transformer 模型,其精度与相关研究中 8 位量化模型相当。通过在嵌入式 FPGA(Xilinx Spartan-7 XC7S15)上进行完整实现,我们考察了在嵌入式物联网设备上部署 Transformer 模型的可行性。这包括对可实现精度、资源利用率、时序、功率和能耗进行彻底分析。我们的结果表明,虽然可以获得足够的性能,但优化过程并非易事。例如,降低量化位宽并不总是导致延迟或能耗降低,这突出了系统地探索各种优化组合的必要性。与相关研究中的 8 位量化 Transformer 模型相比,我们的 4 位量化 Transformer 模型仅将测试损失提高了 0.63%,运行速度提高了 132.33 倍,能耗降低了 48.19 倍。
低秩自适应(LoRA)作为一种代表性的参数高效微调(PEFT)方法,通过仅更新大型语言模型(LLM)中一小部分权重,显著提高了训练效率。最近,仅权重量化技术也被应用于 LoRA 方法,以减少微调的内存占用。然而,将权重-激活量化应用于 LoRA 管道尚未得到充分探索,我们观察到性能下降主要归因于激活异常值的存在。在这项工作中,我们提出了 RoLoRA,这是第一个用于有效权重-激活量化的基于 LoRA 的方案。RoLoRA 利用旋转来消除异常值,并提出了旋转感知微调来保留旋转 LLM 中的无异常值特征。实验结果表明,RoLoRA 在权重-激活设置中始终提高了低位 LoRA 收敛和训练后量化鲁棒性。我们在 LLaMA2-7B/13B、LLaMA3-8B 模型上评估了 RoLoRA,与 LoRA 基线相比,在常识推理任务上实现了高达 29.5% 的 4 位权重-激活量化 LLaMA2-13B 的绝对精度增益。我们进一步证明了它对大型多模态模型(LLaVA-1.5-7B)的有效性。代码可在 https://github.com/HuangOwen/RoLoRA 获取。
随着对更高内存带宽和计算密度的需求不断增长,将多个芯片集成到互连器上的 2.5D 设计成为一种很有前景的解决方案。然而,这种集成带来了巨大的挑战,因为数据速率不断提高,I/O 数量众多,需要对芯片内和互连器上的电源分配网络 (PDN) 进行高级优化,以减轻小信号噪声和同时开关噪声 (SSN)。传统的 2.5D 系统中的 PDN 优化策略主要集中在通过集成去耦电容 (decaps) 来降低阻抗,以减少小信号噪声。不幸的是,我们的实验结果表明,仅仅依靠频域分析不足以解决耦合 SSN。在本研究中,我们提出了一种新颖的基于深度强化学习的两阶段优化流程,以解决芯片内的小信号噪声和 SSN。首先,我们在频域中优化阻抗,以将小信号噪声控制在可接受的范围内,同时避免过度设计。随后,在时域中,我们对 PDN 进行细化,以最小化电压违反积分 (VVI),这是一种更准确的 SSN 严重程度度量。据我们所知,这是第一个双域优化策略,通过在芯片内和互连器 PDN 中战略性地放置去耦电容,同时解决小信号噪声和 SSN 传播问题,为设计用于 2.5D 集成系统的稳健 PDN 提供了重大进步。
检索增强生成 (RAG) 作为一种弥补大型语言模型 (LLM) 参数化知识的方法,在开放域问答 (ODQA) 任务中受到了广泛关注。虽然之前的方法侧重于处理检索到的段落以去除无关上下文,但它们仍然严重依赖于检索到的段落的质量,如果问题模棱两可或复杂,则会降低检索质量。在本文中,我们提出了一种简单而高效的方法,称为通过 LLM 进行问题和段落增强 (QPaug),用于开放域问答。QPaug 首先将原始问题分解为多步子问题。通过用详细的子问题和计划增强原始问题,我们能够使查询更具体地说明需要检索的内容,从而提高检索性能。此外,为了弥补检索到的段落包含干扰信息或不同观点的情况,我们通过 LLM 增强检索到的段落,用自生成段落来指导答案提取。实验结果表明,QPaug 优于之前的最先进方法,并且在现有的 RAG 方法上取得了显著的性能提升。源代码可在 \url{https://github.com/kmswin1/QPaug} 获取。
使用隐式奖励模型的直接偏好优化(DPO)已被证明是微调偏好一致的大型语言模型(LLM)的强化学习从人类反馈(RLHF)的有效替代方法。然而,对响应的整体偏好注释并不能完全捕捉到模型输出在复杂的多步推理任务(如数学推理)中的细粒度质量。为了解决这一局限性,我们提出了一种名为步级价值偏好优化(SVPO)的新算法。我们的方法采用蒙特卡罗树搜索(MCTS)来自动标注多步推理的步级偏好。此外,从学习排序的角度来看,我们训练了一个显式价值模型来复制隐式奖励模型的行为,从而补充标准的偏好优化。这种价值模型使 LLM 能够以最小的推理成本生成更高的奖励响应。实验结果表明,我们的方法在领域内和领域外数学推理基准测试中均取得了最先进的性能。我们的代码可在 \url{https://github.com/MARIO-Math-Reasoning/Super_MARIO} 获取。
在深度学习的各个领域,都观察到了奖励大型数据集、复杂模型和增强数据粒度的扩展定律。然而,关于时间序列预测的研究对深度学习方法在时间序列预测中的扩展行为提出了质疑:虽然更多训练数据可以提高性能,但能力更强的模型并不总是优于能力更弱的模型,而更长的输入范围可能会损害某些模型的性能。我们提出了一种时间序列预测扩展定律的理论,可以解释这些看似异常的行为。我们考虑了数据集大小和模型复杂度的影响,以及时间序列数据粒度,特别是关注回溯范围,这是之前理论中未曾探索的一个方面。此外,我们使用一组多样化的时间序列预测数据集对各种模型进行了实证评估,这些评估(1)验证了时间序列预测领域内数据集大小和模型复杂度的扩展定律的有效性,以及(2)验证了我们的理论框架,特别是关于回溯范围的影响。我们希望我们的发现能够激发针对有限大小的时间序列预测数据集的新模型,以及未来工作中用于时间序列预测的大型基础数据集和模型。我们的实验代码将在以下地址公开:https://github.com/JingzheShi/ScalingLawForTimeSeriesForecasting。
随着机器学习 (ML) 模型越来越多地应用于社会领域,对人类做出具有决定性意义的决策,它们往往具有重塑数据分布的能力。人类作为战略性主体,会不断调整自己的行为以应对学习系统。随着人口动态变化,ML 系统可能需要频繁更新以确保高性能。然而,在社会领域获取高质量的人工标注样本可能极具挑战,甚至不可行。解决这个问题的常用做法是使用模型本身来标注未标记的数据样本。本文研究了当 ML 模型在整合了人类战略性反应后,使用模型标注样本进行重新训练的长期影响。我们首先将战略性主体与模型之间的交互行为形式化,然后分析它们在这种动态交互下是如何演化的。我们发现,随着模型不断重新训练,主体获得正面决策的可能性越来越大,而具有正面标签的主体比例可能会随着时间的推移而下降。因此,我们提出了一种改进的重新训练过程来稳定这种动态。最后,我们研究了这些重新训练过程如何影响算法公平性,发现每轮强制执行常见的公平性约束可能不会从长远来看对弱势群体有利。在(半)合成数据和真实数据上的实验验证了理论发现。
患者交接和分诊是医疗保健中的两个基本问题。医生经常需要费力地总结复杂的发现,以便有效地与专家沟通,并迅速决定哪些患者的病情最为紧急。为了应对这些挑战,我们提出 (1) 一个具有最先进放射学报告摘要性能的模型,该模型使用 (2) 一种新的医学数据增强方法,以及 (3) 对模型局限性和放射学知识增益的分析。我们还提供了一个数据处理管道,用于在 MIMIC CXR 数据集上开发的未来模型。我们表现最好的模型是经过微调的 BERT-to-BERT 编码器-解码器,ROUGE-L F1 得分为 58.75/100,优于具有更复杂注意力机制的专用检查点。我们将在本文中探讨这些方面。