arXiv 论文列表

SustainDC -- 可持续数据中心控制基准测试

作者: Avisek Naug, Antonio Guillen, Ricardo Luna, Vineet Gundecha, Desik Rengarajan, Sahand Ghorbanpour, Sajad Mousavi, Ashwin Ramesh Babu, Dejan Markovikj, Lekhapriya D Kashyap, Soumyendu Sarkar

机器学习导致了计算需求的指数级增长，进而催生了庞大的数据中心，这些数据中心消耗大量能源并加剧气候变化。因此，可持续数据中心控制成为当务之急。本文介绍了 SustainDC，一套用于基准测试数据中心 (DC) 多智能体强化学习 (MARL) 算法的 Python 环境。SustainDC 支持自定义 DC 配置和任务，如工作负载调度、冷却优化和辅助电池管理，多个智能体管理这些操作，同时考虑彼此的影响。我们在 SustainDC 上评估了各种 MARL 算法，展示了它们在不同 DC 设计、位置、天气条件、电网碳强度和工作负载要求下的性能。我们的结果表明，使用 MARL 算法可以显著改善数据中心运营。鉴于人工智能对 DC 的使用日益增加，SustainDC 为开发和基准测试先进算法提供了重要平台，这些算法对于实现可持续计算和解决其他异构现实世界挑战至关重要。

发布时间: 10/8/2024

查看原文

Diff-PIC：利用扩散模型革新粒子模拟核聚变

作者: Chuan Liu, Chunshu Wu, Shihui Cao, Mingkai Chen, James Chenhao Liang, Ang Li, Michael Huang, Chuang Ren, Dongfang Liu, Ying Nian Wu, Tong Geng

人工智能的快速发展突显了对可持续能源的迫切需求，这是一个几十年来全球面临的重大挑战。核聚变通常被视为最终解决方案，近一个世纪以来一直是密集研究的焦点，投资已达数千亿美元。惯性约束聚变的最新进展引起了人们对聚变研究的极大关注，其中激光等离子体相互作用 (LPI) 对确保聚变稳定性和效率至关重要。然而，LPI 对聚变点火的复杂性使得分析方法变得不切实际，研究人员只能依靠计算量极大的粒子模拟 (PIC) 来生成数据，这给聚变研究的进步带来了巨大的瓶颈。为了应对这一挑战，本文介绍了 Diff-PIC，这是一个新颖的框架，它利用条件扩散模型作为 PIC 模拟的计算效率替代方案，用于生成高保真度的科学 LPI 数据。在这项工作中，PIC 模拟捕获的物理模式被提炼成与两种定制增强功能相关的扩散模型：(1) 为了有效地捕获物理参数与其对应结果之间的复杂关系，参数以物理信息的方式进行编码。(2) 为了在保持高保真度和物理有效性的同时进一步提高效率，采用修正流技术将我们的模型转换为一步条件扩散模型。实验结果表明，Diff-PIC 在 100 皮秒模拟中比传统 PIC 实现了 16,200 倍的加速，与其他两种最先进的数据生成方法相比，MAE/RMSE/FID 平均减少了 59.21%/57.15%/39.46%。

发布时间: 10/8/2024

查看原文

SANGRIA：用于手术工作流程预测的手术视频场景图优化

作者: \c{C}a\u{g}han K\"oksal, Ghazal Ghazaei, Felix Holm, Azade Farshad, Nassir Navab

基于图的整体场景表示有助于理解手术工作流程，并已在近期展现出显著的成功。然而，由于缺乏密集标注的手术场景数据，这项任务常常受到限制。在这项工作中，我们介绍了一个端到端的框架，用于在后续任务中生成和优化手术场景图。我们的方法利用了基于图的谱聚类的灵活性以及基础模型的泛化能力，以生成具有可学习属性的无监督场景图。我们利用连续帧之间的局部匹配，用稀疏的时间连接来增强初始空间图，从而预测跨时间邻域的时间一致性聚类。通过将动态场景图的时空关系和节点特征与后续的阶段分割任务联合优化，我们利用仅弱手术阶段标签来解决手术视频中语义场景理解和场景图生成这一成本高昂且标注繁重的任务。此外，通过在管道中加入有效的中间场景表示解耦步骤，我们的解决方案在 CATARACTS 数据集上的手术工作流程识别方面，比最先进的方法提高了 8% 的准确率和 10% 的 F1 分数。

发布时间: 10/8/2024

查看原文

基于状态空间变换的高效屏蔽合成

作者: Asger Horn Brorholt, Andreas Holck H{\o}eg-Petersen, Kim Guldstrand Larsen, Christian Schilling

我们研究了为控制系统合成安全策略（也称为防护罩）的问题。由于状态空间是无限的，防护罩通常是在有限状态抽象上计算的，最常见的抽象是矩形网格。然而，对于许多系统而言，这种网格并不能很好地与安全属性或系统动力学相匹配。这就是为什么粗网格很少足够，而精细网格通常在计算上不可行的原因。在本文中，我们表明适当的状态空间变换仍然允许使用粗网格，几乎没有计算开销。我们在三个案例研究中证明了我们的基于变换的合成比标准合成快几个数量级。在前两个案例研究中，我们使用领域知识来选择合适的变换。在第三个案例研究中，我们报告了在没有领域知识的情况下设计变换的结果。

发布时间: 10/8/2024

查看原文

动态问答：追踪语言模型中的内部知识冲突

作者: Sara Vera Marjanovi\'c, Haeun Yu, Pepa Atanasova, Maria Maistro, Christina Lioma, Isabelle Augenstein

知识密集型语言理解任务要求语言模型 (LM) 整合相关上下文，以缓解其固有的弱点，例如知识不完整或过时。然而，LM 的参数中可能存在相互冲突的知识，称为内存内冲突，这会影响模型接受上下文知识的倾向性。为了研究内存内冲突对 LM 接受相关上下文的能力的影响，我们利用了两种知识冲突度量方法和一个包含固有冲突数据的新数据集 DynamicQA。该数据集包含具有时间动态性质的事实，其中事实会随着时间的推移而改变，以及可争议的动态事实，这些事实会根据观点而改变。DynamicQA 是第一个包含现实世界知识冲突并提供上下文以研究不同类型的知识冲突之间联系的数据集。我们还评估了几种度量方法，以衡量它们反映内存内冲突存在的能力：语义熵和一种新颖的连贯说服分数。通过我们广泛的实验，我们验证了与具有单一真值的事实相比，LM 在动态事实中表现出更大程度的内存内冲突。此外，我们发现具有内存内冲突的事实更难用上下文更新，这表明检索增强生成将难以处理最常适应的事实。

发布时间: 10/8/2024

查看原文

基于事件相机的人眼瞳孔追踪框架

作者: Khadija Iddrisu, Waseem Shariff, Suzanne Little

眼跳是双眼同时发生的极快运动，通常发生在个体将注意力从一个物体转移到另一个物体时。这些运动是人类产生的最快的运动之一，并且有可能达到比眨眼速度更快的速度。在眼跳过程中，眼睛的峰值角速度在人类中可以高达 700 度/秒，尤其是在覆盖 25 度视角的较大型眼跳中。先前的研究表明，通过对眼跳的研究，在理解神经系统疾病方面取得了令人鼓舞的结果。眼跳检测中一个必要的步骤是准确识别眼球中瞳孔的精确位置，从该位置可以推断出诸如注视角度等其他信息。传统的基于帧的相机通常难以实现跟踪非常快速运动所需的较高时间精度，从而导致运动模糊和延迟问题。另一方面，事件相机提供了一种很有希望的替代方案，通过异步记录视觉场景的变化，提供高时间分辨率和低延迟。通过弥合传统计算机视觉和基于事件的视觉之间的差距，我们将事件表示为帧，这些帧可以被标准深度学习算法轻松利用。这种方法利用 YOLOv8（一种最先进的目标检测技术）来处理这些帧，以使用公开可用的 Ev-Eye 数据集进行瞳孔跟踪。实验结果证明了该框架的有效性，突出了其在神经科学、眼科和人机交互方面的潜在应用。

发布时间: 10/8/2024

查看原文

医学影像分析基础模型可信度综述

作者: Congzhen Shi, Ryan Rezai, Jiaxi Yang, Qi Dou, Xiaoxiao Li

基础模型在医学影像领域的快速发展代表着提高诊断准确性和个性化治疗的重大飞跃。然而，基础模型在医疗保健中的部署需要对其可信度进行严格审查，包括隐私、鲁棒性、可靠性、可解释性和公平性。目前关于医学影像中基础模型的调查文献表明存在相当大的差距，特别是在可信度方面。此外，现有关于基础模型可信度的调查没有充分解决其在医学影像领域内的特定变体和应用。本调查旨在通过呈现医学影像中使用的基础模型的新分类法并分析确保其可信度的关键动机来填补这一空白。我们回顾了当前关于基础模型在主要医学影像应用中的研究，重点关注分割、医学报告生成、医学问答（Q&A）和疾病诊断。这些领域之所以被重点关注，是因为与其他应用相比，它们已经看到了相对成熟且数量可观的基礎模型。我们关注讨论医学图像分析手稿中可信度的文献。我们探索了为每种应用构建可信基础模型的复杂挑战，总结了当前的担忧和提高可信度的策略。此外，我们还考察了这些模型革新患者护理的潜力。我们的分析强调了在医学图像分析中朝着可信 AI 发展的必要性，主张采取一种平衡的方法，既促进创新，又确保伦理和公平的医疗服务提供。

发布时间: 10/8/2024

查看原文

重注意力：有限注意力范围内的无训练无限上下文

作者: Xiaoran Liu, Ruixiao Li, Qipeng Guo, Zhigeng Liu, Yuerong Song, Kai Lv, Hang Yan, Linlin Li, Qun Liu, Xipeng Qiu

大型语言模型 (LLM) 的长上下文能力取得了重大突破，但最大支持上下文长度仍然是一个关键瓶颈，限制了它们的实际应用。LLM 中的上下文长度限制源于自注意力机制，该机制无法通过有限的预训练位置信息和注意力范围有效且高效地捕获无限长上下文中的语义关系。在这项工作中，我们提出了**ReAttention**，这是一种无训练方法，使基于自注意力机制的 LLM 能够在足够内存资源的情况下，以有限的注意力范围支持无限上下文。ReAttention 在普通位置感知自注意力之前执行位置无关的 top-$k$ 注意力，使 LLM 摆脱了长度外推问题。我们在 LongBench、L-Eval 和 InfiniteBench 上验证了 ReAttention 的性能，并证明它与传统方法相当。此外，我们还将 ReAttention 应用于主流 LLM，包括 LLaMA3.1-8B 和 Mistral-v0.3-7B，使它们能够支持至少 1M 的上下文长度，甚至在 Needle-In-A-Haystack 测试中将 LLaMA3.2-3B-chat 的上下文长度扩展 128 倍至 4M，而无需任何进一步的训练。我们还使用 Triton 提高了 ReAttention 的效率，并实现了高效的外推，而无需额外的开销。

发布时间: 10/8/2024

查看原文

Transformer 何时才能数到 n？

作者: Gilad Yehudai, Haim Kaplan, Asma Ghandeharioun, Mor Geva, Amir Globerson

基于Transformer架构的大型语言模型能够解决高度复杂的任务。但这些模型是否无法解决一些简单的任务呢？本文关注的是非常简单的计数任务，即统计词汇表中某个词语在一串文本中出现的次数。我们表明，如果Transformer状态的维度与上下文长度呈线性关系，则可以解决此任务。然而，我们提出的解决方案无法超越此限制，并且我们从理论上论证了为什么尺寸受限的Transformer可能无法实现此任务。我们的实证结果表明，与理论论证相符，性能出现了相同的相变。我们的结果表明，理解Transformer如何解决简单任务至关重要。

发布时间: 10/8/2024

查看原文

大型语言模型中的知识机制：综述与展望

作者: Mengru Wang, Yunzhi Yao, Ziwen Xu, Shuofei Qiao, Shumin Deng, Peng Wang, Xiang Chen, Jia-Chen Gu, Yong Jiang, Pengjun Xie, Fei Huang, Huajun Chen, Ningyu Zhang

理解大型语言模型 (LLM) 中的知识机制对于推动可信赖的通用人工智能 (AGI) 的发展至关重要。本文从一个新的分类法回顾了知识机制分析，包括知识利用和演化。知识利用深入探讨了记忆、理解、应用和创造机制。知识演化侧重于单个和群体 LLM 中知识的动态演变过程。此外，我们还讨论了 LLM 学习到的知识，参数化知识脆弱性的原因，以及可能难以解决的潜在的黑暗知识（假设）。我们希望这项工作能够帮助理解 LLM 中的知识，并为未来的研究提供见解。

发布时间: 10/8/2024

查看原文