arXiv 论文列表

作者: Sarah Al-Shareeda, Fusun Ozguner, Keith Redmill, Trung Q. Duong, Berk Canberk

arXiv:2502.03403v1 类型:交叉领域摘要：在6G车辆网络中，任务卸载管理对于保持网络效率至关重要，尤其是在车辆生成大量数据的情况下。通过认证实现安全通信会增加额外的计算和通信开销，显著影响卸载效率和延迟。本文提出了一种统一框架，将轻量级身份基加密（IBC）认证整合到基于云的6G车辆孪生网络（VTNs）中的任务卸载中。利用深度强化学习（DRL）中的邻近策略优化（PPO），我们的方法优化了认证的卸载决策，以最小化延迟并增强资源分配。在不同网络规模、任务规模和数据速率下的性能评估表明，由于附加开销的影响，IBC认证可以将卸载效率最多降低50%。此外，网络规模和任务规模的增加还可以将卸载效率最多降低91.7%。作为应对措施，增加传输数据速率可以即使在存在认证开销的情况下，也将卸载性能提高多达63%。本文中模拟和实验所用的代码已在GitHub上提供，以供进一步参考和可重复性使用 [1]。

发布时间: 2/6/2025

查看原文

SPRI: 依据情境原则对准大型语言模型

作者: Hongli Zhan, Muneeza Azmat, Raya Horesh, Junyi Jessy Li, Mikhail Yurochkin

arXiv:2502.03397v1 宣告类型: cross 摘要: 将大型语言模型与人类价值观相结合并在任务中反映这些价值观，尤其是在需要精细的人类监督的任务中，是一项艰巨的任务，因为依赖人类专业知识来提供上下文相关的指导资源密集且耗时。以往的工作利用预定义的规则集或原则来引导模型的行为（Bai et al., 2022；Sun et al., 2023）。然而，这些原则往往是通用的，使其难以适应每个单独的输入查询或上下文。在本文中，我们提出了现场原则 (Situated-PRInciples，简称SPRI) 体系结构，这是一种设计用于自动实时为每个输入查询生成引导原则，并利用这些原则来使每个响应保持一致的方法。我们评估了SPRI在三个任务上的表现，并展示了以下几点：1) SPRI可以在复杂的领域特定任务中导出原则，其性能与专家手工制作的原则相当；2) SPRI生成的原则导致了实例特定的标准，这些标准优于以往的LLM作为裁判的框架；3) 使用SPRI生成合成的SFT数据可以显著提高真实性。我们已在https://github.com/honglizhan/SPRI-public发布了我们的代码和模型生成。

发布时间: 2/6/2025

查看原文

准确的AI驱动的急救车辆位置跟踪在医疗ITS数字双胞胎中

作者: Sarah Al-Shareeda, Yasar Celik, Bilge Bilgili, Ahmed Al-Dubai, Berk Canberk

arXiv:2502.03396v1 类型: cross 摘要：创建医疗智能交通系统（HITS）的数字孪生（DT）是当前的研究热点，重点关注增强HITS的管理，尤其是在紧急情况下，救护车必须按时到达事故现场，实时跟踪其位置对于医疗当局至关重要。尽管声称能够实时表示，物理域和虚拟域之间仍然存在时间上的不一致，导致救护车位置表示的不一致。本研究提出在构建的模拟DT数据管道框架中集成AI预测模型，特别是支持向量回归（SVR）和深度神经网络（DNN），以预测虚拟世界中医疗车辆的下一个位置。这些模型将虚拟表示与物理对应物对齐，即在两个世界之间 metaphorically 调整同步延迟。SVR和DNN在历史地理空间数据集上精心训练，在MATLAB和Python环境中显示出卓越的预测准确性。通过各种测试场景，我们视觉地展示了该方法的有效性，展示了SVR和DNN在显著减少HITS的DT中观测到的差距方面扮演的关键角色。这种变革性的方法通过约88%到93%的程度提高了紧急HITS的实时同步。

发布时间: 2/6/2025

查看原文

在实际应用中，从统计技术到基础模型的时间序列 Forecasting 模型benchmarking

作者: Issar Arab, Rodrigo Benitez

arXiv:2502.03395v1 Announce Type: 横向摘要：时间序列预测对于酒店行业的运营智能至关重要，尤其是在大规模分布式系统中具有极高的挑战性。本研究评估了统计方法、机器学习（ML）、深度学习和基础模型在使用德国数千家餐馆的实时数据进行未来14天每小时销售预测时的表现。预测解决方案包括天气条件、节假日事件和时间模式等特征。结果表明基于机器学习的元模型具有强大的性能，并强调了Chronos和TimesFM等基础模型的新兴潜力，这些模型在几乎无需特征工程的情况下实现了竞争力的性能，仅利用预训练模型（零样本推理）。此外，混合的PySpark-Pandas方法证明是一种稳健的解决方案，用于实现大规模部署中的水平可扩展性。

发布时间: 2/6/2025

查看原文

LIMO: 少就是多的推理

作者: Yixin Ye, Zhen Huang, Yang Xiao, Ethan Chern, Shijie Xia, Pengfei Liu

arXiv:2502.03387v1 类型: cross 摘要: 我们提出了一项基本发现，挑战了我们对大型语言模型中复杂推理如何产生这一理解。虽然普遍认为复杂的推理任务需要大量的训练数据（>100,000 个示例），但我们证明，复杂的数学推理能力可以用令人惊讶地少量示例有效激发。通过全面的实验，我们提出的模型 LIMO 在数学推理中展示了前所未有的性能。仅使用 817 个精挑细选的训练样本，LIMO 在 AIME 中达到 57.1% 的准确率，在 MATH 中达到 94.8%，在先前基于 SFT 的模型的 6.5% 和 59.2% 的基础上有所提高，同时仅使用之前方法所需训练数据的 1%。LIMO 在分布外泛化方面表现出色，在 10 个不同的基准测试中实现了 40.5% 的绝对改进，超过了在 100 倍更多数据上训练的模型，挑战了 SFT 导致记忆而不是泛化的观点。基于这些结果，我们提出了“少即多推理假设”（LIMO 假设）：在基础模型中，在预训练过程中全面编码了领域知识的情况下，复杂的推理能力可以通过最少但精确编排的认知过程展示来产生。该假设认为，复杂推理的激发阈值由两个关键因素决定：(1) 预训练期间模型编码知识基础的完整性，以及 (2) 预训练后示例作为“认知模板”的有效性，这些示例展示了模型如何利用其知识库解决复杂的推理任务。为了促进高效推理的可重复性和未来研究，我们以开源套件的形式发布了 LIMO，可以在 https://github.com/GAIR-NLP/LIMO 上获得。

发布时间: 2/6/2025

查看原文

变压器及其作为时间序列基础模型的作用

作者: Dennis Wu, Yihan He, Yuan Cao, Jianqing Fan, Han Liu

arXiv:2502.03383v1 类型: cross 摘要: 我们全面分析了transformers作为时间序列基础模型的能力，重点关注其逼近能力和泛化能力。首先，我们证明存在通过梯度下降拟合输入单变量时间序列的自回归模型的transformers。然后，我们分析了MOIRAI这种多变量时间序列基础模型，它可以处理任意数量的协变量。我们证明了它有能力自动拟合任意数量协变量的自回归模型，这为它的设计和实证成功提供了见解。对于泛化，我们建立了当数据满足Dobrushin条件时预训练的边界。实验支持我们理论发现的结果，突出了transformers作为时间序列基础模型的有效性。

发布时间: 2/6/2025

查看原文

一种束眼视图下的fluence maps 3D网络及其在超快VMAT放射治疗计划中的应用

作者: Simon Arberet, Florin C. Ghesu, Riqiang Gao, Martin Kraus, Jonathan Sackett, Esa Kuusela, Ali Kamen

arXiv:2502.03360v1 交叉公告类型摘要：容积调强弧治疗（VMAT）通过精确输送辐射同时保护健康组织而革新了癌症治疗。VMAT计划中的剂量分布图生成传统上涉及复杂且迭代的过程，从而耗时。这些剂量分布图随后用于叶片序列的生成。本文中提出的一种深度学习方法旨在通过直接从患者数据预测剂量分布图来加速这一过程。我们开发了一个3D网络，并通过结合L1和L2损失以及对Eclipse和REQUITE数据集生成的RT计划进行监督训练，使用RT剂量图作为输入，使用相应的RT计划计算的剂量分布图作为目标。我们的网络同时预测对应于单弧VMAT计划180个控制点（CP）的180个剂量分布图。为了帮助网络，我们通过计算3D剂量图在180个CP的束视图（BEV）投影，将输入剂量预处理到与剂量分布图相同的坐标系统中。我们使用Eclipse生成了超过2000个VMAT计划以扩展数据集规模。此外，我们评估了不同的网络架构并分析了增加数据集规模的影响。我们在2D剂量分布图域使用图像指标（PSNR，SSIM）和3D剂量域使用剂量体积直方图（DVH）评估了网络性能。网络推理，不包括数据加载和处理，耗时不到20ms。利用我们提议的3D网络架构以及使用Eclipse增加数据集规模，相比原始REQUITE数据集上训练的U-Net架构，PSNR方面的剂量分布图重建性能提高了大约8 dB。生成的DVHs与输入目标剂量非常接近。

发布时间: 2/6/2025

查看原文

GHOST：高斯假设开放集技术

作者: Ryan Rabinowitz, Steve Cruz, Manuel G\"unther, Terrance E. Boult

arXiv:2502.03359v1 Announce Type: cross 摘要：大规模识别方法的评估通常侧重于总体性能。虽然这种方法常见，但它往往无法提供对各个类别的性能见解，这可能导致公平问题和误导性表示。解决这些差距对于准确评估方法如何处理新见或未见过的类至关重要，并确保公平评估。为了在开集识别（OSR）中解决公平性问题，我们证明了类别性能可以有显著差异。我们引入了高斯假设开集技术（GHOST），这是一种新的无需超参数的算法，通过使用具有对角协方差矩阵的类别别相关的多元高斯分布来建模深层特征。我们对对数几率应用Z分数归一化，以减轻特征幅度与模型预期相偏离的影响，从而降低网络将高分数分配给未知样本的可能性。我们在多个预训练的ImageNet-1K深层网络上评估了GHOST，并使用四个不同的未知数据集进行了测试。使用标准指标如AUOSCR、AUC和FPR95，我们实现了统计上显著的改进，推动了大规模OSR的最前沿。提供在线代码。

发布时间: 2/6/2025

查看原文

自玩催生稳健自主性

作者: Marco Cusumano-Towner, David Hafner, Alex Hertzberg, Brody Huval, Aleksei Petrenko, Eugene Vinitsky, Erik Wijmans, Taylor Killian, Stuart Bowers, Ozan Sener, Philipp Kr\"ahenb\"uhl, Vladlen Koltun

arXiv:2502.03349v1 宣告类型：交叉摘要：自我对弈在两人游戏和多人游戏中推动了突破性进展。在这里，我们展示了自我对弈在另一个领域的惊人有效性。我们展示了在前所未有的规模下——相当于16亿公里的驾驶路程——真实的和自然化的驾驶行为完全通过模拟中的自我对弈生成。这得益于一种名为Gigaflow的批处理模拟器，该模拟器能够在单个8-GPU节点上每小时合成和训练42年的主观驾驶经验。由此产生的策略在三个独立的自动驾驶基准测试中达到了最先进的性能。在测试中，当评估记录的现实世界场景并与真人驾驶者共存时，该策略表现优于之前的最先进的技术，而训练过程中从未见过人类数据。当评估人类参考时，该策略显得真实，并且展现了前所未有的鲁棒性，在模拟中平均连续驾驶17.5年才会发生一次意外。

发布时间: 2/6/2025

查看原文

概率图形模型中自适应变分推断：超越贝叶斯、树重标识和凸自由能

作者: Harald Leisenberger, Franz Pernkopf

arXiv:2502.03341v1 类型: 横向研究摘要: 在概率图形模型中的变分推断旨在近似边缘分布和分区函数等基本量。流行的方法包括贝叶斯近似、树重分配以及其他类型的凸自由能。这些近似方法高效但可能会在模型复杂且高度交互时失效。在这项工作中，我们分析了两种近似方法，它们包括上述方法作为特殊情况：首先，如果模型参数发生变化；其次，如果熵近似发生变化。我们讨论了这两种方法的优点和缺点，并根据这一分析推导出自由能近似应该如何理想地构建。基于我们的观察，我们提出了能够自动适应给定模型的近似方法，并展示了它们在一系列困难问题上的有效性。

发布时间: 2/6/2025

查看原文