arXiv:2503.20074v1 类型: cross
摘要:生成AI工作负载的激增创造了一个需求,即需要一种灵活的推理系统,能够在包含GPU和专用加速器的同时控制运营成本。本文提出了一种硬件无关的控制循环,根据实时的成本和容量信号,在异构加速器之间适配地分配请求。该方法通过动态在成本优化模式和容量优化模式之间切换,保持低延迟和高吞吐量,确保在资源可用性波动时高效利用昂贵的计算资源。使用Stable Diffusion模型进行评估,该框架始终满足延迟目标,在容量不足时自动重定向流量,并在可能的情况下利用低成本的加速器。这些结果突显了如何通过跨整个软件和硬件堆栈的反馈驱动部署策略,帮助组织更高效地扩展生成AI工作负载,同时在加速器容量有限的情况下保持系统韧性。
arXiv:2503.20036v1 交叉类型:cross
摘要:重现游戏bug,特别是像Minecraft这样的不断进化的游戏中的崩溃bug,是一个众所周知的、手动的、耗时的、具有挑战性的自动化过程。尽管基于LLM的bug重现已经在其他软件领域取得了成功,但由于游戏具有复杂的交互环境,它们仍然被很大程度上忽视。本文介绍了一种名为BugCraft的新颖端到端框架,旨在直接从用户提交的bug报告中自动化重现Minecraft中的崩溃bug,填补了自动化游戏bug重现的关键缺口。BugCraft采用两阶段方法:首先,Step Synthesizer利用LLM和Minecraft Wiki的知识,将bug报告转换为高质量的结构化步骤以重现(S2R)。其次,由基于视觉的LLM代理(GPT-4o)和自定义宏API提供支持的动作模型,在Minecraft中执行这些S2R步骤以触发报告的崩溃。为了便于评估,我们引入了BugCraft-Bench,这是一个精心策划的Minecraft崩溃bug报告数据集。在BugCraft-Bench上的评估表明,我们的框架成功地端到端地重现了30.23%的崩溃bug。Step Synthesizer在生成正确的bug重现计划方面的准确率为66.28%,突显了其在解释和结构化bug报告信息方面的有效性。BugCraft展示了使用LLM在复杂游戏环境中自动化重现崩溃bug的可行性,为游戏测试和开发开启了有希望的道路。该框架和BugCraft-Bench数据集为未来在自动化游戏bug分析方面的研究铺平了道路,并有可能泛化到其他交互式游戏平台。最后,我们在https://bugcraft2025.github.io/开源了我们的代码。
arXiv:2503.20018v1 宣告类型: cross
摘要: 在通过反向传播训练的深度神经网络中持续学习的一个主要挑战是这些神经网络逐渐失去适应新任务的能力,并且与它们的重新初始化版本相比表现明显较差。本文的主要贡献是提出一个新的假设:经验重放解决了持续学习中塑性丧失的问题。在这里,经验重放是一种形式的记忆。我们提供了支持这一假设的证据。特别是,在回归、分类和策略评估等多种不同的任务中,我们通过简单地添加经验重放,并使用变换器处理经验重放中的数据,可以消除塑性丧失。值得注意的是,我们在深度学习的标准组件上并没有进行任何修改。例如,我们没有改变反向传播的方法,没有修改激活函数,也没有使用任何正则化方法。我们认为,经验重放和变换器能够解决塑性丧失问题,这是因为存在上下文学习的现象。
arXiv:2503.19988v1 Announce Type: cross
摘要:将自然语言问题转换为结构化查询需要精确的推理。虽然大型语言模型(LLMs)在许多推理任务中表现出色,但在文本到SQL(Text-to-SQL)任务中利用链式思维(Chain-of-Thought, CoT)推理的能力仍然未得到充分利用。我们识别出关键的限制:零样本CoT带来的增益微乎其微,而不结合CoT应用直接偏好优化(DPO)仅带来边际改进。我们提出了ExCoT,这是一种新颖的框架,通过将CoT推理与离策略和在策略的DPO相结合,迭代优化开源LLMs,仅依赖于执行准确度作为反馈。这种方法消除了对奖励模型或人工标注偏好数据的需要。
我们的实验结果表明显著的性能提升:ExCoT将LLaMA-3 70B在BIRD dev集上的执行准确度从57.37%提高到68.51%,以及在Spider test集上的准确度从78.81%提高到86.59%。Qwen-2.5-Coder模型在这些改进方面也表现出相似的结果。我们的最佳模型在BIRD和Spider数据集的单模型设置中均达到了最先进的性能,在BIRD test集上达到了68.53%的准确度。
arXiv:2503.19951v1 交叉公告类型:跨领域
摘要:音频通常在音频-视觉大型语言模型(LLMs)的视频理解任务中充当辅助模态,仅辅助理解视觉信息。然而,深入理解视频显著依赖于听觉信息,因为音频提供了视觉数据自身往往缺乏的关键背景信息、情感线索和语义意义。本文提出了一种以音频为中心的视频理解基准测试(ACVUBench),以评估多模态LLMs的视频理解能力,特别是侧重于听觉信息。具体而言,ACVUBench 包含了涵盖 18 个不同领域的 2,662 个视频,这些视频富含丰富的听觉信息,并伴有超过 13,000 个高质量的人工标注或验证的问答对。此外,ACVUBench 引入了一系列精心设计的以音频为中心的任务,全面测试了视频中音频内容和音频-视觉交互的理解能力。在开源和专有多模态LLMs的广泛范围内进行了彻底的评估,并对音频-视觉LLMs的不足进行了分析。可以在https://github.com/lark-png/ACVUBench 获取演示。
arXiv:2503.19950v1 Announce Type: cross
摘要:我们引入了LogQuant,这是一种针对大规模语言模型(LLM)推理中KV缓存的突破性2位量化技术,能够在大幅节省内存的同时保持出色的性能。先前的方法要么假设后续的令牌更重要,要么试图根据早期注意力模式来预测重要令牌。然而,这两种方法都可能导致性能瓶颈或频繁的误预测。
LogQuant采取了不同的方法。通过应用基于对数的过滤机制,它在整个上下文中选择性地压缩KV缓存,从而在与现有方法相同甚至减少内存占用的情况下实现更好的性能。基准测试结果显示,它在不增加内存消耗的情况下将吞吐量提高25%,并将批处理大小提高60%。对于诸如数学和代码完成等挑战性任务,LogQuant在相同压缩比的情况下提高了40%到200%的准确性,超过了同类技术。LogQuant能无缝集成到如Python的transformers库等流行的推理框架中。实现代码可从https://github.com/Concyclics/LogQuantKV获取。
arXiv:2503.19948v1 交叉公告类型
摘要:视觉语言模型(VLMs)能否有效捕捉人类的视觉偏好?本研究通过在测试时让VLMs思考偏好,并采用受到DeepSeek R1和OpenAI O1启发的强化学习方法来应对这一问题。利用如ImageReward和Human Preference Score v2(HPSv2)等数据集,我们的模型在ImageReward测试集(使用ImageReward官方划分进行训练)上的准确率为64.9%,在HPSv2上的准确率为65.4%(训练数据约占其数据量的25%)。这些结果与传统的基于编码器的模型相匹配,但提供了透明的推理和更强的泛化能力。这种方法不仅允许使用丰富的VLM世界知识,还能利用其潜在的思考能力,产生可解释的结果,帮助决策过程。通过证明当前VLMs可以合理地捕捉人类视觉偏好,我们引入了高效柔性奖励策略,用于图像排序,在图像排名上优于简单的选择或评分方法。这种推理能力使VLMs能够对任意图像进行排名——无论其纵横比或复杂性如何——从而可能增强视觉偏好优化的有效性。通过减少对大量标注的需求,同时提高奖励泛化能力和可解释性,我们的发现可以成为进一步增强文本到视觉模型的重要里程碑。
arXiv:2503.19947v1 Announce Type: cross
摘要:对广义度量深度的理解对于精确的视觉引导机器人技术至关重要,当前最先进的(SOTA)视觉编码器并不支持这一点。为了解决这一问题,我们提出了消失深度(Vanishing Depth)这一自监督训练方法,该方法将预训练的RGB编码器扩展到可以整合和对齐度量深度特征嵌入中。基于我们新颖的位置深度编码,我们实现了稳定的深度密度和深度分布不变的特征提取。我们在一系列相关的RGBD下游任务中实现了性能改进和SOTA结果,而无需对编码器进行微调。尤为显著的是,我们在SUN-RGBD分割中实现了56.05的mIoU,在Void的深度完成中实现了88.3的RMSE,在NYUv2场景分类中实现了83.8的Top 1准确率。在6D物体姿态估计中,我们超越了DinoV2、EVA-02和Omnivore的 predecessor,并在多个相关RGBD下游任务中实现了未微调编码器的SOTA结果。
arXiv:2503.19945v1 类型: cross
摘要:本研究探讨了在乳腺癌检测中将机器学习应用于乳腺X光片时存在的开放问题。当前的方法通常采用两阶段的迁移学习过程:首先,将一个在自然图像上训练的骨干模型调整为区域分类器,然后使用该区域分类器创建单一视角的整体图像分类器。此外,许多研究还利用了乳腺X光片的两个视角来提高模型的性能。在这项工作中,我们系统地探讨了五个关键问题:(1)中间的区域分类器对于最优性能是否是必不可少的?(2)在自然图像分类方面表现优异的骨干模型是否总是在乳腺X光片上表现出色?(3)在减少乳腺X光片分辨率以供GPU处理时,学习调整大小的技术是否比传统方法更优?(4)在两视角分类器中加入两个乳腺X光片视角是否能显著提高检测准确性?(5)当分析低质量与高质量乳腺X光片时,这些发现如何变化?通过解答这些问题,我们开发了优于此前结果的单一视角和两视角分类器模型。我们的研究结果提供了关于模型架构和迁移学习策略的见解,这些见解有助于更准确、更高效的乳腺X光片分析。
arXiv:2503.19943v1 宣告类型: cross
摘要: 研究区域:德国下萨克森州的克洛斯特罗伊特尔和哥特林根。研究重点:2017年7月,克洛斯特罗伊特尔和哥特林根经历了严重的洪水事件,预警时间仅有20分钟,导致广泛的区域 flooding 和重大损害。这突显了更可靠和及时的洪水预报系统的需求。本文对雷达降水数据对克洛斯特罗伊特尔河流水位预报的影响进行了全面研究,同时还探讨了降水如何影响哥特林根的水位预报。分析将雷达推导出的空间时间降水模式与地面站获取的水文传感器数据结合起来,以评估该方法在提高洪水预测能力方面的有效性。该地区的新的水文见解:本文的一个关键创新在于使用基于残差的建模方法来解决降水图像与水位之间的非线性关系,从而形成了一个基于雷达的时空降水模型及其残差 (STRPMr)。与传统的水文学模型不同,我们的方法不依赖于上游数据,使其独立于额外的水文学输入。这种独立性增强了其适应性,并使其在其他配备有RADOLAN降水数据的地区具有更广泛的适用性。深度学习架构结合了(2+1)D 卷积神经网络进行空间和时间特征提取,以及LSTM进行时间序列预测。结果表明,STRPMr在捕捉极端事件和更准确的洪水预报方面具有潜在的应用价值。