arXiv:2504.07625v1 宣布类型:交叉
摘要:子季节到季节(S2S)时间尺度的预测--从两周到两个月不等--对于早期预警系统至关重要,但由于气候系统中的混沌性,这些预测仍然具有挑战性。遥相关,如平流层极地旋涡(SPV)和马登-朱利安振荡(MJO),提供了增强可预测性的窗口,然而,它们的复杂交互尚未在运营预报中得到充分利用。在这里,我们开发并评估了深度学习架构,用于预测北大西洋-欧洲(NAE)天气模式,系统地评估了远程驱动因素在提高深度学习模型S2S预报技能中的作用。我们实现了(1)基于先前模式预测未来六周NAE模式的长期短期记忆(LSTM)网络,(2)结合SPV和MJO指数的索引-LSTM,以及(3)使用视觉变换器(ViT)的LSTM,直接编码平流层风和热带向下长波辐射场。这些模型与运营后预测以及其他AI模型进行了比较。结果显示,利用遥相关信息可以在较长的预测时效上提高技能。值得注意的是,在两周后,ViT-LSTM比ECMWF的子季节后预测结果更佳,尤其是在斯堪的纳维亚阻塞(SB)和大西洋脊(AR)的预测上。对高置信度预测的分析表明,NAO-、SB和AR的机会预测可以与SPV的变异性以及MJO相位模式相联系,这些相位模式与已建立的路径相吻合,还揭示了新的模式。总体而言,我们的工作表明,编码物理有意义的气候场可以增强S2S预测技能,推动基于AI的子季节预报的发展。此外,实验还突出了深度学习方法作为调查工具的潜力,提供了对大气动力学和可预测性的新见解。
arXiv:2504.07624v1 通知类型: cross
摘要: 在 recent 过去,检索增强生成 (RAG) 获得了越来越多的关注,而大型语言模型 (LLMs) 的最新进展强调了将世界知识集成到这些系统中的重要性。当前的 RAG 方法论通常修改预训练语言模型 (PLMs) 的内部架构,或者依赖于知识图 (KGs) 的文本化,这种做法在 tokens 使用方面效率低下。本文介绍了一种名为 ConceptFormer 的新方法,该方法可以在不更改 LLM 的内部结构的情况下,利用 KGs,如 Wikidata,提供结构化知识,同时不需要依赖 KGs 的文本输入。ConceptFormer 在 LLM 的嵌入向量空间中运行,创建并注入封装 KG 节点信息的概念向量。它与冻结的 LLM 共同训练,生成一个完整的查找表,将 KG 节点映射到相应的概念向量。该方法旨在通过使 LLM 能够 natively 处理这些概念向量来增强其事实检索能力,从而以高效且可扩展的方式为它们增添结构化世界知识。我们的实验表明,将概念向量添加到 GPT-2 0.1B 在测试来自 Wikipedia 和合成生成句子时,其事实检索能力(Hit@10)分别提高了 272% 和 348%。即使在提示中仅注入一个概念向量,其在 Wikipedia 句子上的事实检索能力(Hit@10)也提高了 213%,这一性能显著优于使用图文本化的 RAG,同时使用的输入 tokens 只有其 1/130。
arXiv:2504.07603v1 Announce Type: cross
摘要:当前的自动驾驶算法高度依赖可见光谱,在雾、雨、雪、强光和高对比度等不良条件下容易出现性能下降。尽管近红外(NIR)和长波红外(LWIR)等其他光谱波段在这些情况下可以增强视觉感知,但它们也存在局限性,缺乏大规模数据集和基准。短波红外(SWIR)成像相比NIR和LWIR具有诸多优势。然而,目前尚无公开的大规模数据集包括SWIR数据用于自动驾驶。为解决这一问题,我们引入了RGB和SWIR多光谱驾驶(RASMD)数据集,该数据集包含100,000个多光谱对齐的RGB-SWIR图像对,这些图像对在不同的位置、光照和天气条件下同步采集。此外,我们还提供了一部分RGB-SWIR图像转换和物体检测标注,用于展示易行交通场景中SWIR成像的实用性,通过在物体检测和RGB到SWIR图像转换实验中进行演示。我们的实验表明,在集成框架中结合RGB和SWIR数据显著提高了检测准确性,特别是在可见光谱传感器表现不佳的情况下。我们预计,RASMD数据集将推动多光谱成像在自动驾驶和稳健感知系统中的研究。
arXiv:2504.07597v1 类别: 交叉学科
摘要: 在自主家庭机器人领域,机器人理解人类行为并提供适当服务的能力至关重要。这要求机器人具备分析复杂人类行为和预测人类真实意图的能力。传统上,人类被视为完美的,其决策被视为机器人应努力追求的标准。然而,这提出了一个相关的问题:如果人类犯错误怎么办?在本研究中,我们提出了一项独特的任务,称为“长期短期意图预测”。该任务要求机器人能够预测符合人类价值观的长期意图和反映即时行为意图的短期意图。同时,机器人需要检测短期和长期意图之间的潜在不一致,并提供必要的警告和建议。为了完成这一任务,我们提出了一种长期短期意图模型来表示复杂意图状态,并构建了一个数据集来训练该意图模型。然后,我们提出了一种两阶段方法来将意图模型应用于机器人:一是预测基于价值的长期意图和基于行动的短期意图;二是分析长期和短期意图的一致性。实验结果表明,提出的长期短期意图模型能够帮助机器人理解在长短期时间段内的人类行为模式,从而有助于确定人类长期和短期意图的一致性。
arXiv:2504.07574v1 宣布类型: cross
摘要:本研究探讨了人工智能辅助恶意软件分析的质量、速度和成本。它集中在2024-2025年的Linux和物联网恶意软件上,并使用了Radare2反汇编器的AI扩展r2ai。并非所有恶意软件和所有大语言模型都等效,但研究表明,使用Claude 3.5和3.7 Sonnet可以取得优秀结果。尽管存在一些错误,但在人工智能辅助下,分析的整体质量至少与没有人工智能辅助相当。为了取得良好结果,人工智能不能单独运行,必须不断由经验丰富的分析师指导。即使考虑到理解人工智能幻觉、夸大和遗漏所需的时间,人工智能辅助下的速度提升也非常明显。成本通常比恶意软件分析师的薪资要低,但在AI自然循环而不显示进展的情况下,需要注意和指导,以保持其控制。
arXiv:2504.07567v1 交叉类型: cross
摘要: 我们在电子商务中对基础模型的图像嵌入进行基准测试,评估其在实际应用中的适用性。我们的研究涵盖了通过监督学习、半监督学习和文本图像对比学习训练的预训练卷积和变换模型的嵌入。我们评估了六个多样化电子商务数据集上的全微调和迁移学习(顶端微调):时尚、消费品、汽车、食品和零售。结果显示,全微调通常表现优异,而文本图像和半监督嵌入在较少的训练下可以达到类似的表现。虽然监督嵌入在不同架构上保持稳定,但自监督和对比学习嵌入差异显著,常常可以从顶端微调中受益。顶端微调作为一种减少计算成本的高效替代方案浮现出来。我们还探讨了交叉微调,指出其影响取决于数据集的特性。我们的研究结果提供了嵌入选择和微调策略的实际指南,平衡了效率和性能。
arXiv:2504.07566v1 Announce Type: cross
摘要:表格数据生成近年来由于其不同的应用场景而日益受到关注。然而,生成序列化的表格数据仍然是一个未被充分探索的领域,其中每个序列元素依赖于其他元素。这一空白可能归因于解决不同问题的难度,主要问题是表格数据的异质性(这也常见于非时间依赖方法中)和时间序列的长度变化。在本文中,我们提出了一种基于扩散变压器(DiTs)的方法来生成表格数据序列。受到DiTs在图像和视频生成中的最近成功启发,我们扩展了此框架以处理异质数据和可变长度序列。通过对六个数据集进行广泛实验,我们展示了提出的方法在性能上明显优于之前的成果。
arXiv:2504.07562v1 Announce Type: cross
摘要:本文介绍了ReXCL工具,该工具自动化了需求工程中的提取和分类过程,从而增强了软件开发生命周期的效率。该工具具有两个主要模块:提取模块,该模块使用启发式方法和预测建模将原始需求文档转换为预定义的架构;分类模块,该模块使用基于编码器的模型的自适应微调为需求分配类别标签。最终输出可以导出到外部需求工程工具。性能评估表明,ReXCL在管理和处理需求方面显著提高了效率和准确性,标志着自动化半结构化需求文档架构化的一种新型方法。
arXiv:2504.07540v1 共识类型: cross
摘要:我们提出了一种名为\emph{梯度优化证明}(PoGO)的设计,用于区块链共识,其中矿工生成大规模机器学习模型训练的可验证证据。在之前工作的基础上,我们引入了\emph{量化梯度}(4位精度)以减少存储和计算需求,同时仍然保持验证者能够检查模型损失已成功降低的能力。此外,我们使用具有全32位模型的Merkle证明来处理大型参数集,并允许具有最少链上数据的随机叶节点检查。我们使用GPT-3(1750亿参数)作为参考示例,并提及较小但高性能的模型(例如具有270亿参数的\emph{Gemma~3})。我们提供了经验成本分析,显示验证的成本比训练显著低,部分归因于量化和采样。我们还讨论了在引入有意义的训练步骤时延长区块时间(可能是数小时)的必要性,使用专用GPU硬件时的权衡取舍,以及如何逐步优化更新。最后,我们指出微调可以以类似的方式处理,仅需更改数据集和采样的方式,但保持整体验证流程不变。我们的协议允许验证者发出\emph{正向}或\emph{负向}证明;这些在最终化时被聚合,以确认更新或处罚矿工。
arXiv:2504.07532v1 类型: cross
摘要:AI生成的文本正在各个领域泛滥,从创意写作和新闻报道到市场营销内容和科学文章。模型可以遵循用户提供的指令生成连贯且语法正确的输出,但在本文中,我们研究了一个更基本的问题:我们如何评估和提高AI生成文本的写作质量?写作质量评估在社区中得到了较少的关注,部分原因是它本质上是主观的,需要专业知识。我们首先通过合并五个写作偏好数据集,形成4,729份写作质量判断,引入了写作质量基准(WQ)。我们的实验表明,包括在推理任务上表现出色的最新一代语言模型在内的竞争基线仅略微优于随机基线的WQ。然后,我们训练了不同规模的专门用于写作质量评估的写作质量奖励模型(WQRM),这些模型在四个离分布测试集上展示了强大的泛化能力,并在WQ基准上的准确率为74%。为了进一步展示WQRM在推断过程中的实际益处,我们利用额外的测试时计算能力生成并排名多个候选修订版本,从而可以从初稿中选择更高质量的输出。9名经验丰富的写作者的人类评估证实,基于WQRM的选择产生了总体上66%由专家偏好的写作样本,当奖励差距超过1分时,这一比例为72.2%。我们发布了我们的数据集和模型,以鼓励社区参与写作质量评估,并开发更好地与人类偏好相一致的AI写作系统。