arXiv:2504.14248v1 通告类型: 新作
摘要:交通流量预测在智能交通系统中的交通管理和城市规划中发挥着重要作用。在这个领域中,已经取得了广泛的成功。然而,这些方法仅专注于建模流量转换,而忽略了流量生成过程,这种过程以两种方式表现出来:(i) 模型基于马尔可夫假设,忽略了节点中流量生成的多周期性。(ii) 设计了相同的结构来编码转换和生成过程,忽视了它们之间的差异。为了解决这些问题,我们提出了一种有效的多分支相似性变压器用于交通流量预测,即EMBSFormer。通过数据分析,我们发现影响交通流量的因素包括节点级的交通生成和图级的交通转换,分别描述了节点的多周期性和相互作用模式。具体而言,为了捕捉交通生成模式,我们提出了一种支持多分支编码的相似性分析模块,以动态扩展重要周期。对于交通转换,我们采用了时间和空间的自注意力机制来维护全局节点交互,并使用GNN和时间卷积分别建模局部节点交互。模型性能在三个现实世界的数据集上进行了评估,涵盖了长期和短期预测任务。实验结果表明,EMBSFormer在两项任务中均优于基线模型。此外,与基于流量转换建模的模型(如GMAN, 513k)相比,EMBSFormer的变体(93K)仅使用了18%的参数,实现了相同的效果。
arXiv:2504.14241v1 安全公告类型: 新
摘要: 车辆跟随模型(CFMs)是交通流分析和自动驾驶的基础。尽管校准的基于物理的和训练的数据驱动的CFMs能够复制人类驾驶行为,但它们对特定数据集的依赖限制了其在不同场景中的泛化能力,并降低了在实际部署中的可靠性。此外,这些模型通常专注于行为的准确性,而不支持对局部稳定性和链条稳定性进行明确的优化,而这些特性对于自动驾驶车辆 (AVs) 的安全高效运行越来越重要。为了应对这些局限性,我们提出了一种基于知识的深度学习(KIDL) 立场,该立场将预训练的大语言模型(LLMs)的一般泛化能力提炼到一个轻量级且具有稳定性的神经架构中。LLMs被用于提取超出特定数据集模式的基本车辆跟随知识,这些知识通过知识提炼被转移到一种可靠、可操作且计算效率高的模型中。KIDL还直接将稳定性约束整合到其训练目标中,确保生成的模型不仅能够模仿人类行为,还能够满足实际部署中自动驾驶车辆所必需的局部稳定性和链条稳定性要求。我们使用实际世界中的NGSIM和HighD数据集评估KIDL,并将其性能与代表性的基于物理的、数据驱动的和混合的CFMs进行比较。统计和理论结果一致地表明,KIDL在行为泛化和交通流稳定性方面表现更优,为下一代交通系统提供了一种稳健且可扩展的解决方案。
arXiv:2504.14239v1 ANNOUNCE 类型: 新
摘要: 多模态大型语言模型(MLLMs)已推动图形用户界面(GUI)代理的发展,并在自动化计算设备上的任务方面展现出潜力。近期的工作已经开始探索在GUI任务中的推理,并取得了令人鼓舞的结果。然而,许多当前的方法依赖于手工设计的推理模板,这可能导致对于复杂GUI环境的推理不够健壮和适应性强。同时,一些现有的代理仍然作为反应型行为者运行,主要依赖隐式的推理,这种推理可能在要求规划和错误恢复的GUI任务中缺乏足够的深度。我们认为,要推进这些代理的发展,需要从反应型行为转向基于深思熟虑的推理行为。为了促进这一转变,我们引入了InfiGUI-R1,这是一种通过我们的Actor2Reasoner框架开发的基于MLLM的GUI代理,该框架是一种以推理为中心、两阶段的训练方法,旨在逐步将代理从反应型行为者进化为深思熟虑的推理者。第一阶段,推理注入,侧重于建立一个基本的推理器。我们通过具有明确推理步骤的轨迹,使用空间推理蒸馏将教师模型的跨模态空间推理能力转移给MLLMs,从而使模型能够将GUI的视觉空间信息与逻辑推理结合起来,生成动作。第二阶段,推理增强,使用强化学习将基本的推理器细化为深思熟虑的推理器。这一阶段引入了两种方法:子目标引导,奖励模型生成准确的中间子目标,以及错误恢复场景构建,从识别出容易出错的步骤中创建失败和恢复的训练场景。实验结果表明,InfiGUI-R1在GUI接地和轨迹任务中表现出色。资源可在https://github.com/Reallm-Labs/InfiGUI-R1获取。
arXiv:2504.14232v1 宣传类型: 新
摘要:本研究评估了将布卢姆分类法整合到OneClickQuiz中,OneClickQuiz是一个基于人工智能(AI)的插件,用于自动化Moodle中的选择题(MCQ)生成。布卢姆分类法提供了一种结构化的框架,用于将教育目标按认知层次进行分类。我们的研究探讨了将此分类法整合到AI生成的问题中,是否能提高与特定认知目标的对齐度。我们开发了一个包含3691个问题的数据集,这些问题根据布卢姆等级进行了分类,并使用了多种分类模型——多项式逻辑回归、朴素贝叶斯、线性支持向量分类(SVC)以及基于变换器的模型(DistilBERT)来评估它们在分类问题方面的有效性。结果显示,较高的布卢姆等级通常与增加的问题长度、Flesch-Kincaid 年级水平(FKGL)和词密度(LD)相关联,反映出更高的认知需求复杂性。多项式逻辑回归在不同布卢姆等级上的准确度有所波动,对于“知识”等级表现最好,但对于较高层级则不那么准确。合并较高的类别提高了复杂认知任务的准确性。朴素贝叶斯和线性SVC在较低层级上也表现出有效的分类能力,但在较高层级任务上则难以应对。DistilBERT实现了最高的性能,显著提高了对较低和较高层级认知水平的分类能力,总体验证准确率为91%。本研究突显了将布卢姆分类法整合到AI驱动的评估工具中的潜力,并强调了如DistilBERT等先进模型在提高教育内容生成方面的优势。
arXiv:2504.14209v1 通告类型: 新
摘要:时间序列分析在天气预报、异常检测和医疗保健等领域找到了广泛的应用。然而,实际世界中的序列数据通常包含多种波动模式的叠加,包括小时、日和月的频率。传统的分解技术在有效从季节分量中分离出这些多重波动模式方面存在困难,使得时间序列分析变得具有挑战性。超越现有的多周期解耦范式,本文提出了一种基于时间频谱空间内能量分布的新视角。通过自适应地将观测序列量化到连续的频率区间,所提出的方法在不依赖特定领域先验知识的情况下重构了不同周期的波动模式。在此创新策略的基础上,我们提出了Pets增强架构,该架构适用于任意模型结构。Pets集成了一个波动模式辅助(FPA)模块和一个上下文引导的预测混合物(MoP)。FPA模块通过捕获不同波动模式之间的依赖性并在每一层渐进地建模这些模式作为潜在表示,促进了不同波动模式的信息融合。同时,MoP模块利用这些复合模式表示来引导和调节不同层次上独特波动的重构。Pets在预测、插补、异常检测和分类等各种任务上取得了最先进的性能,同时展现了强大的泛化能力和鲁棒性。
arXiv:2504.14191v1 宣告类型: 新
摘要: 大规模语言模型(LLMs)已经革新了人机互动,并在新颖想法的生成方面取得了显著成功。然而,目前对想法生成的评估忽视了一些关键因素,如LLMs的知识泄漏、缺乏与真实基准相关的开放式基准、以及受限于提示设计的可行性分析范围有限。这些限制阻碍了揭开突破性研究想法的潜力。在本文中,我们提出了AI Idea Bench 2025,这是一个框架,旨在从多个角度定量评估和比较AI研究领域中由LLMs生成的想法。该框架包括一个全面的3,495篇AI论文及其相关启发性工作的数据集,以及一套稳健的评估方法。该评估系统在两个维度上衡量想法质量:与原始论文的真实内容的一致性以及基于一般参考材料的判断。AI Idea Bench 2025的基准系统将成为评估和比较想法生成技术的宝贵资源,从而促进科学发现的自动化。
arXiv:2504.14177v1 宣告类型: 新
摘要: 在线AI反馈(OAIF)通过利用在线AI偏好来对齐语言模型(LLMs),为人类反馈强化学习(RLHF)提供了有前途的替代方案。然而,将人类直接替换为AI剥夺了LLMs从二元信号之外获得更多精细的AI监督的机会。在本文中,我们提出了直接优势回归(DAR),这是一种使用在线AI奖励通过加权监督微调来优化策略改进的简单对齐算法。作为一种无需强化学习的方法,DAR 保持了与在线RLHF管道的理论一致性,同时显著降低了实现复杂度并提高学习效率。我们的实验证明,AI奖励是一种始终优于AI偏好的更好的AI监督形式,能够实现更高的人类-AI一致性。此外,使用GPT-4-Turbo和MT-bench的评估表明,DAR 在与OAIF和在线RLHF基线的比较中表现更优。
arXiv:2504.14171v1 通知类型: 新
摘要: 多模态假新闻检测在打击在线 misinformation 方面起着关键作用。不幸的是,有效的检测方法依赖于标注标签,在训练数据(源数据)和测试数据(目标数据)之间的领域转移存在时,会遇到显著的性能退化。为了解决这些问题,我们提出了 ADOSE,一种用于多模态假新闻检测的主动领域适应(ADA)框架,该框架主动标注目标样本的一小部分以提高检测性能。为了在跨域设置中识别各种欺骗模式,我们设计了多个专家分类器以学习不同模态之间的依赖关系。这些分类器专门针对假新闻中展示的独特欺骗模式,其中两个单模态分类器捕获各个模态内的知识错误,而一个跨模态分类器识别文本和图像之间的语义不一致。为了减少来自目标域的标注成本,我们提出了一种最少不同意的不确定性选择器和多样性计算器,用于选择最具有信息量的样本。选择器利用多个分类器在扰动前后预测的分歧作为不确定样本的指标,这些样本的欺骗模式与原域偏离最大。进一步整合来自多视图特征的多样性评分,以确保所选样本实现目标域特征的最大覆盖。在多个数据集上的广泛实验表明,ADOSE 在现有 ADA 方法上表现出 2.72%~14.02% 的优势,表明了我们模型的优越性。
arXiv:2504.14128v1 通告类型: 新
摘要: 推理是使大语言模型(LLMs)能够与世界互动的一项基本技能。随着任务变得越来越复杂,它们需要越来越复杂和多样的推理能力来进行序列决策,这要求对上下文历史进行结构化推理以确定下一个最佳行动。我们介绍了TALES,这是一个多样化的合成和人工撰写的文字冒险游戏集合,旨在挑战和评估多样的推理能力。我们展示了多种大语言模型(包括开源和封闭权重)的结果,并对表现最佳的模型进行了定性分析。尽管在合成游戏中表现出色,但即使表现最好的LLM驱动代理在设计供人类娱乐的游戏中的得分也未能达到15%。有关实验的代码和可视化可以在https://microsoft.github.io/tales找到。
arXiv:2504.14126v1 宣布类型: 新
摘要: 确定深度学习模型的最佳架构,如层数和神经元数量,是一个困难且资源密集的过程,通常依赖于人工调优或计算成本高昂的优化方法。虽然粒子群优化(PSO)和大型语言模型(LLMs)已在优化和深度学习中分别应用,但它们结合用于增强数值优化任务中的收敛性仍处于未充分探索的状态。我们的工作通过将LLMs整合到PSO中来填补这一空白,以减少模型评估次数并改善深度学习超参数调优的收敛性。所提出的方法通过使用LLMs(特别是ChatGPT-3.5和Llama3)来改善PSO性能,从而提高目标目标实现速度。该方法通过用LLMs提供的最佳建议替换表现不佳的粒子位置来加速搜索空间探索。在三种场景下进行了广泛的实验——(1)优化Rastrigin函数,(2)使用长短时记忆(LSTM)网络进行时间序列回归,(3)使用卷积神经网络(CNN)进行材料分类——显示该方法显著提高了收敛速率并降低了计算成本。与传统PSO方法相比,根据不同应用,计算复杂度降低了20%到60%。对于回归任务,Llama3实现了20%到40%的模型调用减少,而ChatGPT-3.5在回归和分类任务中分别实现了60%的模型调用减少,同时保持了准确性和错误率。这一开创性方法提供了一种非常高效且有效的深度学习模型优化解决方案,广泛应用于各种应用中,带来了显著的计算性能提升。