arXiv 论文列表

作者: Zhenyi Liao, Qingsong Xie, Yanhao Zhang, Zijian Kong, Haonan Lu, Zhenyu Yang, Zhijie Deng

arXiv:2504.00883v1 宣告类型: cross 摘要: 人们越来越关注增强多模态大型语言模型(MLLMs)的推理能力。作为在物理领域运行的人工智能代理的基础，基于视频的视觉空间智能(VSI)成为了MLLMs中最为关键的推理能力之一。本研究首次进行了一项深入研究，旨在通过R1-Zero-like训练提高MLLMs的视觉空间推理能力。技术上，我们首先发现，小到中型的Qwen2-VL模型无法通过思维链(CoT)提示激活其视觉空间推理能力。然后，我们通过GRPO训练结合精心编排的VSI-100k数据集，引入了用于改进视觉空间推理的方法，这遵循了DeepSeek-R1-Zero的方法。在研究过程中，我们确定即使是在小值的情况下，也需要保留KL惩罚项。仅使用120个GPU小时，从Qwen2-VL-2B微调而来的vsGRPO-2B模型相对于基础模型性能提高了12.1%，并且超越了GPT-4o。此外，从Qwen2-VL-7B微调而来的vsGRPO-7B模型在性能上达到了与开源模型LLaVA-NeXT-Video-72B相当的水平。另外，我们还将vsGRPO与监督微调和直接偏好优化基准进行了比较，并观察到了显著的优势性能。代码和数据集将在不久的将来发布。

发布时间: 4/2/2025

查看原文

CrackSQL: 由大型语言模型驱动的混合SQL方言翻译系统

作者: Wei Zhou, Yuyang Gao, Xuanhe Zhou, Guoliang Li

arXiv:2504.00882v1 Announce Type: 多方言摘要：方言翻译在跨异构数据库系统实现无缝交互中扮演着关键角色。然而，由于语法差异和细微的语义变化，不同方言之间（例如，从 PostgreSQL 到 MySQL）的 SQL 查询翻译仍然是一个具有挑战性的任务。现有的方法，包括手动重写、基于规则的系统和基于大型语言模型（LLM）的技术，往往涉及高维护努力（例如，制定定制的翻译规则）或产生不可靠的结果（例如，LLM 生成不存在的功能），尤其是在处理复杂查询时。在这次演示中，我们介绍了 CrackSQL，这是一种结合规则和基于LLM方法的首个混合 SQL 方言翻译系统，以克服这些限制。CrackSQL 利用 LLM 的适应性来减少手动干预，同时通过基于功能的查询处理对长且复杂的 SQL 进行分割，从而提高翻译准确性。为进一步提高鲁棒性，它引入了一种新颖的跨方言语法嵌入模型，用于精确的语法对齐，以及一种有效的解决相互依赖查询操作的自适应局部到全局翻译策略。CrackSQL 支持三种翻译模式，并提供多种部署和访问选项，包括 Web 控制台接口、PyPI 包和命令行提示，使得它能够在各种实际应用场景中得到采用。

发布时间: 4/2/2025

查看原文

m1: 通过大型语言模型在测试时间缩放 unleash 医学推理的潜力

作者: Xiaoke Huang, Juncheng Wu, Hui Liu, Xianfeng Tang, Yuyin Zhou

arXiv:2504.00869v1 Announce Type: cross 摘要：测试时缩放已成为提升大型语言模型推理能力的一种强大技术。然而，它在医学推理中的有效性仍不清楚，因为医学领域在知识表示和决策过程方面与数学任务存在本质上的差异。在本文中，我们提供了首个关于医学推理中的测试时缩放的全面调查，并提出了一种简单而有效的方法m1，该方法在推理时增强了模型的医学推理能力。我们在多种医学任务上的评估表明，测试时缩放能够持续提升医学推理能力，使轻量级的微调模型（参数少于10B）能够达到新的先进性能，而我们的32B模型能够与之前的70B规模的医学大型语言模型相媲美。然而，我们确定了一个大约4K的最优推理令牌预算，在此预算之外，性能可能会因过度思考而下降。预算约束，即通过迭代提示扩展测试时计算，有助于模型双重检查答案，但不一定能够提高整体医学问答性能，在某些情况下甚至会引入原本正确答案中的错误。我们逐案分析识别出缺乏医学知识是阻碍通过测试时缩放进一步提升性能的关键瓶颈。我们发现，增加数据规模、提高数据质量以及扩展模型容量能够一致地增强医学知识接地，从而实现持续的性能改进，尤其是在小型模型达到饱和的挑战性医学基准测试中。这些发现突显了LLMs中医学与数学推理之间的根本差异，强调了除了单纯的推理深度增加之外，丰富的医学知识对于实现测试时缩放的好处是必不可少的。

发布时间: 4/2/2025

查看原文

探究机器学习在识别英语语言数据中的偏见方面的能力和局限性——以信息和遗产专业人士为例

作者: Lucy Havens, Benjamin Bach, Melissa Terras, Beatrice Alex

arXiv:2504.00860v1 宣告类型：跨领域摘要：尽管已经作出了众多努力来减轻它们的偏见，机器学习系统仍然继续对已经处于不利地位的人群造成伤害。虽然主流的机器学习方法假设可以消除偏见并创建公平模型，但我们表明，并非总能做到这一点，也不是一个值得追求的目标。我们通过创建模型来识别偏见语言，重新定义机器学习偏见问题，将注意力集中在数据集的偏见上，而不是试图消除它们。然后，通过一个研讨会，我们评估了这些模型在特定用例中的效果：信息和文化遗产专业人士的工作流程。我们的发现表明，由于机器学习的上下文性质，识别偏见的限制，以及缓解偏见的方法可能同时惠及和压迫不同的社区，因此不可避免。我们展示了扩展机器学习方法以处理偏见和公平性的必要性，提供了一种混合方法来调查在特定机器学习用例中消除偏见或实现公平性的可行性。

发布时间: 4/2/2025

查看原文

探索适用于监控视频中暴力检测的个性化联邦学习架构

作者: Mohammad Kassir, Siba Haidar, Antoun Yaacoub

arXiv:2504.00857v1 类型: cross 摘要: 城市监控系统中检测暴力事件的挑战被大量多样化的视频数据所加剧。本文提出了一种针对性的方法，利用个性化联邦学习（PFL）来解决这些问题，具体来说是使用 Flower 框架内的 Federated Learning with Personalization Layers 方法。我们的方法通过适应每个监控节点的独特数据特性，有效地管理监控视频数据的异构性和非IID性质。通过在平衡和不平衡数据集上进行严格的实验，我们的 PFL 模型展示了更高的准确性和效率，最高准确率达到99.3%。本研究强调了 PFL 在显著提高监控系统可扩展性和有效性方面的潜力，提供了在复杂城市环境中检测暴力事件的 robust、隐私保护解决方案。

发布时间: 4/2/2025

查看原文

ReaLitE：知识图中数值字面量增强关系嵌入

作者: Antonis Klironomos, Baifan Zhou, Zhuoxun Zheng, Gad-Elrab Mohamed, Heiko Paulheim, Evgeny Kharlamov

arXiv:2504.00852v1 类型: cross 摘要: 大多数针对链接预测的知识图嵌入（KGE）方法集中于图中的实体和关系，而很少关注其他文本质数，这可能包含重要信息。因此，一些文本质数意识的KGE模型试图将数值整合到实体的嵌入中，或者在预处理过程中将这些数值转换为实体，导致信息丢失。其他关注创建关系特定数值特征的方法假设数值数据的完整性，而在实际图中并不适用。在这项工作中，我们提出了ReaLitE，这是一种新颖的关系为中心的KGE模型，它可以动态聚合和合并实体的数值属性与连接关系的嵌入。ReaLitE旨在补充现有的传统KGE方法，同时支持多种数值聚合变体，包括可学习的方法。我们使用几个基准测试对提出的以关系为中心的嵌入进行了全面评估，这些基准适用于链接预测和节点分类任务。结果显示，ReaLitE在这两项任务中都优于现有最先进的方法。

发布时间: 4/2/2025

查看原文

全局干预和蒸馏以实现联邦领域外泛化

作者: Zhuang Qi, Runhui Zhang, Lei Meng, Wei Wu, Yachong Zhang, Xiangxu Meng

arXiv:2504.00850v1 宣告类型: cross 摘要：联邦学习中的属性偏差会导致本地模型专注于学习非因果关联，从而引导它们朝着不一致的优化方向发展，这不可避免地导致性能下降和不稳定收敛。现有的方法通常利用数据增强来增强样本多样性，或采用知识蒸馏来学习不变表示。然而，生成数据质量的不稳定性以及缺乏领域信息限制了它们在未见过样本上的性能。为了解决这些问题，本文提出了一种全局干预和蒸馏方法，称为FedGID，该方法利用多样化的属性特征进行后门调整，以打破背景与标签之间的虚假关联。它包括两个主要模块：全局干预模块在图像中自适应地分解对象和背景，向随机样本注入背景信息以干预样本分布，使背景与所有类别相关联，从而防止模型将背景-标签关联视为因果关联。全局蒸馏模块利用统一的知识库来引导客户端模型的表现学习，防止本地模型过度拟合到特定于客户端的属性。在三个数据集上的实验结果表明，FedGID增强了模型在未见过数据中集中关注主要主题的能力，并在协作建模中优于现有方法。

发布时间: 4/2/2025

查看原文

基于上下文的人行为预测：挑战与见解利用多模态大规模语言模型

作者: Yuchen Liu, Lino Lerch, Luigi Palmieri, Andrey Rudenko, Sebastian Koch, Timo Ropinski, Marco Aiello

arXiv:2504.00839v1 交叉公告类型摘要：在共享环境中预测人类行为对于安全和高效的-human-robot 交互至关重要。传统的数据驱动方法在这种情况下预先在特定领域的数据集、活动类型和预测时长上进行了训练。相比之下，大型语言模型（LLMs）的近期突破为描述各种人类活动并在任何上下文中进行预测提供了开放式的跨领域通用性。特别是，多模态LLMs（MLLMs）能够整合来自各种来源的信息，实现更丰富的上下文感知和场景理解。直接将通用的MLLMs应用于预测的困难来自于它们处理大规模输入序列能力的限制、对提示设计的敏感性以及昂贵的微调过程。在本文中，我们提出了一种系统分析预先训练的MLLMs在上下文感知的人类行为预测中的应用。为此，我们引入了一种模块化的多模态人类活动预测框架，允许我们评估各种MLLMs、输入变化、In-Context Learning（ICL）和自回归技术。我们的评估表明，性能最好的框架配置能够在目标帧中达到92.8%的语义相似度和66.1%的精确标签准确性。

发布时间: 4/2/2025

查看原文

单一模态、跨模态和多模态视角下的音乐生成综述：数据、方法与挑战

作者: Shuyu Li, Shulei Ji, Zihao Wang, Songruoyao Wu, Jiaxing Yu, Kejun Zhang

arXiv:2504.00837v1 交叉通知类型：跨模态音乐生成摘要：多模态音乐生成，利用图像、视频、文本、乐谱和音频等多种模态作为指导，是一个具有广泛应用的新兴研究领域。本文回顾了该领域，从模态的角度分类音乐生成系统。涵盖了模态表示、多模态数据对齐及其在指导音乐生成中的应用。我们还讨论了当前的数据集和评估方法。该领域的关键挑战包括有效的多模态集成、大规模综合数据集和系统化的评估方法。最后，我们对未来研究方向的展望集中在多模态融合、对齐、数据和评估方面。

发布时间: 4/2/2025

查看原文

有条件的时间神经过程及协方差损失

作者: Boseon Yoo, Jiwoo Lee, Janghoon Ju, Seijun Chung, Soyeon Kim, Jaesik Choi

arXiv:2504.00794v1 类型: cross 摘要: 我们介绍了一种新的损失函数——协方差损失，它在概念上等同于条件神经过程，并且具有正则化形式，因此适用于许多类型的神经网络。借助提出的损失函数，输入变量到目标变量的映射不仅受到目标变量之间的依赖关系的影响，还受到输入变量和目标变量的均值激活及均值依赖关系的影响。这种特性使得由此产生的神经网络能够更稳健地应对噪声观察，并从先验信息中重新捕捉缺失的依赖关系。为了验证所提出的损失函数的有效性，我们在现实世界的数据集上进行了大量的实验，并与最先进的模型进行了比较，讨论了所提出的协方差损失的优点和缺点。

发布时间: 4/2/2025

查看原文