arXiv 论文列表

用大型语言模型重塑科学：AI辅助的科学发现、实验、内容生成和评估综述

作者: Steffen Eger, Yong Cao, Jennifer D'Souza, Andreas Geiger, Christian Greisinger, Stephanie Gross, Yufang Hou, Brigitte Krenn, Anne Lauscher, Yizhi Li, Chenghua Lin, Nafise Sadat Moosavi, Wei Zhao, Tristan Miller

arXiv:2502.05151v1 种类:交叉学科摘要：随着大型多模态语言模型的发展，科学正处于基于人工智能的技术革新门槛。最近，提出了众多新的AI模型和工具，承诺能够增强全球研究人员和学术界人士的研究效率和效果。这包括研究周期的所有方面，特别是：(1) 查找相关文献；(2) 生成研究想法并进行实验；生成(3) 文本和(4) 多模态内容（例如，科学图表和图形）；以及(5) 基于AI的自动同行评审。在本文综述中，我们提供了对这些令人兴奋的新发展的深入概述，这些发展有望从根本上改变科学研究过程。我们的综述涵盖了上述五个方面，指出了相关的数据集、方法和结果（包括评估），以及未来研究的局限性和范围。关于这些工具的不足之处和滥用潜在问题（虚假科学、抄袭、损害研究诚信）的伦理问题在讨论中占据特别突出的位置。我们希望这篇综述不仅成为该领域的新人的参考指南，而且能够促进“AI4Science”领域的新的AI驱动倡议。

发布时间: 2/10/2025

查看原文

LP-DETR：分层渐进关系对象检测

作者: Zhengjian Kang, Ye Zhang, Xiaoyu Deng, Xintao Li, Yongzhe Zhang

arXiv:2502.05147v1 交叉公告类型：交叉摘要：本文提出了一种名为LP-DETR（逐层渐进DETR）的新颖方法，通过多尺度关系建模增强基于DETR的目标检测。我们的方法通过一个关系感知自注意力机制引入可学习的对象查询之间的空间关系，该机制能够在解码器层间自适应地学习平衡不同尺度的关系（局部、中尺度和全局）。这种逐层设计使模型能够在检测管道中有效地捕捉不断变化的空间依赖性。在COCO 2017数据集上的广泛实验表明，与标准自注意力模块相比，我们的方法在收敛速度和检测精度上都取得了更好的效果。所提出的方法取得了具有竞争力的结果，使用ResNet-50主干时在12个epoch和24个epoch后分别达到了52.3%和52.5%的AP，在使用Swin-L主干时进一步提高到了58.0%的AP。此外，我们的分析揭示了一个有趣的模式：模型自然地在早期的解码器层中学习优先关注局部空间关系，而随着更深层次的发展逐渐转向更广泛的上下文，为未来的目标检测研究提供了宝贵的见解。

发布时间: 2/10/2025

查看原文

长音 advocode 生成的隐秘互换联合扩散方法

作者: Yusheng Dai, Chenxi Wang, Chang Li, Chen Wang, Jun Du, Kewei Li, Ruoyu Wang, Jiefeng Ma, Lei Sun, Jianqing Gao

arXiv:2502.05130v1 交叉公告类型摘要：使用全局视角扩散或迭代生成长语音片段的先前工作要求显著的训练或推理成本。虽然最近在全景生成中多视角联合扩散的进步提供了有效的选择，但它们在严重重叠失真和高跨视图一致性成本的问题上表现不佳。我们最初通过潜空间图的连接继承现象探索了这一现象，并发现平均操作过度平滑了潜空间图的高频成分。为了解决这些问题，我们提出了Swap Forward（SaFa），这是一种帧级的潜空间交换框架，通过前后仅有的方式同步多个扩散，生成一个全局一致的长音频，同时包含更多的频谱细节。其核心在于在相邻视图之间应用双向的自我循环潜空间交换，利用逐步扩散轨迹自适应地增强高频成分，而不破坏低频成分。此外，为了确保跨视图一致性，在每个子视图的非重叠区域与参考视图之间应用单向的参考导向潜空间交换，在早期阶段提供中心化轨迹指导。定量和定性实验表明，SaFa 显著优于现有的联合扩散方法，甚至比基于训练的长语音生成模型表现更佳。此外，我们发现它也很好地适用于全景生成，实现了与更高的效率和更强的模型泛化性能相似的最佳性能。项目页面可在 https://swapforward.github.io/ 查看。

发布时间: 2/10/2025

查看原文

“感觉像被蒙在鼓里”：探索危重病照护环境中老年患者家属的信息需求和设计机会

作者: Shihan Fu, Bingsheng Yao, Smit Desai, Yuqi Hu, Yuling Sun, Samantha Stonbraker, Yanjun Gao, Elizabeth M. Goldberg, Dakuo Wang

arXiv:2502.05115v1 交叉公告类型：cross 摘要：老年患者构成了重症监护病房（ICU）患者的一个迅速增长的子群体。在这种情况下，他们的家属照料者需要代表无意识的患者访问和解释患者的医疗信息。然而，当前照料者不得不依赖于超载的临床医生获取信息更新，并且通常缺乏理解复杂医疗信息的健康素养。我们的项目旨在探索ICU老年患者家属照料者的信息需求，从而在此基础上提出未来AI系统的设计机会。该项目始于对11位照料者的形成性访谈，以识别他们在访问和解释医疗信息方面的挑战；根据这些发现，我们随后综合设计需求，并提议一个AI系统原型来应对照料者的挑战。该系统原型具有两个关键特征：一个时间轴可视化，以显示AI提取和总结的老年患者的关键医疗事件；以及一个基于LLM的聊天机器人，提供上下文相关的信息支持。我们在论文中总结了对系统的后续用户评估，并讨论了未来针对老年患者ICU家属照料者的基于AI的系统。

发布时间: 2/10/2025

查看原文

灵活且高效的语法约束解码

作者: Kanghee Park, Timothy Zhou, Loris D'Antoni

arXiv:2502.05111v1 Announce Type: cross 摘要：大型语言模型（LLMs）通常被要求生成遵守精确语法规则的结构化输出，例如代码片段或格式化数据。语法约束解码（GCD）可以通过屏蔽那些会明显导致不属于指定上下文自由文法（CFG）的输出的令牌，来确保LLM的输出符合这些规则。为了保证正确性，GCD算法必须计算给定的LLM子词分词器如何与给定的上下文自由文法使用的令牌对齐，并基于此信息计算令牌掩码。高效地做到这一点颇具挑战性，现有的GCD算法在预处理常见文法时需要十几分钟。我们提出了一种新的GCD算法及其实现，在提供比现有方法快17.71倍的离线预处理速度的同时，保持了与现有技术相同的在线掩码计算效率。

发布时间: 2/10/2025

查看原文

AppE: 一种带有事件上下文的应用伦理本体论

作者: Aisha Aijaz, Raghava Mutharaju, Manohar Kumar

arXiv:2502.05110v1 声明类型: cross 摘要：大多数领域中都存在应用伦理学，由于其哲学性质，往往需要大量的讨论。不同的观点常常导致行动方案的冲突，使得伦理困境变得难以解决。尽管许多因素都影响这样的决定，但主要驱动力可以被离散化和简化，从而提供一个指示性的答案。知识表示与推理提供了一种将抽象的伦理概念明确地转化为事件背景下的适用原则的方法。为了实现这一目标，我们提出了一种名为ApplE的应用伦理学本体，该本体捕捉哲学理论和事件背景，以全面描述行动的道德性。开发过程遵循修改后的简化本体开发敏捷方法（SAMOD）版本，并采用了标准的设计和出版实践。通过ApplE，我们从生物伦理学领域建模了一个用例，展示了该本体在社会和科学方面的价值。除了本体推理和质量检查外，ApplE还使用SAMOD的三步测试过程进行了评估。ApplE遵循FAIR原则，旨在成为应用伦理学家和本体工程师的可行资源。

发布时间: 2/10/2025

查看原文

利用超网络和可学习内核进行跨不同类型消费者的能源预测

作者: Muhammad Umair Danish, Katarina Grolinger

arXiv:2502.05104v1 类别:交叉领域摘要：消费者能源预测对于管理能源消耗和规划至关重要，直接影响运营效率、成本降低、个性化能源管理以及可持续性努力。近年来，深度学习技术，尤其是LSTMs和变压器，在能源消耗预测领域取得了巨大成功。然而，这些技术在捕捉复杂和突然变化方面存在困难，并且通常仅针对特定类型的消费者进行测试（例如，仅办公室，仅学校）。因此，本文提出了一种名为HyperEnergy的消费者能源预测策略，该策略利用超网络以更好地建模适用于各种消费者的复杂模式。超网络负责预测主预测网络（在我们的情况下是LSTM）的参数。引入了一个可学习的可调核函数，该函数包含多项式核和径向基函数核，以增强性能。所提的HyperEnergy在学生宿舍、独立房屋、具有电动汽车充电的住宅和联排别墅等不同类型的消费者上进行了评估。在所有消费者类型中，HyperEnergy始终优于包括最先进模型LSTM、AttentionLSTM和变压器在内的其他10种技术。

发布时间: 2/10/2025

查看原文

在Android恶意软件检测器中学习时间不变性

作者: Xinran Zheng, Shuo Yang, Edith C. H. Ngai, Suman Jana, Lorenzo Cavallaro

arXiv:2502.05098v1 类别: cross 摘要：基于学习的Android恶意软件检测器由于恶意软件变体和新的恶意软件家族引起的自然分布漂移而随着时间的推移而退化。本文系统地研究了使用经验风险最小化（ERM）训练的分类器在面对这种分布变化时所面临的挑战，并将它们的缺陷归因于无法学习稳定的判别性特征的能力。不变学习理论提供了一种有希望的解决方案，通过鼓励模型生成跨越不同类型环境的稳定表示，从而揭示训练集的不稳定性。然而，缺乏先前的环境标签、漂移因素的多样性以及由多样化家庭引起的低质量表示使得这项任务具有挑战性。为了解决这些问题，我们提出了TIF，这是一种用于恶意软件检测的首个时间不变训练框架，旨在增强检测器在时间上学习稳定表示的能力。TIF 根据应用程序观测日期组织环境，以揭示时间上的漂移，并结合专门的多代理对比学习和不变梯度对齐来生成和对齐具有高质量、稳定表示的环境。TIF 可以无缝地集成到任何基于学习的检测器中。在长达十年的数据集上的实验表明，TIF 在特别早的部署阶段表现出色，满足了现实世界的需求，并优于现有方法。

发布时间: 2/10/2025

查看原文

迷失在时间中：多模态大语言模型中的时钟和日历理解挑战

作者: Rohit Saxena, Aryo Pradipta Gema, Pasquale Minervini

arXiv:2502.05092v1 交叉公告类型：跨领域摘要：从视觉表示中理解时间是一项基本的认知技能，但对于多模态大型语言模型（MLLMs）来说仍是一个挑战。在本文中，我们探讨了MLLMs在通过模拟时钟和年历解释时间与日期的能力。为了促进这一研究，我们编curated制了一个结构化数据集，包含两个子集：1）$\textit{ClockQA}$，该子集包含各种类型的时钟样式——标准时钟、黑底时钟、无秒针时钟、罗马数字时钟和指针时钟——并配以与时间相关的问题；2）$\textit{CalendarQA}$，该子集包括带有从常用日期（例如圣诞节、新年）到计算得出的日期（例如一年中的第100天或第153天）的问题的年历图片。我们旨在分析当MLLMs面对与时间相关的视觉数据时，它们在视觉识别、数值推理和时间推断方面的表现。我们的评估结果显示，尽管最近取得了一些进展，但对于MLLMs来说，可靠地理解和解释时间仍然是一个重大挑战。

发布时间: 2/10/2025

查看原文

在 Federated Learning for LLMs 中通过 LoRA 减轻无意的记忆现象

作者: Thierry Bossy, Julien Vignoud, Tahseen Rabbani, Juan R. Troncoso Pastoriza, Martin Jaggi

arXiv:2502.05087v1 声称类型: 交叉摘要： federated learning (联邦学习, FL) 是一种流行的协作训练范式，可以避免客户端之间直接数据暴露。然而，数据隐私问题仍然存在：通过给出训练数据的前缀，由FL训练的大型语言模型能够记住并完成训练数据中的短语和句子。因此，恶意和诚实但好奇的客户端可以通过目标化的提示简单地恢复其他参与者的训练数据。在本工作中，我们展示了流行且简单的微调策略低秩适应（LoRA）在FL中最多可以减少记忆因素10倍。我们通过执行医学问答微调任务并注入来自外部临床数据集的多个分布外敏感序列的副本，研究了这一效应。我们观察到Llama 2和3模型的各种版本中记忆减少，发现LoRA可以在中心化学习中减少记忆。此外，我们表明可以将LoRA与其他隐私保护技术，如梯度裁剪和加法噪声、安全聚合和Goldfish损失结合起来，以进一步提高记录级隐私同时保持性能。

发布时间: 2/10/2025

查看原文