arXiv 论文列表

作者: Shuo Ren, Pu Jian, Zhenjiang Ren, Chunlin Leng, Can Xie, Jiajun Zhang

arXiv:2503.24047v2 宣告类型: 替换摘要：随着科学研究变得越来越复杂，需要创新工具来管理大量数据、促进跨学科合作并加速发现。大型语言模型（LLMs）现在正在演变成基于LLM的科学代理，这些代理能够自动化多种关键任务，从假设生成和实验设计到数据分析和仿真。与通用语言模型不同，这些专门化的代理整合了特定领域的知识、先进的工具集和稳健的验证机制，使其能够处理复杂的数据类型，确保可再现性，并推动科学突破。本文综述了基于LLM的科学代理的架构、设计、基准、应用和伦理考量。我们强调了它们与通用代理之间的差异，并探讨了它们如何在各个科学领域中推进研究。通过研究它们的发展和挑战，本文为研究人员和实践者提供了一个综合路线图，以更高效、可靠和伦理的方式利用这些代理进行科学研究。

发布时间: 4/18/2025

查看原文

一种使用跨注意力信号进行大规模语言模型微调的自我监督强化学习方法

作者: Andrew Kiruluta, Andreas Lemos, Priscilla Burity

arXiv:2502.10482v2 提交类型: 替换摘要：我们提出了一种新的后训练大型语言模型的强化学习框架，该框架不依赖于人的循环反馈。相反，我们的方法利用模型内部的交叉注意力信号来推导出自监督的奖励，从而引导模型策略的迭代微调。通过分析模型在生成过程中对输入提示的注意力分配，我们构建了提示覆盖度、焦点和连贯性的衡量标准。然后，我们使用这些衡量标准对候选响应进行排名或评分，从而提供一种奖励信号，鼓励模型生成内容更为一致且相关性强的文本。在与标准策略梯度方法和使用合成偏好模型的RL微调方法的实证比较中，我们的方法在提示的相关性和一致性方面相对于非RL基线显示出显著的提升。虽然它尚未达到完全由人类监督的RLHF系统的性能水平，但它突显了一个重要的方向，即通过最少的人类标注来扩展对齐。我们进行了详细的分析，讨论了潜在的局限性，并概述了将基于交叉注意力的信号与少量的人类反馈相结合的未来工作。

发布时间: 4/18/2025

查看原文

SemML：增强状态机理论的LTL综合的机器学习方法

作者: Jan Kretinsky, Tobias Meggendorfer, Maximilian Prokop, Ashkan Zarkhah

arXiv:2501.17496v2 通告类型: 替换摘要：从线性时序逻辑（LTL）规范中合成反应系统是一个经典问题，其应用范围涵盖了安全关键系统的设计。我们介绍了我们的工具SemML，该工具在今年SYNTCOMP的LTL实现轨道中获胜，而在之前的几年中，Strix一直占据主导地位。虽然这两种工具都基于自动机理论的方法，但我们的工具依赖于（i）语义标签，这种逻辑性质的附加信息来源于最近的LTL到自动机的翻译，并装饰了生成的帕里游戏；以及（ii）机器学习方法，将其转换为一种引导或acles，用于即兴探索帕里游戏（因此命名为SemML）。我们的工具填补了之前关于使用这种或acles的建议中的缺失空白，并提供了一个高效的实现，还包括额外的算法改进。我们分别在SYNTCOMP的整个数据集和一个合成数据集上评估了SemML，将其与Strix进行了比较，并分析了其优势和限制。由于SemML在SYNTCOMP中解决了更多的实例，并且在处理更大实例时显著更快，这表明机器学习辅助的方法首次在实际LTL合成中可超越最先进的工具。

发布时间: 4/18/2025

查看原文

通过绑定问题的视角理解视觉语言模型的限制

作者: Declan Campbell, Sunayana Rane, Tyler Giallanza, Nicol\`o De Sabbata, Kia Ghods, Amogh Joshi, Alexander Ku, Steven M. Frankland, Thomas L. Griffiths, Jonathan D. Cohen, Taylor W. Webb

arXiv:2411.00238v2 项目类型：替换摘要：近期的研究记录了最先进的视觉语言模型（VLMs），包括多模态语言模型和文本到图像模型的显著异质性性能。这些模型能够描述和生成复杂、自然的图像系列，但在基本的多对象推理任务（如计数、定位和简单的视觉类比）上表现出令人惊讶的失败，而人类在这些任务上几乎能够达到完美。为了更好地理解这种令人困惑的成功与失败模式，我们转向认知科学和神经科学中的结合问题的理论解释，这是一个基本问题，当必须使用一个共享的表示资源来表示不同的实体（例如，表示图像中的多个对象）时会出现，这需要采用串行处理以避免干扰。我们发现，许多最先进的VLMs的困惑失败可以解释为结合问题的结果，这些失败模式与人类大脑迅速、前馈处理所表现出的限制惊人地相似。

发布时间: 4/18/2025

查看原文

值得信赖的解释性AI及其应用

作者: MD Abdullah Al Nasim, A. S. M Anas Ferdous, Abdur Rashid, Fatema Tuj Johura Soshi, Parag Biswas, Angona Biswas, Kishor Datta Gupta

arXiv:2410.17139v2 通知类型: 替换摘要: 人工智能（AI）已成为我们日常生活中不可或缺的一部分。我们使用它在自动驾驶汽车和智能手机助手中。人们常常称其为“黑箱”，因为其复杂的系统，特别是深度神经网络，难以理解。这种复杂性引发了关于问责制、偏见和公平性的担忧，尽管AI可以非常准确。可解释的人工智能（XAI）对于建立信任至关重要。它有助于确保AI系统可靠且符合道德标准。本文探讨了XAI及其三个主要部分：透明性、解释性和可信性。我们将讨论这些组件在实际生活中的重要性。我们还将回顾最近的研究，了解XAI在不同领域的应用。最终，获得对AI系统的信任对于它们在社会中的成功应用至关重要。

发布时间: 4/18/2025

查看原文

概率有多大？提高统计模型检验的基础

作者: Tobias Meggendorfer, Maximilian Weininger, Patrick Wienh\"oft

arXiv:2404.05424v2 宣告类型：替换摘要：马尔可夫决策过程（MDPs）是不确定性下决策制定的基本模型。它们表现出非确定性选择以及概率不确定性。传统上，验证算法假设完全知道控制MDP行为的概率。由于这一假设在实践中往往是不现实的，因此在过去的二十年中开发了统计模型检查（SMC）。它允许分析具有未知转移概率的MDP，并提供差不多正确（PAC）的结果保证。基于模型的SMC算法对MDP进行采样，并通过估计所有转移概率来构建其模型，本质上是为每一个转移回答一个问题：“可能性有多大？”然而，目前最先进的SMC算法所采用的统计方法相当原始。我们的贡献是对这些方法进行了若干根本性的改进：一方面，我们从统计学文献中寻找更好的浓度不等式；另一方面，我们提出了专门的方法，利用我们对MDP的知识。我们的改进由于很大程度上独立于具体环境，因此适用于许多不同类型的问题陈述。此外，我们的实验评价表明，这些改进带来了显著的收益，使SMC算法需要收集的样本数量最多减少了两个数量级。

发布时间: 4/18/2025

查看原文

推荐系统中反事实倾向估计的不确定性校准

作者: Wenbo Hu, Xin Sun, Qiang liu, Le Wu, Liang Wang

arXiv:2303.12973v3 宣告类型：更换摘要：点击后转换率（CVR）是可靠地衡量在线客户偏好的指标，对于开发推荐系统至关重要。预测CVR的主要挑战是严重的选择偏差，这是由于用户的固有自我选择行为和系统对项目的筛选过程造成的。为了缓解这一问题，使用了逆倾向评分（IPS）来加权每个观测实例的预测误差。然而，当前的倾向评分估计不可靠，因为缺乏质量度量。为了解决这个问题，我们从不确定性校准的视角评估倾向评分的质量，提出了使用期望校准误差（ECE）作为倾向评分质量的度量，该度量通过评估预测概率与实际观察频率之间的差异来量化预测概率的过于自信的程度。校准不佳的倾向评分会导致IPS权重失真，从而影响CVR预测中的去偏差过程。在本文中，我们引入了基于模型的校准框架，用于CVR预测的倾向评分去偏差。理论分析表明，校准的倾向评分估计优于未校准的估计。在Coat、Yahoo和KuaiRand数据集上的实验显示，通过降低ECE值提高了不确定性校准，从而提高了CVR预测的效果。

发布时间: 4/18/2025

查看原文

ARES：一种高效的递归评估与采样驱动推理最大独立集算法

作者: Enqiang Zhu, Yu Zhang, Witold Pedrycz, Chanjuan Liu

arXiv:2208.07777v3 公告类型: 替换摘要：最大独立集（MIS）问题是广泛应用于各种领域的已知NP完全问题。启发式方法常被用来高效地处理这一问题的大规模实例，在合理的时间内提供高质量的解决方案。然而，启发式方法面临诸如陷入局部最优和在解空间内进行冗余搜索的挑战。本文介绍了一种高效解决MIS问题的启发式算法，结合了两项创新技术。第一项技术是一种递归评估机制，用于监测解决方案的进展情况并识别局部最优，触发重新启动以避免收敛到次优结果。第二项技术利用基于采样的推理规则有选择地固定顶点，从而缩小搜索空间并提高效率。在多个广泛认可的真实世界基准测试中的全面实验评估表明，所提出的算法在解决方案质量、计算效率和稳定性方面优于最先进的算法。

发布时间: 4/18/2025

查看原文

PerceptionLM：详细视觉理解的开源数据和模型

作者: Jang Hyun Cho, Andrea Madotto, Effrosyni Mavroudi, Triantafyllos Afouras, Tushar Nagarajan, Muhammad Maaz, Yale Song, Tengyu Ma, Shuming Hu, Suyog Jain, Miguel Martin, Huiyu Wang, Hanoona Rasheed, Peize Sun, Po-Yao Huang, Daniel Bolya, Nikhila Ravi, Shashank Jain, Tammy Stark, Shane Moon, Babak Damavandi, Vivian Lee, Andrew Westbury, Salman Khan, Philipp Kr\"ahenb\"uhl, Piotr Doll\'ar, Lorenzo Torresani, Kristen Grauman, Christoph Feichtenhofer

arXiv:2504.13180v1 Announce Type: cross 摘要：视觉语言模型是计算机视觉研究的重要组成部分，但许多高性能的模型仍然是闭源软件，使得对其数据、设计和训练方法保密。研究社区对此作出回应，通过从黑盒模型中提取知识来标注训练数据，从而在基准测试中取得优异成果，但以可量化的科学进步为代价。然而，在不了解教师模型及其数据源的情况下，科学进步仍然难以衡量。本文中，我们研究如何在一个完全开放和可重复的框架中构建感知语言模型（PLM），以实现影像和视频理解研究的透明化。我们分析标准训练管道，不依赖于专有模型的蒸馏，并探索大规模合成数据，以识别视频理解领域的关键数据缺口，特别是细节视频理解。为了解决这些缺口，我们发布了280万个人工标记的细粒度视频问答实例以及时空定位的视频描述。此外，我们引入了PLM-VideoBench，这是一个用于评估具有挑战性的视频理解任务的套件，重点关注对视频中“什么”、“哪里”、“何时”和“如何”的推理能力。我们通过提供数据、训练方法、代码及模型，使我们的工作能够完全复现。

发布时间: 4/18/2025

查看原文

一切皆相连：从测试时记忆、注意力偏差、保持能力到在线优化的探索之旅

作者: Ali Behrouz, Meisam Razaviyayn, Peilin Zhong, Vahab Mirrokni

arXiv:2504.13173v1 Archetype 类型: cross 摘要: 设计高效的架构骨干一直是增强基础模型能力研究的核心。受到人类认知现象中的注意力偏好的启发——自然倾向于优先处理某些事件或刺激——我们将包括变压器、泰坦和现代线性递归神经网络等神经架构重新构想为关联记忆模块，这些模块使用内部目标（称为注意力偏好）学习键值映射。令人惊讶的是，我们观察到大多数现有的序列模型要么利用（1）点积相似性，要么利用（2）L2 回归目标作为其注意力偏好。超越这些目标，我们提出了一组替代的注意力偏好配置及其有效的近似方法，以稳定其训练过程。随后，我们将现代深度学习架构中的遗忘机制重新解释为保留正则化的一种形式，提供了序列模型的一种新型遗忘门。基于这些洞察，我们提出了 Miras，一个基于四种选择的一般框架：（i）关联记忆架构，（ii）注意力偏好目标，（iii）保留门，以及（iv）记忆学习算法。我们介绍了三种新颖的序列模型——Moneta、Yaad 和 Memora，这些模型超越了现有线性递归模型的能力，同时保持了高效的并行训练过程。我们的实验表明，Miras 中的不同设计选择会产生具有不同优势的模型。例如，Miras 的某些实例在特定任务（如语言建模、常识推理和记忆密集型任务）中表现出色，甚至超过了变压器和其他现代线性递归模型。

发布时间: 4/18/2025

查看原文