arXiv 论文列表

作者: Jianyu Zhang, Yongwang Zhao, Long Zhang, Jilin Hu, Xiaokun Luan, Zhiwei Xu, Feng Yang

arXiv:2502.00855v1 宣告类型: 新摘要: 正式定理证明的大语言模型（LLMs）已成为一个重要的研究焦点。目前，这些LLMs的证明能力主要通过在miniF2F等数据集上的证明通过率进行评估。然而，这种方法忽略了定理的不同重要性，导致未能突出LLMs之间的实际性能差异，且评估成本较高。本研究提出了一种基于心理测量的定理证明评估方法，该方法包含两个主要组成部分：数据集注释和自适应评估。首先，我们提出了一种度量计算方法，通过注释数据集中的难度和区分度度量来标注数据集。具体来说，我们为miniF2F数据集中的每个定理进行了注释，并根据LLMs的表现将其分为不同难度级别，从而得到了增强的数据集：miniF2F-Graded。实验结果显示，miniF2F-Graded中的难度分级更好地反映了LLMs感知到的定理难度。其次，我们设计了一种自适应评估方法，根据标注的度量和LLMs的实际表现动态选择最合适的定理进行测试。我们将该方法应用于10个LLMs的评估。结果显示，我们的方法细腻地突出了LLMs之间的性能差异，并通过仅使用数据集中的23%的定理减少了评估成本。

发布时间: 2/4/2025

查看原文

RTBAgent：基于LLM的实时竞价代理系统

作者: Leng Cai, Junxuan He, Yikai Li, Junjie Liang, Yuanping Lin, Ziming Quan, Yawen Zeng, Jin Xu

arXiv:2502.00792v1 宣告类型：新摘要：实时竞价（RTB）让广告商能够即时在展示机会上进行竞争性出价，力求在高度竞争的市场环境中实现成本效益。尽管RTB广泛受益于深度学习和强化学习等技术的利用，但相关的算法方法由于离线和在线环境之间的差异以及在线竞价的快速波动而常常遇到可靠性问题。为解决这些问题，提出了基于大型语言模型（LLMs）的RTBAgent系统，该系统同步了真实的竞争性广告竞价环境，并通过集成决策过程获得了出价价格。具体来说，通过LLMs获得推理能力后，RTBAgent进一步被定制以更专业化地应对RTB，借助涉及的辅助模块，例如点击率估计模型、专家策略知识和每日反思。此外，我们提出了一步决策过程和多记忆检索机制，这使得RTBAgent能够回顾历史决策和交易记录，并在实时竞价中更适应市场变化做出决定。实证测试使用真实的广告数据集显示，RTBAgent显著提高了盈利能力。RTBAgent的代码将在以下地址公开访问：https://github.com/CaiLeng/RTBAgent。

发布时间: 2/4/2025

查看原文

零样本有害多模态内容预警生成

作者: Giovanni Pio Delvecchio, Huy Hong Nguyen, Isao Echizen

arXiv:2502.00752v1 类别: 新闻摘要： misinformation 的广泛存在对社会造成了重大担忧。上下文无关的 misinformation，即真实图片配以虚假文本，尤其具有欺骗性，容易误导观众。目前大多数现有的检测方法主要评估图像-文本一致性，但常常缺乏足够的解释，这些解释对于有效地驳斥 misinformation 是至关重要的。我们提出了一种通过跨模态一致性检查检测多模态 misinformation 的模型，该模型的训练时间最少。此外，我们提出了一种轻量级模型，仅使用参数的三分之一就实现了竞争力的性能。我们还引入了一项双重用途的零样本学习任务，用于生成上下文相关的警告，从而实现自动驳斥并增强用户的理解能力。生成的警告在定性评估和人为评估中都突显了我们方法的潜在优势和局限性。

发布时间: 2/4/2025

查看原文

GenAI 的选择性响应策略

作者: Boaz Taitler, Omer Ben-Porat

arXiv:2502.00729v1 生成类型: 新摘要：生成式人工智能（GenAI）的兴起对诸如Stack Overflow等由人类主导的论坛产生了重大影响，这些论坛对于生成高质量数据至关重要。这创造了一个负反馈循环，阻碍了GenAI系统的开发，这些系统依赖于这些数据以提供准确的回应。在这篇论文中，我们提供了一种可能的解决方案：我们提出的一种新颖策略，称为选择性回应。选择性回应意味着，当遇到新兴话题和新型技术的问题时，GenAI可以战略性地提供不准确（或保守）的回应，从而促使用户使用诸如Stack Overflow等由人类主导的论坛。我们展示了选择性回应可能对数据生成过程产生累积效应，从长期来看，既能增加GenAI的收益，又能提高用户福利。从算法角度看，我们提出了一种近似最优的方法，在社会福利约束下最大化GenAI的收益。从监管角度看，我们推导出选择性回应提高福利改进的充分必要条件。

发布时间: 2/4/2025

查看原文

多代理深度强化学习中的直接可解释性视角

作者: Yoann Poupart, Aur\'elie Beynier, Nicolas Maudet

arXiv:2502.00726v1 宣告类型: 新摘要: 多智能体深度强化学习（MADRL）已被证明在解决机器人或游戏中的复杂问题方面极为有效，但大多数训练模型难以解释。尽管学习内在可解释性模型仍然是一个突出的方法，但在处理复杂任务或多智能体动态时，其可扩展性和灵活性有限。本文提倡直接可解释性，即从训练好的模型中直接生成事后解释，作为一种灵活且可扩展的替代方案，能够在不改变模型架构的情况下为智能体的行为、涌现现象和偏差提供洞见。我们探索了现代方法，包括相关性反向传播、知识编辑、模型引导、激活补丁、稀疏自编码器和电路发现，以展示其在单智能体、多智能体和训练过程挑战中的适用性。通过解决MADRL的可解释性问题，我们提出的方向旨在推动团队识别、群体协调和样本效率等活跃话题的发展。

发布时间: 2/4/2025

查看原文

MM-IQ: 多模态模型中人类like抽象与推理能力benchmark评测

作者: Huanqia Cai, Yijun Yang, Winston Hu

arXiv:2502.00698v1 宣告类型: new 摘要：智商测试一直是一种基础的评估方法，用于评估人类的认知能力，故意将评估与语言背景、语言熟练程度或领域特定知识脱钩，以隔离抽象和推理的核心能力。然而，目前的人工智能研究缺乏系统性基准，以量化多模态系统中的这些关键认知维度。为了解决这一关键缺口，我们提出了MM-IQ，这是一个全面的评估框架，包含2,710个精心筛选的测试项，涵盖了8种不同的推理范式。通过系统性评估领先开源和专有多模态模型，我们的基准揭示了显著的局限性：即使最先进的架构也只能略微优于随机猜测的表现（27.49% 的准确率 vs. 25% 的基线准确率）。这种显著的性能差距揭示了当前多模态系统在近似基本的人类推理能力方面存在的不足，突显了需要范式转变的进步来弥补这一认知鸿沟。

发布时间: 2/4/2025

查看原文

学习自主代码集成的数学语言模型

作者: Haozhe Wang, Long Li, Chao Qu, Fengming Zhu, Weidi Xu, Wei Chu, Fangzhen Lin

arXiv:2502.00691v1 工具集成类型: 新摘要: 近期关于数学大型语言模型（LLMs）工具集成的研究旨在结合链式思考（CoT）推理和代码执行的互补优势。然而，我们发现一个关键限制：当前的数学LLM工具集成依赖于外部指令来决定是否使用CoT或代码，缺乏在没有可靠监督的情况下自主选择最合适的策略的能力。这促使我们研究数学LLM的自主代码集成，使得模型能够在没有可靠监督的情况下独立地发展其自己的方法论选择策略。为了应对这一挑战，我们提出了一种创新的期望最大化（EM）形式化方法，通过探索其能力来改进模型的决策。该框架交替进行以下两个步骤：（a）计算一个参考策略，通过自我探索提高模型对其能力的信念；（b）根据改进后的信念更新模型。我们进一步通过高效的实现增强了这一框架，包括引入一种新颖的数据合成策略和离策训练策略。广泛的实验表明，仅使用公开查询集，我们的方法显著提升了现有数学LLM的表现，在具有挑战性的MATH基准测试中准确率提高了近20%，达到了65.28%，同时代码执行降低了高达65%。

发布时间: 2/4/2025

查看原文

基于LLM的事件日志分析技术：一个综述

作者: Siraaj Akhtar, Saad Khan, Simon Parkinson

arXiv:2502.00677v1 事件日志分析类型: 新摘要: 事件日志分析是安全专业人士承担的重要任务。事件日志记录了在计算设备上发生的活动的关键信息，但由于生成的事件数量庞大，分析这些日志需要消耗大量时间和资源。这一耗时且重复的任务也容易出错。为了应对这些挑战，研究人员开发了自动化技术来改进事件日志分析过程。大型语言模型（LLMs）最近展示了高效完成人类通常会参与的广泛任务的能力，标准高、速度快且复杂程度超越人类。因此，研究人员正在迅速探索使用LLMs进行事件日志分析的可能性。这包括微调、检索增强生成（RAG）和上下文学习，这些技术都会影响性能。这些研究表明取得了良好的进展，但还需要理解这一领域的知识发展，识别研究间的共同点，并确定关键挑战及潜在解决方案以促进该领域进一步的发展。本文旨在调查基于LLM的事件日志分析技术，为读者提供该领域的深入概述，指出先前研究中的缺口，并最终提出未来研究的潜在途径。

发布时间: 2/4/2025

查看原文

AI时代的自主性

作者: Samarth Swarup

arXiv:2502.00648v1 宣告类型: 新摘要: 人们对生成式AI对社会的影响存在显著的担忧。现代AI工具能够从最少的提示生成越来越逼真的文本、图像和视频，以及功能性代码。伴随着这些工具能力与易用性的提升，人们对它们可能被滥用，并对个人和社会造成有意和无意的伤害表示越来越大的担忧。在这篇论文中，我们argue认为，\'代理\'是研究这些伤害和益处的合适视角，但要实现这一点需要在代理理论方面有所进展，以及如何在(基于代理)模型中应用这一理论方面有所进展。

发布时间: 2/4/2025

查看原文

CollabLLM：从被动响应者到主动合作者

作者: Shirley Wu, Michel Galley, Baolin Peng, Hao Cheng, Gavin Li, Yao Dou, Weixin Cai, James Zou, Jure Leskovec, Jianfeng Gao

arXiv:2502.00640v1 宣称类型: 新版本摘要: 大型语言模型通常使用下一个回合的奖励进行训练，这限制了它们优化长期交互的能力。因此，它们往往对模棱两可或开放性的用户请求被动回应，不能帮助用户实现最终意图，导致对话效率低下。为了解决这些限制，我们引入了CollabLLM，这是一种新颖且通用的训练框架，旨在增强多回合的人类-LLM协作。其关键创新是一个协作模拟，使用多回合感知奖励来估计响应的长期贡献。通过强化微调这些奖励，CollabLLM不仅能够响应用户请求，还能积极发现用户意图并提供有价值的建议，这是更以用户为中心的AI的关键一步。我们还设计了一个多回合交互基准，其中包含三个具有挑战性的任务，如文档创建。CollabLLM在基线平均任务性能上提高了18.5%，在LLM评审员评估的交互性上提高了46.3%。最后，我们在201名评审员中进行了一项大规模用户研究，结果显示CollabLLM使用户满意度提高了17.6%，减少了用户花费的时间10.4%。

发布时间: 2/4/2025

查看原文