arXiv 论文列表

作者: Thomas Feller, Tim S. Lyon, Piotr Ostropolski-Nalewaja, Sebastian Rudolph

arXiv:2304.06348v5 通报类型: replace-cross 摘要: 我们提出了一种通用框架，用于确定广泛范围的逻辑蕴含问题（简称为查询）的可判定性，基于存在结构简单（根据某些类型的标准测量宽度，例如知名的 treewidth 和 cliquewidth）的反模型。我们框架的一个重要特殊情况是，我们确定了具有宽度有限有限完全模型集的逻辑，这导致广泛的同态闭查询具有可判定的蕴含，涵盖了许多实际相关的查询语言。作为强有力的宽度测量，我们建议采用 Blumensath 的分区宽度，它涵盖了其他许多常见的宽度测量，并且具有非常有利的计算和结构属性。我们以存在规则这一流行的展示形式为例，解释了有限分区宽度规则集如何涵盖了其他已知的抽象可判定类，同时借助现有分层概念涵盖了更广泛的规则集。我们揭示了将有限统一集类纳入我们框架中的自然局限性，并提出了几种补救措施。

发布时间: 4/22/2025

查看原文

基于博弈论的多代理 reinforcement learning

作者: Yaodong Yang, Chengdong Ma, Zihan Ding, Stephen McAleer, Chi Jin, Jun Wang

arXiv:2011.00583v4 宣告类型: replace-cross 摘要: 在AlphaGo系列取得显著成功之后，多智能体强化学习(MARL)技术取得了显著进展。MARL对应的是多智能体系统中多个智能体同时学习的学习问题。它是一个历史悠久的跨学科领域，包括博弈论、机器学习、随机控制、心理学和最优化。虽然MARL在解决现实世界游戏方面取得了相当可观的实际成功，但文献中缺乏一个可以全面阐述现代MARL方法的博弈论基础并总结近期进展的自包含概述。事实上，现有大多数综述文章都是过时的，并且没有充分涵盖自2010年以来的最新进展。在这项工作中，我们提供了一本综述性论文，涵盖了从基础到最新发展的研究前沿内容。我们的综述性论文的目标是从博弈论的角度提供当前最先进的MARL技术的自包含评估。我们希望这项工作能够为新进的快速发展的这一领域的研究者提供一个踏脚石，同时，也为希望从近期进展中获得全景视图并识别新方向的现有领域专家提供帮助。

发布时间: 4/22/2025

查看原文

通用时间序列预测的混合预测器

作者: Daniil Ryabko

arXiv:2010.00297v2 宣布类型: replace-cross 摘要：本书致力于讨论序列概率预测问题，即基于过去的观测数据，预测增长观测序列的下一个结果的概率。该问题在尽可能减少对生成观测数据机制的假设前提下，统一了常见的概率性和非概率性设定进行考虑。一种常见形式，即混合预测器，在各种对该问题的不同表述中出现，这些混合预测器是由有限集合或无限集合的其他预测器组成的，试图结合所有预测器的预测能力。本书的主要内容是这些混合预测器，主要成果展示了这种方法在非常广泛的概率设定中的普遍性，同时也揭示了一些其局限性。虽然所考虑的问题受到实际应用的启发，例如涉及金融、生物或行为数据，但这种启发并未明确表明，书中所有的结果都是理论性的。本书面向对序列预测问题感兴趣的研究生和研究人员，以及更广泛地，对机器学习和非参数统计问题的理论分析感兴趣的人员，以及对这些领域背后的数学和哲学基础感兴趣的人员。本书中的内容假设读者具备概率和统计的基本概念的 familiarity，直到和包括在无限序列空间上的概率分布。无需具备关于学习或随机过程的文献熟悉度。

发布时间: 4/22/2025

查看原文

因果协司机：一个自主因果分析代理

作者: Xinyue Wang, Kun Zhou, Wenyi Wu, Har Simrat Singh, Fang Nan, Songyao Jin, Aryan Philip, Saloni Patnaik, Hou Zhu, Shivam Singh, Parjanya Prashant, Qian Shen, Biwei Huang

arXiv:2504.13263v2 宣告类型: 替换摘要：因果分析在科学研究和可靠决策中扮演着基础性角色，但由于其概念和算法的复杂性，它仍然对领域专家而言难以触及。因果方法与实际可操作性之间的这种脱节提出了双重挑战：领域专家无法利用因果学习的最新进展，而因果研究人员缺乏广泛的现实世界部署来测试和改进他们的方法。为了解决这一问题，我们引入了因果助手（Causal-Copilot），这是一种自主代理，它在大规模语言模型框架内实施专家级的因果分析。因果助手自动化了因果分析的完整流程，适用于表数据和时间序列数据——包括因果发现、因果推断、算法选择、超参数优化、结果解释以及生成可操作洞察。它通过自然语言支持互动改进，降低了非专家的门槛，同时保持方法论的严谨性。通过集成超过20种前沿的因果分析技术，我们的系统促进了良性的循环——扩大了先进因果方法对领域专家的访问范围，同时生成丰富的现实世界应用，为因果理论提供指导并推动其发展。实证评估表明，因果助手在与现有基线的比较中表现出优越的性能，提供了一个可靠、可扩展且可扩展的解决方案，弥合了因果分析中理论精深与现实适用性之间的差距。因果助手的实时互动演示可在 https://causalcopilot.com/ 获取。

发布时间: 4/22/2025

查看原文

探索专家失败有助于提升LLM代理调优

作者: Li-Cheng Lan, Andrew Bai, Minhao Cheng, Cho-Jui Hsieh, Tianyi Zhou

arXiv:2504.13145v2 宣布类型: 重写摘要: 大型语言模型（LLMs）在执行需要多轮推理和交互的任务方面展现出了巨大的潜力。拒绝采样微调（RFT）已成为一种有效的微调LLMs作为代理的方法：它首先模仿专家生成的成功轨迹，并通过迭代微调成功、自我生成的轨迹来进一步提高代理技能。然而，由于专家（例如GPT-4）主要在较简单的子任务上取得成功，而RFT本质上偏向于更简单的场景，许多复杂的子任务仍然无法解决，并持续处于分布外（OOD）状态。在调查这些具有挑战性的子任务后，我们发现以前失败的专家轨迹常常可以提供有价值的信息，例如计划和关键操作，这些信息可以显著提高代理探索效率和关键技能的获取。受到这些观察的启发，我们提出了探索专家失败（EEF），该方法从失败的专家轨迹中识别有益的操作，并将其整合到训练数据集中。潜在有害的操作被仔细排除，以防止污染模型的学习过程。通过利用专家失败中的有益操作，EEF成功解决了部分以前无法解决的子任务，并提高了代理微调性能。令人印象深刻的是，我们的方法在WebShop中实现了62%的胜率，超过了RFT（53.6%）和GPT-4（35.6%），据我们所知，这是首次方法在WebShop中超过0.81分，并在SciWorld中超过81分，确立了新的技术水平。

发布时间: 4/22/2025

查看原文

通过大规模弱监督学习推动阿拉伯语语音识别的进步

作者: Mahmoud Salhab, Marwan Elghitany, Shameed Sait, Syed Sibghat Ullah, Mohammad Abusheikh, Hasan Abusheikh

arXiv:2504.12254v2 宣传类型: 替换摘要：自动语音识别（ASR）在诸如对话代理、工业机器人、呼叫中心自动化和字幕自动化等多种应用中的人机交互中至关重要。然而，开发高性能的ASR模型仍然具有挑战性，特别是在阿拉伯语等低资源语言方面，因为缺乏大规模的标记语音数据集。这些数据集的成本高昂且劳动密集型。在本文中，我们采用弱监督学习来使用Conformer架构训练一个阿拉伯语ASR模型。该模型从15,000小时的弱标注语音数据中训练而来，涵盖了现代标准阿拉伯语（MSA）和方言阿拉伯语（DA），从而消除了成本高昂的人工转录的需求。尽管缺乏经过人工验证的标签，但我们的方法在阿拉伯语ASR上取得了最先进的（SOTA）结果，在标准基准测试中超越了开源和闭源模型。通过展示弱监督作为传统监督方法的可扩展且成本效益高的替代方案的有效性，从而为低资源环境中的改进ASR系统铺平了道路。

发布时间: 4/22/2025

查看原文

MMKB-RAG：一个多模态知识库检索增强生成框架

作者: Zihan Ling, Zhiyao Guo, Yixuan Huang, Yi An, Shuai Xiao, Jinsong Lan, Xiaoyong Zhu, Bo Zheng

arXiv:2504.10074v3 公告类型：替换摘要：近年来，大型语言模型（LLMs）和多模态LLMs取得了显著进展。然而，这些模型依然仅依赖于其参数化的知识，这限制了其生成最新信息的能力，并增加了生成错误内容的风险。检索增强生成（RAG）部分缓解了这些挑战，通过引入外部数据源来增强模型，但对数据库和检索系统的依赖可能会引入无关或不准确的文档，最终损害了性能和推理质量。本文提出了一种新的多模态知识增强检索增强生成（MMKB-RAG）框架，该框架利用模型固有的知识边界动态生成语义标签，以优化检索过程。这种策略使检索文档的联合过滤成为可能，仅保留最相关的准确参考。在基于知识的视觉问答任务的广泛实验中，我们的方法展示了其有效性：在E-VQA数据集中，我们的方法在Single-Hop子集上提高了4.2%的性能，在完整数据集上提高了0.4%；在InfoSeek数据集中，我们的方法在Unseen-Q子集上提高了7.8%，在Unseen-E子集上提高了8.2%，在完整数据集上提高了8.1%。这些结果突显了与当前最先进的LLM和RAG框架相比，在准确性和鲁棒性方面的显著提升。

发布时间: 4/22/2025

查看原文

EmoAgent：评估和保障人类与人工智能互动以维护心理健康安全

作者: Jiahao Qiu, Yinghui He, Xinzhe Juan, Yiming Wang, Yuhan Liu, Zixin Yao, Yue Wu, Xun Jiang, Ling Yang, Mengdi Wang

arXiv:2504.09689v2 安全公告类型：替换摘要：LLM 驱动的 AI 角色的兴起引发了安全方面的担忧，特别是对于患有心理障碍的弱势人类用户。为了解决这些风险，我们提出了 EmoAgent，这是一种多智能体 AI 框架，旨在评估和减轻人类与 AI 交互过程中的心理健康风险。EmoAgent 包含两个组件：EmoEval 通过模拟虚拟用户，包括模拟心理脆弱个体的用户，评估与 AI 角色交互前后心理健康的变化。它使用经临床证实的心理学和精神病学评估工具（如 PHQ-9、PDI、PANSS）来评估 LLM 引发的心理风险。EmoGuard 作为中介，监测用户的心理状态，预测潜在的危害，并提供纠正反馈以减轻风险。在流行的基于角色的聊天机器人中进行的实验表明，情感互动可能会导致脆弱用户的心理恶化，超过 34.4% 的模拟结果显示出心理健康状态的恶化。EmoGuard 显著降低了这些恶化率，突显了其在确保更安全的人机交互方面的作用。我们的代码可在以下链接获取：https://github.com/1akaman/EmoAgent

发布时间: 4/22/2025

查看原文

通过压缩理解LLM行为：数据生成、知识获取和扩度律

作者: Zhixuan Pan, Shaowen Wang, Jian Li

arXiv:2504.09597v3 宣布类型: 替换摘要：大型语言模型（LLMs）在众多任务中展现出了卓越的能力，然而对于它们背后机制及缩放定律、幻觉及类似行为等现象的原理性解释仍付诸阙如。在本文中，我们重新审视了基于柯尔莫哥洛夫复杂性和香农信息理论的经典压缩与预测之间的关系，以此提供更深入的语言模型行为见解。通过利用柯尔莫哥洛夫结构函数，并将语言模型的压缩视为两部分编码过程，我们提供了关于语言模型在不断增加的模型和数据规模下如何获取和存储信息的详细视图——从普遍的句法模式到逐渐稀有的知识元素。受这一理论视角和基于 Heap 和 Zipf 定律启发的自然假设的驱动，我们提出了一种简化但具有代表性的分层数据生成框架，称为句法-知识模型。在贝叶斯框架下，我们展示了在该模型中，预测和压缩自然导致语言模型的多样的学习和缩放行为。特别地，我们的理论分析为数据和模型的缩放定律、训练和微调过程中知识获取的动态以及语言模型中的事实性知识幻觉提供了直观且原理性的解释。实验结果验证了我们的理论预测。

发布时间: 4/22/2025

查看原文

一种用于无限制集装箱翻箱问题的增强迭代加深搜索算法

作者: Ruoqi Wang, Jiawei Li

arXiv:2504.09046v2 宣告类型: 替换摘要：在集装箱堆场中，集装箱重新处理问题（CRP）涉及在特定操作规则下重新安排集装箱堆叠，并且它是智能集装箱调度系统中的关键优化挑战。现有的CRP研究主要集中在使用二维湾区结构最小化重新分配成本，考虑集装箱的尺寸、重量、到达序列和提取优先级等因素。本文介绍了一种改进的深度搜索算法，结合改进的下界优化以提高搜索效率。为了进一步减少搜索空间，我们设计了一组相互一致的剪枝规则，以避免过多的计算开销。所提算法在三个广泛使用的无限制集装箱重新处理问题（UCRP）基准数据集上进行了验证。实验结果表明，我们的方法在解决更通用的UCRP变体时优于最先进的精确算法，特别是在在严格的时间限制下处理同一优先级组内的集装箱时展现了更高的效率。

发布时间: 4/22/2025

查看原文