arXiv 论文列表

从专家和自我经验学习的游戏 episode 反射

作者: Xiaojie Xu, Zongyuan Li, Chang Lu, Runnan Qi, Yanan Ni, Lumin Jiang, Xiangbei Liu, Xuebo Zhang, Yongchun Fang, Kuihua Huang, Xian Guo, Zhanghua Wu, Zhenya Li

arXiv:2502.13388v1 公告类型: 新摘要: 星际争霸II是一个复杂且动态的即时战略(RTS)游戏环境，非常适合人工智能和强化学习研究。为了通过自我反思解决大型语言模型(LLM)在复杂环境中的学习问题，我们基于专家经验和自我经验提出了一个事件反思(REFLECTION OF EPISODES, ROE)框架。该框架首先通过关键帧选择方法获得游戏中关键信息，然后根据专家经验和自我经验进行决策。在一场游戏结束后，它会反思之前的经历以获得新的自我经验。最后，在实验中，我们的方法在TextStarCraft II的非常困难难度下战胜了机器人。我们详细分析了游戏中大型语言模型的数据，验证了其有效性。

发布时间: 2/20/2025

查看原文

使用可解释人工智能的深度强化学习进行战斗机导航与战斗

作者: Swati Kar, Soumyabrata Dey, Mahesh K Banavar, Shahnewaz Karim Sakib

arXiv:2502.13373v1 宣传类型: 新闻摘要：本文介绍了在自定义的Pygame仿真环境中开发的一种基于人工智能（AI）的战斗机代理，旨在通过深度强化学习（DRL）解决多目标任务。飞机的主要目标包括高效导航环境、接近目标以及选择性地与敌人交战或规避。奖励函数平衡了这些目标，优化的超参数提高了学习效率。结果显示，任务完成率超过80%，证明了有效的决策能力。为了增强透明度，通过比较实际选择的动作（事实动作）与替代动作（反事实动作）的奖励，分析飞机的动作选择，以揭示决策背后的理由。该研究展示了解释性人工智能在多目标问题解决中的潜力。项目页面可在以下链接找到：\href{https://github.com/swatikar95/Autonomous-Fighter-Jet-Navigation-and-Combat}{项目GitHub链接}。

发布时间: 2/20/2025

查看原文

重新审视 fine-tuning 大型语言模型时的隐私、实用性和效率权衡

作者: Soumi Das, Camila Kolling, Mohammad Aflah Khan, Mahsa Amani, Bishwamittra Ghosh, Qinyuan Wu, Till Speicher, Krishna P. Gummadi

arXiv:2502.13313v1 宣告类型: 新摘要: 我们研究了在保持高计算效率的同时，精调大型语言模型（LLMs）时，在最小化隐私风险和最大化实用性之间固有的权衡。近年来，隐私研究中的许多工作试图通过使用差分隐私训练方法（例如，DP）来减轻由于记忆精调数据而导致的隐私风险，但代价是显著增加的计算成本（低效率）。与此同时，系统研究中的许多工作则集中于开发高效的精调方法（例如，LoRA），但很少有研究探索这些高效的精调方法是增强还是减少了隐私风险。在这篇论文中，我们研究了这一缺口并得出了一个令人惊讶的结论：像LoRA这样的高效精调方法在减轻隐私风险方面与像DP这样的私人精调方法相似。我们的实证发现直接反驳了在精调过程中隐私和效率目标相冲突的普遍看法。我们的发现通过以下方式建立：（a）仔细定义区分训练和测试数据集中敏感和非敏感标记的隐私和实用性衡量标准；（b）使用来自Pythia、Gemma和Llama家族的多个开源语言模型以及不同领域特定数据集进行广泛的评估。

发布时间: 2/20/2025

查看原文

在推理模型中展示规范游戏行为

作者: Alexander Bondarenko, Denis Volk, Dmitrii Volkov, Jeffrey Ladish

arXiv:2502.13295v1 宣布类型: 新论文摘要: 我们通过指令模型击败国际象棋引擎来演示LLM代理规范游戏。我们发现，类似于o1预览和DeepSeek-R1的推理模型通常会在默认情况下破解基准，而类似于GPT-4o和Claude 3.5 Sonnet的语言模型需要被告知正常的玩法不会奏效才能破解。我们改进了Hubinger等人（2024年）、Meinke等人（2024年）和Weij等人（2024年）之前的工作，通过使用现实的任务提示并避免过度引导。我们的结果表明，推理模型可能会出于解决问题而采取破解行为，正如OpenAI（2024年）在网络安全能力测试期间的o1 Docker逃脱所观察到的那样。

发布时间: 2/20/2025

查看原文

通过假设分解和修正揭开代码推理的魔力

作者: Yuze Zhao, Tianyun Ji, Wenjun Feng, Zhenya Huang, Qi Liu, Zhiding Liu, Yixiao Ma, Kai Zhang, Enhong Chen

arXiv:2502.13170v1 宣布类型: 新摘要：推理能力是大型语言模型（LLMs）最神秘和最具吸引力的方面之一。众多研究致力于探索并拓展这一推理能力的边界。然而，同时包含推理和回忆特性的任务往往被忽视。在这篇论文中，我们引入了一种新的任务——代码推理，以提供对LLMs推理能力的新视角。我们总结了三种基于逻辑推理类型形式的元基准，并将这些形式具体化为八个特定基准任务。我们在这些基准上的测试表明，LLMs仍然难以识别满意的推理路径。此外，我们提出了一种新的推理路径探索管道，灵感来源于人类复杂问题解决方法。这种反思性假设分解和修正（RHDA）管道包括以下迭代步骤：(1) 根据观察提出潜在假设并对它们进行分解；(2) 使用工具验证假设和反省结果；(3) 根据观察结果修订假设。我们的方法有效缓解了多步推理中因遗忘或幻觉问题导致的逻辑链断裂，从而实现了最高至3倍的性能提升。最后，我们通过将其应用于模拟真实场景中的复杂家庭任务（特别是在VirtualHome），扩展了该管道，增强了应对失败案例的能力。我们已在https://github.com/TnTWoW/code_reasoning发布了我们的代码和所有结果。

发布时间: 2/20/2025

查看原文

增强推理的多轮 Jailbreak 攻击对话针对大型语言模型

作者: Zonghao Ying, Deyue Zhang, Zonglei Jing, Yisong Xiao, Quanchen Zou, Aishan Liu, Siyuan Liang, Xiangzheng Zhang, Xianglong Liu, Dacheng Tao

arXiv:2502.11054v3 通知类型: replace-cross 摘要：多回合监狱突破攻击通过让大型语言模型（LLMs）在迭代对话中参与，模拟现实生活中的互动，揭示了关键的安全漏洞。然而，现有的方法往往难以在语义连贯性和攻击有效性之间取得平衡，导致语义良性漂移或无效的检测规避。为了解决这一挑战，我们提出了一种新颖的多回合监狱突破框架——增强推理对话（Reasoning-Augmented Conversation, RACE），该框架将有害查询重新表述为良性推理任务，并利用LLMs的强大推理能力来破坏安全对齐。具体而言，我们引入了一种攻击状态机框架，系统地建模问题翻译和迭代推理，确保多次回合中查询生成的一致性。基于此框架，我们设计了收益导向探索、自我对弈和拒绝反馈模块，以保持攻击语义的完整性、增强有效性和确保推理驱动的攻击进展得以持续。在多个LLMs上的广泛实验表明，RACE在复杂对话情景中实现了最先进的攻击效果，攻击成功率（ASRs）最多提高了96%。值得注意的是，我们的方法在与OpenAI o1和DeepSeek R1这类领先商用模型对抗时，达到了82%和92%的攻击成功率，这凸显了其效力。我们已在https://github.com/NY1024/RACE发布代码，以促进对该关键领域的进一步研究。

发布时间: 2/19/2025

查看原文

QUBE: 基于质量-不确定性平衡演化增强的自动启发式设计

作者: Zijie Chen, Zhanchao Zhou, Yu Lu, Renjun Xu, Lili Pan, Zhenzhong Lan

arXiv:2412.20694v3 通知类型: 替换-交叉摘要: 解决NP难问题传统上依赖启发式方法，但为复杂问题手动设计有效的启发式方法仍然是一个重大挑战。尽管如FunSearch等近期进展表明，大型语言模型（LLMs）可以与进化算法（EAs）集成用于启发式设计，但它们的潜力受限于在探索与利用之间的平衡问题。我们引入了Quality-Uncertainty Balanced Evolution（QUBE），这是一种通过重新定义FunSearch框架内的优先标准来增强LLM+EA方法的新方法。QUBE利用我们提出的包括不确定性的质量度量——Quality-Uncertainty Trade-off Criterion（QUTC）来评估和引导进化过程。通过在具有挑战性的NP完全问题上的 extensive 实验，QUBE 在性能上明显优于 FunSearch 和基线方法。我们的代码可在 https://github.com/zzjchen/QUBE_code 获得。

发布时间: 2/19/2025

查看原文

人工智能中基于统计视角的 bandit 问题选择性综述

作者: Pengjie Zhou, Haoyu Wei, Huiming Zhang

arXiv:2412.02251v3 公告类型：替换交叉摘要：强化学习（RL）是人工智能中广泛研究的一个领域，专注于通过环境互动来教导代理进行决策。其一个关键子集包括随机多臂 bandit（MAB）问题和连续多臂 bandit（SCAB）问题，这些问题用于在不确定性下建模序列决策。本文概要介绍了 bandit 问题的基础模型和假设，探讨了非渐近理论工具如中心偏差不等式和最小最大后悔界，并比较了管理探索与利用权衡的 frequentist 和 Bayesian 算法。此外，本文还探讨了 K-arming 文本上下文 bandit 和 SCAB 方法及其方法论和后悔分析。本文还考察了 SCAB 问题与功能性数据分析之间的联系。最后，本文强调了该领域的最新进展和持续性挑战。

发布时间: 2/19/2025

查看原文

Varco竞技场：一种参考自由的大语言模型基准测试方法

作者: Seonil Son, Ju-Min Oh, Heegon Jin, Cheolhun Jang, Jeongbeom Jeong, Kuntae Kim

arXiv:2411.01281v3 宣告类型：替换-交叉摘要：大多数现有的评估大语言模型（LLMs）输出质量的基准方法依赖于将LLM响应与预定义的参考进行比较。这类基于静态数据集的方法会随着LLM能力和应用场景的变化而迅速变得过时。在本工作中，我们引入了VARCO Arena——一种新颖、成本效益高且稳健的基准方法，该方法利用单淘汰锦标赛结构来减少所需的比较次数，同时消除对静态参考或昂贵的人工标注的需求。我们通过两个实验对其进行验证：（i）一项模拟研究，考察其在各种条件下的稳健性；（ii）一项使用公开可用的基准提示进行的经验评估。在两个实验中，VARCO Arena一致地优于当前的LLM基准方法，与人类设定的Elo排名具有更强的相关性。我们的结果表明，VARCO Arena不仅能够生成可靠的LLM排名，还能为各种定制化用例提供可扩展且适应性强的定性评估解决方案。

发布时间: 2/19/2025

查看原文

镜像之中：企业AI知识系统的透明性影响与挑战

作者: Karina Corti\~nas-Lorenzo, Si\^an Lindley, Ida Larsen-Ledet, Bhaskar Mitra

arXiv:2401.09410v3 公告类型：替换-交叉引用摘要：知识无法与人分开。当人工智能知识系统挖掘大量与工作相关的数据时，从中提取和呈现的知识与创造和使用这些知识的人之间存在内在联系。当从数据中学习的预测算法用于将知识与人联系起来时，知识提取和呈现的不准确性可能导致不成比例的伤害，影响个体间以及他们在工作中的自我看法。在本文中，我们对这种类型系统的透明度要求及其影响进行了反思分析。我们开展了跨学科文献综述，以了解透明度在工作场所环境中的影响，并引入“镜子”隐喻来将人工智能知识系统概念化为能够反射和扭曲的系统，从而扩展了对透明度要求、影响和挑战的看法。我们将透明度视为塑造不同视角的关键调解因素，包括审视系统的能力、限制和行为，以及通过系统塑造工人们对其自身贡献和组织内其他人看法的视角。考虑到这些系统的社会技术性质，我们确定了实现人工智能知识系统价值所需的三个透明度维度，即系统透明度、程序透明度和结果透明度。我们讨论了这些形式的透明度实施所面临的几个关键挑战，揭示了更广泛的社会技术差距，并突出了未来计算机支持的协作工作（CSCW）研究的方向。

发布时间: 2/19/2025

查看原文