arXiv 论文列表

STAMP：基于Stein 梯度下降的可微任务和运动规划

作者: Yewon Lee, Andrew Z. Li, Philip Huang, Eric Heiden, Krishna Murthy Jatavallabhula, Fabian Damken, Kevin Smith, Derek Nowrouzezahrai, Fabio Ramos, Florian Shkurti

大型语言模型 (LLMs) 已经在许多自然语言处理任务中取代了传统方法。然而，在命名实体识别 (NER) 中，现有的基于 LLMs 的方法...

发布时间: 10/1/2024

查看原文

网络防御：一种用于恶意软件缓解的联邦强化学习框架

作者: Chao Feng, Alberto Huertas Celdran, Pedro Miguel Sanchez Sanchez, Jan Kreischer, Jan von der Assen, Gerome Bovet, Gregorio Martinez Perez, Burkhard Stiller

近年来，研究表明将强化学习 (RL) 与移动目标防御 (MTD) 相结合可以增强物联网 (IoT) 设备的网络安全。然而，现有工作的实用性受到 RL 中集中数据处理带来的数据隐私问题以及学习有效应对日益增多的异构零日攻击的 MTD 技术所需时间的限制。因此，本文提出 CyberForce，这是一个将联邦学习和强化学习 (FRL) 相结合的框架，用于协作和私密地学习适合于减轻零日攻击的 MTD 技术。CyberForce 集成了设备指纹识别和异常检测，以奖励或惩罚由基于 FRL 的代理选择的 MTD 机制。该框架已部署并在一个场景中进行评估，该场景包含十个受异构恶意软件样本影响的真实 IoT 平台的物理设备。一系列实验表明，CyberForce 比现有的基于 RL 的集中式方法更快地学习了减轻每种攻击的 MTD 技术。此外，当各种设备暴露于不同的攻击时，CyberForce 能够从知识转移中获益，与最近的研究相比，性能得到增强，学习时间也减少。最后，在代理学习过程中使用的不同聚合算法使 CyberForce 对恶意攻击具有显著的鲁棒性。

发布时间: 10/1/2024

查看原文

自然语言中微妙刻板印象识别中的推理作用

作者: Jacob-Junqi Tian, Omkar Dige, D. B. Emerson, Faiza Khan Khattak

大型语言模型（LLM）在海量、未经整理的数据集上进行训练，这些数据集包含各种形式的偏见和语言，强化了可能被模型本身继承的有害刻板印象。因此，必须检查和解决语言模型中的偏见，将公平性融入其开发过程中，以确保这些模型不会延续社会偏见。在这项工作中，我们展示了推理在跨多个开源 LLM 的零样本刻板印象识别中的重要性。准确识别刻板印象语言是一项复杂的任务，需要对社会结构、偏见和关于特定群体存在的非公平概括有细致的理解。虽然通过模型扩展观察到精度有所提高，但推理的使用，尤其是多步推理，对于持续的性能至关重要。此外，通过对选定推理轨迹的定性分析，我们强调了推理如何不仅提高准确性，而且还提高了模型决策的可解释性。这项工作明确地将推理确立为自动刻板印象检测的关键组成部分，并且是为 LLM 建立更强大的刻板印象缓解管道的第一步。

发布时间: 10/1/2024

查看原文

基于持久匹配图的子集拓扑质量

作者: \'Alvaro Torras-Casas, Eduardo Paluzo-Hidalgo, Rocio Gonzalez-Diaz

数据质量对于机器学习模型的成功训练、泛化和性能至关重要。我们提出使用拓扑数据分析技术来衡量子集与其所代表的数据集之间的质量。具体来说，我们定义了持久匹配图，这是一种从将嵌入与持久同源性相结合而来的拓扑不变量。我们提供了一种使用最小生成树来计算它的算法。此外，该不变量使我们能够理解子集是否“很好地代表”了来自更大数据集的聚类，我们也用它来估计子集与完整数据集之间Hausdorff距离的界限。特别是，这种方法使我们能够解释为什么所选子集很可能导致监督学习模型的性能低下。

发布时间: 10/1/2024

查看原文

强化学习与基于模型的控制：利用按需最优控制学习多功能腿式运动

作者: Dongho Kang, Jin Cheng, Miguel Zamora, Fatemeh Zargarbashi, Stelian Coros

本文提出了一种将基于模型的最优控制与强化学习 (RL) 相结合的控制框架，以实现灵活且稳健的腿式运动。我们的方法通过将有限时域最优控制生成的按需参考运动纳入 RL 训练过程来增强训练过程，涵盖了广泛的速度和步态。这些参考运动作为 RL 策略模仿的目标，从而发展出可靠的鲁棒控制策略。此外，通过利用捕捉全身动力学的真实模拟数据，RL 有效地克服了模型简化带来的参考运动固有局限性。我们通过一系列实验验证了框架内 RL 训练过程的鲁棒性和可控性。在这些实验中，我们的方法展示了其泛化参考运动的能力，并有效地处理了可能对简化模型构成挑战的更复杂运动任务，这得益于 RL 的灵活性。此外，我们的框架轻松支持不同尺寸机器人的控制策略训练，无需对奖励函数和超参数进行特定于机器人的调整。

发布时间: 10/1/2024

查看原文

生物医学自然语言处理中大型语言模型的系统评估：基准、基线和建议

作者: Qingyu Chen, Yan Hu, Xueqing Peng, Qianqian Xie, Qiao Jin, Aidan Gilson, Maxwell B. Singer, Xuguang Ai, Po-Ting Lai, Zhizheng Wang, Vipina Kuttichi Keloth, Kalpana Raja, Jiming Huang, Huan He, Fongci Lin, Jingcheng Du, Rui Zhang, W. Jim Zheng, Ron A. Adelman, Zhiyong Lu, Hua Xu

生物医学文献正在快速增长，这对人工整理和知识发现提出了重大挑战。生物医学自然语言处理（BioNLP）已成为一个强大的解决方案，可以从这些大量文献中自动提取信息和知识。近年来，大型语言模型 (LLMs) 因其出色的性能而受到关注。然而，在了解 LLMs 在 BioNLP 任务中的有效性和其对方法开发和下游用户的影响方面，仍存在重大差距。目前，在生物医学领域使用 LLMs 缺乏基线性能数据、基准和实用建议。为了解决这一差距，我们对四种代表性的 LLMs 进行了系统评估：GPT-3.5 和 GPT-4（闭源）、LLaMA 2（开源）以及 PMC LLaMA（特定领域），涵盖 12 个 BioNLP 数据集，涉及六个应用（命名实体识别、关系抽取、多标签文档分类、问答、文本摘要和文本简化）。评估在四种设置下进行：零样本、静态少样本、动态 K 最近邻少样本和微调。我们将这些模型与针对特定领域微调（特定领域）BERT 或 BART 模型的最新方法进行了比较，这些方法是 BioNLP 任务中公认的方法。评估涵盖定量和定性评估，其中后者涉及手动审查数十万个 LLM 输出，以查找提取和分类任务中不一致、缺失信息和幻觉。定性审查还检查了文本摘要任务中的准确性、完整性和可读性。此外，还对闭源 GPT 模型进行了成本分析。

发布时间: 10/1/2024

查看原文

RLocator：用于错误定位的强化学习

作者: Partha Chakraborty, Mahmoud Alfadel, Meiyappan Nagappan

软件开发人员花费大量时间修复项目中的错误。为了简化这一过程，人们提出了错误定位方法来识别可能导致特定错误的源代码文件。先前的工作提出了几种基于相似性的机器学习技术来进行错误定位。尽管这些技术取得了重大进展，但它们没有直接优化评估指标。我们认为，直接优化评估指标可以对错误定位方法的性能做出积极贡献。因此，在本文中，我们利用强化学习 (RL) 技术来直接优化排名指标。我们提出了 RLocator，一种基于强化学习的错误定位方法。我们使用马尔可夫决策过程 (MDP) 来制定 RLocator，以直接优化评估指标。我们介绍了该技术，并基于来自六个广受欢迎的 Apache 项目的 8,316 个错误报告的基准数据集对其进行了实验评估。我们的评估结果表明，RLocator 的平均倒数秩 (MRR) 为 0.62，平均精度 (MAP) 为 0.59，前 1 名得分为 0.46。我们将 RLocator 与两种最先进的错误定位工具 FLIM 和 BugLocator 进行了比较。我们的评估表明，RLocator 在两个方面都显著优于这两种方法，MAP 提高了 38.3%，MRR 提高了 36.73%，前 K 名指标提高了 23.68%。这些发现强调，直接优化评估指标极大地有助于提高错误定位问题的性能。

发布时间: 10/1/2024

查看原文

史诗之声：一个大规模的动作声音数据集

作者: Jaesung Huh, Jacob Chalk, Evangelos Kazakos, Dima Damen, Andrew Zisserman

我们介绍了 Epic-Sounds，一个大型音频标注数据集，它捕捉了以自我为中心的视频音频流中的时间范围和类别标签。我们提出了一种标注流程，其中标注者对可区分的音频片段进行时间标注，并描述可能导致这种声音的动作。我们确定了可以通过音频纯净区分的动作，通过将这些音频的自由形式描述分组到类别中。对于涉及物体碰撞的动作，我们收集了物体材料的人工标注（例如，玻璃物体放在木质表面上），并通过视频验证这些标注，剔除歧义。总体而言，Epic-Sounds 包含 78.4 万个可听事件和动作的分类片段，分布在 44 个类别中，以及 39.2 万个未分类片段。我们在我们的数据集上训练和评估了最先进的音频识别和检测模型，用于音频和视听方法。我们还对以下方面进行了分析：音频事件之间的时序重叠，音频和视觉模态之间的时序和标签相关性，仅从音频输入标注材料的歧义性，仅音频标签的重要性以及当前模型理解声音动作的局限性。项目页面：https://epic-kitchens.github.io/epic-sounds/

发布时间: 10/1/2024

查看原文

一般状态和动作空间上的策略优化

作者: Caleb Ju, Guanghui Lan

强化学习（RL）问题在一般状态和动作空间中极其具有挑战性。与表格设置不同，无法枚举所有状态，然后迭代更新每个状态的策略。这阻止了许多经过充分研究的 RL 方法的应用，特别是那些具有可证明收敛保证的方法。在本文中，我们首先对最近开发的策略镜像下降方法进行了实质性的推广，以处理一般状态和动作空间。我们引入了将函数逼近纳入该方法的新方法，因此我们根本不需要使用显式策略参数化。此外，我们提出了一种新颖的策略对偶平均方法，该方法可以应用可能更简单的函数逼近技术。我们为这些方法在精确策略评估下应用于解决不同类别的 RL 问题建立了全局最优的线性收敛速度或平稳性的次线性收敛速度。然后，我们定义了策略评估的近似误差的适当概念，并研究了它们对这些方法应用于具有有限动作或连续动作空间的一般状态 RL 问题的收敛性的影响。据我们所知，这些算法框架的开发及其收敛分析似乎是文献中的新内容。初步数值结果证明了上述方法的稳健性，并表明它们可以与最先进的 RL 算法相媲美。

发布时间: 10/1/2024

查看原文

开放世界中的机器人任务规划与情境处理

作者: Yan Ding, Xiaohan Zhang, Saeid Amiri, Nieqing Cao, Hao Yang, Chad Esselink, Shiqi Zhang

为了帮助机器人完成需要多个动作的复杂任务，人们开发了自动任务规划算法。大多数此类算法都是为“封闭世界”设计的，假设提供了完整的环境知识。然而，现实世界通常是开放的，机器人经常会遇到意想不到的情况，这些情况可能会破坏规划的完整性。本文提出了一种新颖的算法（COWP），用于开放世界任务规划和情境处理，该算法通过面向任务的常识动态地增强机器人的动作知识。具体来说，常识是从大型语言模型中提取的，基于当前的任务和机器人的技能。为了进行系统评估，我们收集了一个数据集，其中包含 561 个餐饮领域的执行时间情境，每个情境对应于机器人可能无法使用通常有效的解决方案来完成任务的状态实例。实验结果表明，在服务任务的成功率方面，我们的方法明显优于文献中的竞争基线。此外，我们还使用移动机械臂演示了 COWP。该项目网站位于：https://cowplanning.github.io/，其中也提供了更详细的版本。该版本已被《自主机器人》杂志接受发表。

发布时间: 10/1/2024

查看原文