arXiv 论文列表

作者: Milad Farjadnasab, Shahin Sirouspour

大型语言模型 (LLM) 已在许多自然语言处理任务中取代了传统方法。然而，在命名实体识别 (NER) 中，现有的基于 LLM 的方法...

发布时间: 10/10/2024

作者: Hemank Lamba, Anton Abilov, Ke Zhang, Elizabeth M. Olson, Henry k. Dambanemuya, Jo\~ao c. B\'arcia, David S. Batista, Christina Wille, Aoife Cahill, Joel Tetreault, Alex Jaimes

人道主义组织可以通过分析数据来发现趋势、收集汇总见解、管理安全风险、支持决策以及为宣传和资金提案提供信息，从而提高其有效性。然而，关于直接影响和与人道主义援助行动相关的暴力事件的数据并不容易获得。与人道主义视角一致的自动数据收集和基于自然语言处理的分类框架可以帮助弥合这一差距。在本文中，我们介绍了 HumVI——一个包含三种语言（英语、法语、阿拉伯语）新闻文章的数据集，这些文章包含不同类型暴力事件的实例，这些事件按其影响的人道主义部门进行分类，例如援助安全、教育、粮食安全、健康和保护。通过与数据支持的人道主义组织 Insecurity Insight 合作，我们获得了数据集的可靠标签。我们为数据集提供了多个基准，采用各种深度学习架构和技术，包括数据增强和掩码损失，以解决不同的任务相关挑战，例如领域扩展。该数据集可在 https://github.com/dataminr-ai/humvi-dataset 公开获取。

发布时间: 10/10/2024

查看原文

面向领域无关动力系统建模的物理信息正则化

作者: Zijie Huang, Wanjia Zhao, Jingdong Gao, Ziniu Hu, Xiao Luo, Yadi Cao, Yuanzhou Chen, Yizhou Sun, Wei Wang

从数据中学习复杂的物理动力学具有挑战性，因为系统需要满足其固有属性。将物理先验知识（例如，在哈密顿神经网络 (HNN) 中）纳入其中，可以实现对能量守恒系统的精确建模。然而，现实世界的系统往往偏离严格的能量守恒，并遵循不同的物理先验。为了解决这个问题，我们提出了一种框架，通过一个新颖的正则化项强制执行时间反转对称性 (TRS)，从数值角度实现了对各种动力学系统的精确建模。它有助于为保守系统保存能量，同时作为非保守、可逆系统的强大归纳偏差。虽然 TRS 是一种特定于领域的物理先验，但我们首次在理论上证明 TRS 损失可以通过最小化 ODE 集成中的高阶泰勒项来普遍提高建模精度，这对于各种系统而言在数值上是有益的，无论其属性如何，即使对于不可逆系统也是如此。通过将 TRS 损失集成到神经常微分方程模型中，所提出的模型 TREAT 在各种物理系统上展现出优异的性能。它在具有挑战性的混沌三摆场景中实现了 11.5% 的 MSE 显著改善，突出了 TREAT 的广泛适用性和有效性。

发布时间: 10/10/2024

查看原文

桌面场景中的上下文感知命令理解

作者: Paul Gajewski, Antonio Galiza Cerdeira Gonzalez, Bipin Indurkhya

本文提出了一种新颖的混合算法，旨在解读桌面场景中的自然人类指令。通过整合来自语音、手势和场景上下文等多个信息源，该系统提取了机器人可执行的指令，识别了相关物体和动作。该系统以零样本的方式运行，不依赖于预定义的物体模型，使其能够在各种环境中灵活自适应地使用。我们评估了多个深度学习模型的集成，评估了它们在现实世界机器人设置中的部署适用性。我们的算法在不同的任务中表现出色，将语言处理与视觉定位结合起来。此外，我们发布了一个用于评估系统的小型视频记录数据集。该数据集捕捉了人类使用自然语言向机器人提供指令的真实世界交互，为未来的人机交互研究做出了贡献。我们讨论了该系统的优势和局限性，特别关注它如何处理多模态指令解读以及它如何集成到符号机器人框架中以实现安全且可解释的决策。

发布时间: 10/10/2024

查看原文

基于决策 Transformer 的多目标机器人任务求解

作者: Paul Gajewski, Dominik \.Zurek, Marcin Pietro\'n, Kamil Faber

人工智能在机器人学中发挥着至关重要的作用，而强化学习 (RL) 已成为机器人控制最有希望的方法之一。然而，一些关键挑战阻碍了其更广泛的应用。首先，许多 RL 方法依赖于在线学习，这需要现实世界的硬件或先进的模拟环境，而这两种方法都可能成本高昂、耗时且不切实际。离线强化学习提供了一种解决方案，使模型能够在没有持续访问物理机器人或模拟的情况下进行训练。第二个挑战是学习多目标任务，其中机器人必须同时实现多个目标。这增加了训练过程的复杂性，因为模型必须跨不同目标进行泛化。与此同时，Transformer 架构在包括强化学习在内的各个领域都获得了极大的普及。然而，现有的方法无法有效地将离线训练、多目标学习和基于 Transformer 的架构结合起来。在本文中，我们通过引入决策 Transformer 架构的新颖改进来解决这些挑战，用于机器人离线多目标强化学习。我们的方法将目标特定信息集成到决策 Transformer 中，使其能够在离线环境中处理复杂的任务。为了验证我们的方法，我们使用模拟中的 Panda 机器人平台开发了一个新的离线强化学习数据集。我们广泛的实验表明，决策 Transformer 可以优于最先进的在线强化学习方法。

发布时间: 10/10/2024

查看原文

知识编辑下的多跳事实检索的定位-编辑方法

作者: Zhuoran Zhang, Yongxiang Li, Zijian Kan, Keyuan Cheng, Lijie Hu, Di Wang

大型语言模型 (LLM) 在许多自然语言处理任务中取代了传统方法。然而，在命名实体识别 (NER) 中，现有的基于 LLM 的方法...

发布时间: 10/10/2024

查看原文

自进化：通过自推理框架增强大型语言模型的性能

作者: Krishna Aswani, Huilin Lu, Pranav Patankar, Priya Dhalwani, Iris Tan, Jayant Ganeshmohan, Simon Lacasse

近年来，提示工程策略（如思维链（CoT）和自我发现）的进步，在提高大型语言模型（LLM）的推理能力方面展现出巨大潜力。然而，这些最先进的（SOTA）提示策略依赖于单一或固定的静态种子推理模块，例如“逐步思考”或“分解问题”，旨在模拟人类解决问题的思路。这种限制限制了模型在有效应对各种问题方面的灵活性。在本文中，我们介绍了 Auto-Evolve，这是一个新颖的框架，它使 LLM 能够自我创建动态推理模块和下游行动计划，从而在当前 SOTA 方法的基础上取得显著改进。我们在具有挑战性的 BigBench-Hard (BBH) 数据集上评估了 Auto-Evolve，使用了 Claude 2.0、Claude 3 Sonnet、Mistral Large 和 GPT 4，结果表明它始终优于 SOTA 提示策略。在这些四个模型中，Auto-Evolve 的性能比 CoT 高出 10.4%，平均高出 7%。我们的框架引入了两个创新：a) Auto-Evolve 为每个任务动态生成推理模块，同时与人类推理模式保持一致，从而消除了对预定义模板的需要。b) 我们引入了迭代细化组件，它逐步细化 LLM 的指令指导，并帮助将性能提高平均 2.8%，而单步执行则无法实现。

发布时间: 10/10/2024

查看原文

在无策略梯度的情况下学习复杂动作空间

作者: Arash Tavakoli, Sina Ghiassian, Nemanja Raki\'cevi\'c

传统观点认为，策略梯度方法比动作价值方法更适合处理复杂的动作空间。然而，基础研究表明，在小型有限动作空间中，这两种方法是等价的（O'Donoghue等人，2017；Schulman等人，2017a）。这引发了一个问题：为什么随着动作空间复杂度的增加，它们的计算适用性和性能会发生分歧？我们假设，在这些情况下，策略梯度方法的明显优越性并非源于该方法的内在特性，而是源于一些普遍原则，这些原则也可以应用于动作价值方法，以实现类似的功能。我们确定了三个这样的原则，并提供了一个框架来将它们融入动作价值方法。为了支持我们的假设，我们在这个框架中实例化了我们称之为QMLE的方法，即带有最大似然估计的Q学习。我们的结果表明，QMLE可以应用于复杂的动作空间，其可控计算成本与策略梯度方法相当，而且不需要使用策略梯度。此外，QMLE在DeepMind Control Suite上表现出强大的性能，甚至与DMPO和D4PG等最先进的方法相比也是如此。

发布时间: 10/10/2024

查看原文

混合模型在健康错误信息文本分类中的比较研究

作者: Mkululi Sikosana, Oluwaseun Ajao, Sean Maudsley-Barton

本研究评估了机器学习 (ML) 和深度学习 (DL) 模型在检测在线社交网络 (OSNs) 上与 COVID-19 相关的错误信息方面的有效性，旨在开发更有效的工具来应对大流行期间健康错误信息的传播。该研究使用 "COVID19-FNIR DATASET" 训练和测试了各种 ML 分类器（朴素贝叶斯、SVM、随机森林等）、DL 模型（CNN、LSTM、混合 CNN+LSTM）以及预训练语言模型（DistilBERT、RoBERTa）。这些模型在准确率、F1 分数、召回率、精确率和 ROC 方面进行了评估，并使用了词干提取和词形还原等预处理技术。结果表明，SVM 表现良好，F1 分数达到 94.41%。使用 Word2Vec 嵌入的 DL 模型在所有性能指标（准确率、F1 分数、召回率、精确率和 ROC）方面都超过了 98%。CNN+LSTM 混合模型在性能指标方面也超过了 98%，优于 DistilBERT 和 RoBERTa 等预训练模型。我们的研究得出结论，DL 和混合 DL 模型在检测 OSNs 上的 COVID-19 错误信息方面比传统的 ML 算法更有效。研究结果突出了先进的神经网络方法和大型预训练在错误信息检测中的重要性。未来的研究应优化这些模型以适应各种错误信息类型，并适应不断变化的 OSNs，帮助打击健康错误信息。

发布时间: 10/10/2024

查看原文

组合风险最小化

作者: Divyat Mahajan, Mohammad Pezeshki, Ioannis Mitliagkas, Kartik Ahuja, Pascal Vincent

在这项工作中，我们解决了一个具有挑战性和极端形式的子群体迁移问题，称为组合迁移。在组合迁移下，某些属性组合完全不存在于训练分布中，但存在于测试分布中。我们使用灵活的加性能量分布对数据进行建模，其中每个能量项代表一个属性，并推导出一种名为组合风险最小化 (CRM) 的简单替代方案，以替代经验风险最小化。我们首先训练一个加性能量分类器来预测多个属性，然后调整该分类器以解决组合迁移问题。我们对 CRM 进行了广泛的理论分析，表明我们的提案外推到已见属性组合的特殊仿射包络。在基准数据集上的实证评估证实了 CRM 与文献中针对各种子群体迁移形式提出的其他方法相比，具有更高的鲁棒性。

发布时间: 10/10/2024

查看原文