arXiv 论文列表

作者: Aurick Qiao, Zhewei Yao, Samyam Rajbhandari, Yuxiong He

大型语言模型 (LLM) 在许多自然语言处理任务中取代了传统方法。然而，在命名实体识别 (NER) 中，现有的基于 LLM 的方法......

发布时间: 10/8/2024

作者: Zineng Tang, Lingjun Mao, Alane Suhr

我们提出了一个在多智能体具身环境中进行指称表达式生成和理解的任务和数据集。在这个任务中，共享场景中的两个智能体必须考虑到彼此的视觉视角（可能与自身不同），才能生成和理解场景中对象的引用以及它们之间的空间关系。我们收集了 2,970 个由人类编写的指称表达式数据集，每个表达式都与人类理解判断配对，并评估了自动化模型作为与人类伙伴配对的说话者和听众的表现，发现模型在指称生成和理解方面的表现都落后于人类代理对。最后，我们实验了训练一个开放权重的说话者模型，该模型在与听众配对时具有沟通成功的证据，从而导致沟通成功的提高，从 58.9% 提高到 69.3%，甚至超过了最强的专有模型。

发布时间: 10/8/2024

查看原文

模型开发安全：一种以安全为中心的方案及其在视觉语言模型中的应用

作者: Gang Li, Wendi Yu, Yao Yao, Wei Tong, Yingbin Liang, Qihang Lin, Tianbao Yang

在现实世界中，一个支持学习的系统通常会经历多个模型开发周期，以增强系统处理困难或新兴任务的能力。这种持续的模型开发过程引发了一个重大问题，即为了获取新能力或改进现有能力而进行的模型开发可能会无意中丢失旧模型的能力，也被称为灾难性遗忘。现有的持续学习研究侧重于通过权衡先前任务和新任务的性能来减轻灾难性遗忘，以确保良好的平均性能。然而，它们对于许多应用（尤其是在安全关键领域）来说是不够的，因为未能严格保留旧模型的性能不仅会带来安全风险和不确定性，还会在重新改进和重新验证现有属性方面造成大量开支。为了解决这个问题，我们引入了模型开发安全，作为学习系统的保证，即在模型开发过程中，新模型应严格保留旧模型的现有保护能力，同时提高其在目标任务上的性能。为了确保模型开发安全，我们提出了一个以安全为中心的框架，将模型开发安全表述为数据相关的约束。在这个框架下，我们研究如何开发一个预训练的视觉语言模型（即 CLIP 模型）来获取新能力或改进图像分类的现有能力。我们提出了一种具有理论保证的高效约束优化算法，并利用其见解对具有任务相关头的 CLIP 模型进行微调，以促进模型开发安全。我们在自动驾驶和场景识别数据集上改进视觉感知能力的实验验证了所提出方法的有效性。

发布时间: 10/8/2024

查看原文

自适应时空多元时间序列插补的SDA-GRIN方法

作者: Amir Eskandari, Aman Anand, Drishti Sharma, Farhana Zulkernine

在各种应用中，多元时间序列经常会遇到缺失数据的问题。这个问题会严重影响依赖于数据的系统。可以利用空间和时间依赖关系来插补缺失样本。现有的插补方法通常忽略了空间依赖关系的动态变化。我们提出了一种空间动态感知图递归插补网络（SDA-GRIN），它能够捕获空间依赖关系的动态变化。SDA-GRIN 利用多头注意力机制来随时间调整图结构。SDA-GRIN 将多元时间序列建模为一系列时间图，并使用递归消息传递架构进行插补。我们在四个真实世界数据集上评估了 SDA-GRIN：SDA-GRIN 将 AQI 的 MSE 提高了 9.51%，将 AQI-36 的 MSE 提高了 9.40%。在 PEMS-BAY 数据集上，它实现了 1.94% 的 MSE 改善。详细的消融研究证明了窗口大小和缺失数据对方法性能的影响。项目页面：https://ameskandari.github.io/sda-grin/

发布时间: 10/8/2024

查看原文

基于脑启发的对抗鲁棒性正则化器

作者: Elie Attias, Cengiz Pehlevan, Dina Obeid

卷积神经网络（CNN）在许多视觉任务中表现出色，但它们往往对人眼无法察觉的微小输入扰动很敏感，常常导致任务失败。最近的研究表明，使用神经记录训练具有促进类脑表示的正则化器的 CNN 可以提高模型的鲁棒性。然而，使用神经数据的需求严重限制了这些方法的效用。是否有可能开发出模仿神经正则化器计算功能的正则化器，而无需神经记录，从而扩展这些技术的可用性和有效性？在这项工作中，我们检查了 Li 等人 (2019) 提出的一个神经正则化器，以提取其潜在优势。该正则化器使用神经表示相似性，我们发现这些相似性也与像素相似性相关。受此发现的启发，我们引入了一种新的正则化器，它保留了原始正则化器的本质，但使用图像像素相似性进行计算，从而消除了对神经记录的需求。我们表明，我们的正则化方法 1) 显着提高了模型对各种数据集上的一系列黑盒攻击的鲁棒性，以及 2) 计算成本低廉，仅依赖于原始数据集。我们的工作探讨了如何使用生物启发的损失函数来推动人工神经网络的性能。

发布时间: 10/8/2024

查看原文

用于视频修复的截断因果历史模型学习

作者: Amirhosein Ghasemabadi, Muhammad Kamran Janjua, Mohammad Salameh, Di Niu

视频恢复面临的一大挑战是建模由运动控制的视频帧的转换动态。本工作提出了一种名为 TURTLE 的模型，用于学习截断因果历史模型，以实现高效且高性能的视频恢复。与传统方法并行处理一系列上下文帧不同，TURTLE 通过将输入帧潜在表示的截断历史存储并总结为一个不断发展的历史状态来提高效率。这是通过一种复杂的基于相似性的检索机制实现的，该机制隐式地考虑了帧间运动和对齐。TURTLE 中的因果设计通过状态记忆的历史特征实现了推理中的递归，同时允许通过采样截断视频片段进行并行训练。我们在多个视频恢复基准任务上报告了新的最先进结果，包括视频去雪、夜间视频去雨、视频雨滴和雨痕去除、视频超分辨率、真实世界和合成视频去模糊以及盲视频去噪，同时与所有这些任务上现有的最佳上下文方法相比，降低了计算成本。

发布时间: 10/8/2024

查看原文

基于可微机器人-物体交互的机器人本体感知学习物体属性

作者: Peter Yichen Chen, Chao Liu, Pingchuan Ma, John Eastman, Daniela Rus, Dylan Randle, Yuri Ivanov, Wojciech Matusik

可微模拟已成为系统识别的强大工具。虽然先前的工作集中于使用特定于机器人的数据识别机器人属性或使用特定于物体的數據识别物体属性，但我们的方法通过利用来自机器人的信息来校准物体属性，而无需依赖物体本身的数据。具体来说，我们利用机器人关节编码器信息，该信息在标准机器人系统中普遍存在。我们的关键观察结果是，通过分析机器人对操纵物体的反应，我们可以推断出这些物体的属性，例如惯性和柔软度。利用这一见解，我们开发了机器人-物体交互的可微模拟，以反向识别被操纵物体的属性。我们的方法仅依赖于本体感受——机器人的内部感知能力——并且不需要外部测量工具或基于视觉的跟踪系统。这种通用方法适用于任何铰接式机器人，并且只需要关节位置信息。我们在一个低成本的机器人平台上证明了该方法的有效性，仅用几秒钟的笔记本电脑计算时间，就能够准确地估计被操纵物体的质量和弹性模量。

发布时间: 10/8/2024

查看原文

利用基本面分析预测股票趋势以获利

作者: John Phan, Hung-Fu Chang

本文探讨了机器学习模型（长短期记忆网络（LSTM）、一维卷积神经网络（1D CNN）和逻辑回归（LR））在基于基本面分析的股票趋势预测中的应用。与大多数仅使用技术分析或情绪分析的现有研究不同，我们强调利用公司的财务报表和内在价值进行趋势预测。使用来自 2019 年至 2023 年期间跨不同行业的上市公司的 269 个数据点数据集，我们采用关键财务比率和折现现金流（DCF）模型来制定两个预测任务：年度股票价格差异（ASPD）和当前股票价格与内在价值之间的差异（DCSPIV）。这些任务分别评估了年度盈利和当前盈利的可能性。我们的结果表明，LR 模型优于 CNN 和 LSTM 模型，在 ASPD 上的平均测试准确率为 74.66%，在 DCSPIV 上的平均测试准确率为 72.85%。这项研究为将基本面分析整合到机器学习中以进行股票预测提供了有限的文献，为学术研究和实际投资策略提供了宝贵的见解。通过利用基本数据，我们的方法突出了长期股票趋势预测的潜力，支持投资组合经理的决策过程。

发布时间: 10/8/2024

查看原文

尚未达到完美！评估大型语言模型在共病精神健康诊断中的应用

作者: Amey Hengle, Atharva Kulkarni, Shantanu Patankar, Madhumitha Chandrasekaran, Sneha D'Silva, Jemima Jacob, Rashmi Gupta

本研究介绍了 ANGST，一个全新的、首创的基准，用于从社交媒体帖子中识别抑郁症和焦虑症共病。与当代数据集不同，这些数据集往往通过将不同的精神健康障碍视为孤立的疾病来过度简化不同精神健康障碍之间的复杂相互作用，ANGST 允许多标签分类，允许每个帖子同时被识别为指示抑郁症和/或焦虑症。ANGST 包含由专家心理学家精心标注的 2876 个帖子，以及另外 7667 个银标帖子，它提出了一个更具代表性的在线心理健康话语样本。此外，我们使用各种最先进的语言模型（从 Mental-BERT 到 GPT-4）对 ANGST 进行基准测试。我们的结果为这些模型在复杂诊断场景中的能力和局限性提供了重要见解。虽然 GPT-4 通常优于其他模型，但没有一个模型在多类别共病分类中达到超过 72% 的 F1 分数，这突出了将语言模型应用于心理健康诊断方面持续存在的挑战。

发布时间: 10/8/2024

查看原文

你听到了吗？介绍 AADG：一个用于生成音频异常检测基准数据的框架

作者: Ksheeraja Raghavan, Samiran Gode, Ankit Shah, Surabhi Raghavan, Wolfram Burgard, Bhiksha Raj, Rita Singh

我们提出了一种新颖的通用音频生成框架，专门为异常检测和定位而设计。与现有的主要关注工业和机器相关声音的数据集不同，我们的框架侧重于更广泛的环境，尤其适用于仅有音频数据可用的现实世界场景，例如视频衍生或电话音频。为了生成此类数据，我们提出了一种受 LLM-Modulo 框架启发的新方法，该方法利用大型语言模型 (LLM) 作为世界模型来模拟此类现实世界场景。此工具模块化，允许即插即用。它的工作原理是首先使用 LLM 预测合理的现实世界场景。LLM 进一步提取组成声音、顺序以及这些声音应该合并的方式，以创建连贯的整体。与 LLM-Modulo 框架类似，我们在每个输出阶段都包含严格的验证，确保生成数据的可靠性。使用该框架生成的数据用作异常检测应用的基准，有可能提高在音频数据上训练的模型的性能，特别是在处理非分布情况时。因此，我们的贡献填补了音频异常检测资源中的关键空白，并提供了一个可扩展的工具，用于生成多样化、逼真的音频数据。

发布时间: 10/8/2024

查看原文