arXiv 论文列表

作者: Shubham Gupta, Isaac Neri Gomez-Sarmiento, Faez Amjed Mezdari, Mirco Ravanelli, Cem Subakan

我们提出了一种结合了基于 CNN 的架构和基于动态规划的后处理算法的哼唱转录新方法，并利用了最近推出的 HumTrans 数据集。我们识别并解决该数据集提供的偏移和起始 ground truth 的固有问题，提供启发式方法来改进这些注释，从而得到一个具有精确注释的数据集，这将有助于未来的研究。此外，我们将我们方法的转录准确率与其他几种方法进行了比较，证明了最先进 (SOTA) 的结果。我们所有的代码和更正后的数据集可在 https://github.com/shubham-gupta-30/humming_transcription 上获取。

发布时间: 10/10/2024

查看原文

基于人工智能的孕期心理健康早期筛查：利用有限数据分析孕妇自拍照片

作者: Gustavo A. Bas\'ilio, Thiago B. Pereira, Alessandro L. Koerich, Ludmila Dias, Maria das Gra\c{c}as da S. Teixeira, Rafael T. Sousa, Wilian H. Hisatugu, Amanda S. Mota, Anilton S. Garcia, Marco Aur\'elio K. Galletta, Hermano Tavares, Thiago M. Paix\~ao

重大抑郁症和焦虑症影响着全球数百万人，对精神健康问题的负担贡献巨大。早期筛查对于有效干预至关重要，因为及早识别精神健康问题可以显著改善治疗结果。人工智能（AI）可以为改善精神疾病筛查提供宝贵价值，实现早期干预并改善治疗结果。AI驱动的筛查可以利用对多种数据来源的分析，包括数字图像中的面部特征。然而，现有方法通常依赖于受控环境或专门设备，限制了其广泛适用性。本研究探讨了 AI 模型在给定以面部为中心的自拍照的情况下进行无处不在的抑郁症-焦虑症筛查的潜力。研究重点关注高风险孕妇，这一群体特别容易受到精神健康问题的影响。为了应对临床环境导致的训练数据有限问题，预训练模型被应用于两种不同的方法：微调最初用于面部表情识别的卷积神经网络（CNN）以及利用视觉语言模型（VLM）进行面部表情的零样本分析。实验结果表明，所提出的基于 VLM 的方法明显优于 CNN，准确率达到 77.6%，F1 分数为 56.0%。尽管还有很大的改进空间，但结果表明 VLM 可能是精神健康筛查的一种有前景的方法，尤其是在数据有限的情况下。

发布时间: 10/10/2024

查看原文

胜过老师：从特权 AI 反馈中学习的 LLM 智能体

作者: Sanjiban Choudhury, Paloma Sodhi

尽管大型语言模型 (LLM) 表现出令人印象深刻的决策能力，但当前的方法缺乏一种机制，无法在任务执行过程中从错误中自动自我改进。我们提出了 LEAP，这是一个迭代微调框架，它利用来自 AI 专家教师的反馈持续改进 LLM 代理。我们的关键见解是为专家教师配备特权状态——在训练期间可用但在测试时隐藏的信息。这使得即使是弱专家也能提供精确的指导，显著提高学生代理的性能，而无需在测试时访问特权信息。我们在各种决策基准上评估了 LEAP，包括基于文本的游戏 (ALFWorld)、网页导航 (WebShop) 和交互式编码 (Intercode Bash)。我们的实验表明，LEAP (1) 优于行为克隆和 ReAct 基线 (2) 使弱学生模型（例如，Llama3-8B）能够超越强教师模型 (GPT4-o) 的性能，以及 (3) 允许弱模型使用其特权版本进行自我改进。我们还提供了一个理论分析，表明 LEAP 的成功取决于平衡特权信息与学生的可实现性，我们通过实证验证了这一点。我们的代码可在 https://leap-llm.github.io 获取。

发布时间: 10/10/2024

查看原文

融入说话人身份信息有助于提升对抗环境下的语音识别性能

作者: Sagarika Alavilli, Annesya Banerjee, Gasser Elbanna, Annika Magaro

当前最先进的语音识别模型被训练为将声学信号映射到亚词单位。虽然这些模型表现出优越的性能，但它们仍然容易受到诸如背景噪声和语音增强等分布外条件的影响。在这项工作中，我们假设在语音识别过程中加入说话人表征可以增强模型对噪声的鲁棒性。我们开发了一种基于Transformer的模型，该模型联合执行语音识别和说话人识别。我们的模型利用来自Whisper的语音嵌入和来自ECAPA-TDNN的说话人嵌入，这些嵌入被联合处理以执行这两个任务。我们表明，联合模型在干净条件下的性能与Whisper相当。值得注意的是，联合模型在高噪声环境中（例如，具有8个说话人混响背景噪声）的性能优于Whisper。此外，我们的联合模型在处理高度增强的语音方面表现出色，包括正弦波和噪声编码语音。总的来说，这些结果表明，将语音表征与语音识别相结合可以导致在对抗性条件下更强大的模型。

发布时间: 10/10/2024

查看原文

基于联合分布信息的Shapley方法细化反事实解释，实现可操作的最小化

作者: Lei You, Yijun Bian, Lele Cao

反事实解释 (CE) 识别与观测数据高度相似但产生不同机器学习 (ML) 模型输出的数据点，为模型决策提供关键见解。尽管反事实解释适用于各种场景、目标和任务，但现有的 CE 方法往往缺乏可操作的效率，因为它们在向用户和利益相关者呈现的解释中包含了不必要的特征变化。我们通过提出一种方法来解决这个问题，该方法在保持 CE 有效性的同时，最小化所需的特征变化，而不会对模型或 CE 算法（无论是基于实例的还是基于组的）施加限制。关键创新在于计算观测数据和反事实数据之间的联合分布，并利用它为特征归因 (FA) 提供 Shapley 值信息。我们证明了最优传输 (OT) 有效地推导了这种分布，尤其是在使用 CE 方法时，观测数据和反事实数据之间的对齐不明确的情况下。此外，还发现了一个反直觉的发现：在进行 FA 时，依赖于 CE 生成机制定义的精确对齐可能是误导性的。我们提出的方法在多个数据集上的大量实验中得到验证，展示了其在将 CE 细化以提高可操作效率方面的有效性。

发布时间: 10/10/2024

查看原文

通过选择性重新校准提升预测器可靠性

作者: Thomas P. Zollo, Zhun Deng, Jake C. Snell, Toniann Pitassi, Richard Zemel

一个可靠的深度学习系统应该能够准确地表达其对预测的置信度，这种特性被称为校准。对于预训练模型而言，最有效的产生可靠置信度估计的方法之一是应用事后校准方法。常见的校准方法，如温度缩放，通常在少量数据上进行拟合，并在模型的输出空间中进行操作，而不是在更具表现力的特征嵌入空间中进行操作，因此通常只有一个或少数几个参数。然而，它们所应用的目标分布通常很复杂，难以用这样的函数很好地拟合。为此，我们提出了**选择性校准**，其中一个选择模型学习拒绝用户选择的一部分数据，以便使校准器能够专注于输入空间中可以用这种模型很好地捕获的区域。我们提供了理论分析来证明我们的算法，并在困难的医学图像和零样本分类任务上通过综合实验测试了我们的方法。我们的结果表明，选择性校准始终比各种选择和校准基线导致显著更低的校准误差。

发布时间: 10/10/2024

查看原文

基于大型语言模型的社交媒体广告气候微目标事后研究：主题洞察与公平性评估

作者: Tunazzina Islam, Dan Goldwasser

社交媒体上的气候变化传播越来越采用微目标策略，以有效地触达和影响特定的人口群体。本研究通过利用大型语言模型 (LLM) 检查 Facebook 广告，对气候运动中微目标实践进行了事后分析。我们的分析重点关注两个关键方面：人口统计目标和公平性。我们评估了 LLM 准确预测预期人口统计目标（例如性别和年龄组）的能力，总体准确率达到 88.55%。此外，我们指示 LLM 生成其分类的解释，从而为每个决策提供透明的推理。这些解释揭示了用于吸引不同人口细分的特定主题元素，突出了针对不同受众的独特策略。我们的研究结果表明，年轻成年人主要通过强调行动主义和环境意识的信息来进行目标定位，而女性则通过与照护角色和社会倡导相关的主题来进行目标定位。除了评估 LLM 在检测微目标信息方面的有效性之外，我们还进行了全面的公平性分析，以识别模型预测中潜在的偏差。我们的研究结果表明，虽然 LLM 整体表现良好，但存在某些偏差，特别是在老年人和男性受众的分类中。通过展示 LLM 在剖析和解释目标传播策略方面的有效性，并突出公平性问题，本研究为未来旨在提高社交媒体驱动的气候运动的透明度、问责制和包容性的研究提供了宝贵的框架。

发布时间: 10/10/2024

查看原文

扩散模型预测控制

作者: Guangyao Zhou, Sivaramakrishnan Swaminathan, Rajkumar Vasudeva Raju, J. Swaroop Guntupalli, Wolfgang Lehrach, Joseph Ortiz, Antoine Dedieu, Miguel L\'azaro-Gredilla, Kevin Murphy

我们提出了一种名为扩散模型预测控制（D-MPC）的新型MPC方法，该方法利用扩散模型学习多步动作建议和多步动力学模型，并将两者结合用于在线MPC。在流行的D4RL基准测试中，我们证明了其性能明显优于现有的使用MPC的基于模型的离线规划方法，并且与最先进的（SOTA）基于模型和无模型的强化学习方法具有竞争力。我们还说明了D-MPC在运行时优化新奖励函数和适应新动力学的能力，并突出了其相对于现有基于扩散的规划基线的优势。

发布时间: 10/10/2024

查看原文

大型语言模型是上下文强化学习者

作者: Giovanni Monea, Antoine Bosselut, Kiant\'e Brantley, Yoav Artzi

大型语言模型 (LLM) 可以通过上下文监督学习 (ICL) 来学习新的任务。这项工作研究了这种能力是否可以扩展到上下文强化学习 (ICRL)，其中模型在上下文中没有得到黄金标签，而只有它们过去的预测和奖励。我们发现 ICRL 的简单应用会惨败，并确定了根本原因是探索方面的根本缺陷，导致模型快速退化。我们提出了一种算法，通过增加测试时计算来解决这种缺陷，以及一种计算受限的近似方法。我们使用几个具有挑战性的分类任务来实证表明我们的 ICRL 算法可以从奖励中有效地学习，并分析了这种能力和我们方法的特征。总的来说，我们的结果揭示了 LLM 中非凡的 ICRL 能力。

发布时间: 10/10/2024

查看原文

RespLLM：利用多模态大型语言模型统一音频和文本，实现广义呼吸健康预测

作者: Yuwei Zhang, Tong Xia, Aaqib Saeed, Cecilia Mascolo

呼吸系统疾病的高发病率和死亡率突显了早期筛查的重要性。机器学习模型可以自动化临床咨询和听诊，在这一领域提供至关重要的支持。然而，涉及的数据，包括人口统计、病史、症状和呼吸音频，是异构且复杂的。现有的方法不足且缺乏泛化能力，因为它们通常依赖于有限的训练数据、基本的融合技术和特定任务的模型。在本文中，我们提出了 RespLLM，一种新型的多模态大型语言模型 (LLM) 框架，它统一了文本和音频表示，用于呼吸健康预测。RespLLM 利用预训练 LLM 的广泛先验知识，并通过跨模态注意力实现有效的音频文本融合。指令微调用于整合来自多个来源的不同数据，确保模型的泛化性和通用性。在五个真实世界数据集上的实验表明，RespLLM 在训练任务上的性能优于领先的基线，平均提高了 4.6%，在未见数据集上的性能提高了 7.9%，并促进了新任务的零样本预测。我们的工作为能够感知、倾听和理解异构数据的多模态模型奠定了基础，为可扩展的呼吸健康诊断铺平了道路。

发布时间: 10/10/2024

查看原文