arXiv 论文列表

作者: Bruno Croso Cunha da Silva, Thomas Palmeira Ferraz, Roseli De Deus Lopes

社交媒体上的虚假信息带来了社会和技术双重挑战，需要强大的检测系统。虽然之前的研究已经将文本信息整合到传播网络中，但它们尚未充分利用基于Transformer的语言模型在高质量上下文文本表示方面的进步。这项工作通过将基于Transformer的文本特征整合到图神经网络 (GNN) 中来解决这一差距，用于虚假新闻检测。我们证明了上下文文本表示增强了GNN的性能，与没有文本特征的模型相比，宏观F1指标提高了33.8%，比静态文本表示提高了9.3%。我们进一步研究了不同特征来源的影响以及噪声数据增强的效果。我们预计我们的方法将为进一步的研究开辟道路，并且我们已公开发布代码。

发布时间: 11/26/2024

查看原文

图信号自适应消息传递

作者: Yi Yan, Changran Peng, Ercan Engin Kuruoglu

本文提出了一种名为图信号自适应消息传递（GSAMP）的新型消息传递方法，该方法能够同时对时变图信号进行在线预测、缺失数据插补和噪声去除。与将相同滤波器应用于整个图的传统图信号处理方法不同，GSAMP 的时空更新采用了一种不同的方法，该方法利用每个节点的局部计算。此更新基于从旨在最小化观测值和估计值之间差异的优化问题中获得的自适应解。GSAMP 可有效处理高斯噪声和脉冲噪声条件下的真实世界时变图信号。

发布时间: 11/26/2024

查看原文

语音基准测试：基于大型语言模型的语音助手性能评估

作者: Yiming Chen, Xianghu Yue, Chen Zhang, Xiaoxue Gao, Robby T. Tan, Haizhou Li

基于大型语言模型 (LLM) 的成功，GPT-4o 等最新进展使得通过基于 LLM 的语音助手实现实时语音交互成为可能，与传统的基于文本的交互相比，极大地改善了用户体验。然而，缺乏用于评估这些语音交互能力的基准测试阻碍了基于 LLM 的语音助手发展的进步。目前的评估主要集中在自动语音识别 (ASR) 或使用清晰语音的一般知识评估上，忽略了涉及不同说话人特征、环境和内容因素的更复杂、更真实的场景。为了解决这个问题，我们引入了 VoiceBench，这是第一个旨在对基于 LLM 的语音助手进行多方面评估的基准。VoiceBench 还包括包含上述三种关键现实世界变化的真实和合成语音指令。大量的实验揭示了当前基于 LLM 的语音助手模型的局限性，并为该领域的未来研究和开发提供了宝贵的见解。

发布时间: 11/26/2024

查看原文

理解文本到SQL语义解析中算法透明度对模型解释的影响

作者: Daking Rai, Rydia R. Weiland, Kayla Margaret Gabriella Herrera, Tyler H. Shaw, Ziyu Yao

解释AI的决策对于培养用户对这些系统的信任至关重要。本文研究了名为“文本到SQL语义解析”的结构化预测任务的解释方法，该任务将自然语言问题转换为结构化查询语言(SQL)程序。在这个任务设置中，我们设计了三个级别的模型解释，每个级别都揭示了不同程度的模型决策细节（称为“算法透明度”），并研究了不同的模型解释如何对用户体验产生不同的影响。我们对约100名参与者的研究表明：(1)低/高透明度的解释通常会导致用户对模型决策的依赖程度降低/增加，而中等透明度的解释则取得了良好的平衡。(2)只有中等透明度参与者组能够进一步参与交互并在一段时间内表现出性能提升，并且(3)他们在研究前后信任度的变化最小。

发布时间: 11/26/2024

查看原文

离线强化学习在作业车间调度问题中的应用

作者: Imanol Echeverria, Maialen Murua, Roberto Santana

深度学习的最新进展显示出其在实时解决组合优化问题方面的巨大潜力。与传统方法不同，深度学习能够高效地生成高质量的解决方案，这对于路由和调度等应用至关重要。然而，现有的方法，如深度强化学习 (RL) 和行为克隆，存在显著的局限性：深度强化学习学习速度慢，而行为克隆完全依赖于专家行为，这可能导致泛化问题并忽略优化目标。本文介绍了一种新颖的离线强化学习方法，该方法专为具有复杂约束的组合优化问题而设计，其中状态表示为异构图，动作空间是可变的。我们的方法将动作编码到边属性中，并在预期奖励与专家解决方案的模仿之间取得平衡。我们在作业车间调度和柔性作业车间调度基准上证明了该方法的有效性，其性能优于最先进的技术。

发布时间: 11/26/2024

查看原文

MMDS：一种整合图像分析和基于知识的科室会诊的多模态医学诊断系统

作者: Yi Ren, HanZhi Zhang, Weibin Li, Jun Fu, Diandong Liu, Tianyi Zhang, Jie He, Licheng Jiao

我们提出了一种名为 MMDS 的系统，该系统能够识别医学图像和患者面部细节，并提供专业的医学诊断。该系统由两个核心组件构成：第一部分是对医学图像和视频的分析。我们训练了一个专门的多模态医学模型，能够解释医学图像并准确分析患者的面部表情和面瘫情况。该模型在 FER2013 面部表情识别数据集上达到了 72.59% 的准确率，在识别“快乐”情绪方面达到了 91.1% 的准确率。在面瘫识别方面，该模型的准确率达到了 92%，比 GPT-4o 高出 30%。基于此模型，我们开发了一个用于分析面瘫患者面部运动视频的解析器，实现了对瘫痪严重程度的精确分级。在对 30 个面瘫患者视频进行测试中，该系统的分级准确率达到了 83.3%。第二部分是生成专业的医学回复。我们采用了一个大型语言模型，并将其与医学知识库集成，以根据对医学图像或视频的分析生成专业的诊断。核心创新在于我们开发了一种特定科室的知识库路由管理机制，大型语言模型通过该机制按医学科室对数据进行分类，并在检索过程中确定要查询的适当知识库。这显著提高了 RAG（检索增强生成）过程中的检索准确率。

发布时间: 11/26/2024

查看原文

将代谢信息整合到大型语言模型中用于临床时间序列异常检测

作者: Maxx Richard Rahman, Ruoxuan Liu, Wolfgang Maass

临床时间序列中的异常检测在识别不同生物参数中的可疑模式方面具有巨大潜力。本文提出一种有针对性的方法，将临床领域知识融入大型语言模型 (LLM) 以提高其检测异常的能力。我们引入了代谢通路驱动提示 (MPP) 方法，该方法整合了代谢通路的相关信息，以更好地捕捉生物样本中的结构和时间变化。我们将该方法应用于体育运动中的兴奋剂检测，重点关注类固醇代谢，并使用运动员的真实世界数据进行评估。结果表明，我们的方法通过利用代谢背景信息提高了异常检测性能，从而对运动员档案中的可疑样本进行更细致、更准确的预测。

发布时间: 11/26/2024

查看原文

关于基础模型的理论综述

作者: Shi Fu, Yuzhu Chen, Yingjie Wang, Dacheng Tao

理解黑盒基础模型（FMs）的内部机制对于人工智能及其应用至关重要，但也极具挑战性。过去十年，人们长期关注的是它们的解释性，从而发展出事后可解释的方法来解释黑盒FMs已做出的特定决策。然而，这些可解释的方法在忠实度和资源需求方面存在一定的局限性。因此，应该考虑一类新的可解释方法，以准确、全面、启发式且资源轻量的方式揭示FMs的底层机制。本综述旨在回顾那些符合上述原则并已成功应用于FMs的可解释方法。这些方法深深植根于机器学习理论，涵盖了泛化性能、表达能力和动态行为的分析。它们对FMs的整个工作流程进行了彻底的解释，从推理能力和训练动态到其伦理影响。最终，基于这些解释，本综述确定了FMs未来的前沿研究方向。

发布时间: 11/26/2024

查看原文

大型语言模型在随机子空间的零阶微调

作者: Ziming Yu, Pan Zhou, Sike Wang, Jia Li, Hua Huang

微调大型语言模型 (LLM) 已被证明可有效用于各种下游任务。然而，随着LLM规模的增长，反向传播的内存需求也变得越来越高昂。零阶 (ZO) 优化方法通过使用前向传播来估计梯度，提供了一种内存高效的替代方案，但梯度估计的方差通常与模型的参数维度线性相关——这对LLM来说是一个重大问题。本文提出了随机子空间零阶 (SubZero) 优化方法来解决LLM高维性带来的挑战。我们引入了一种针对LLM的低秩扰动，它显著降低了内存消耗，同时提高了训练性能。此外，我们证明了我们的梯度估计与反向传播梯度非常接近，方差比传统的ZO方法更低，并且与SGD结合使用时能够保证收敛。实验结果表明，与MeZO等标准ZO方法相比，SubZero提高了微调性能，并实现了更快的收敛速度，涵盖了各种语言建模任务。

发布时间: 11/26/2024

查看原文

少数群体关注的文本到图像生成：基于提示词优化

作者: Soobin Um, Jong Chul Ye

我们研究了使用预训练的文本到图像 (T2I) 潜在扩散模型生成少数样本的问题。在 T2I 生成中，少数样本可以定义为存在于文本条件数据分布的低密度区域的样本。它们对于现代 T2I 生成器的各种应用（例如数据增强和创意 AI）非常有价值。不幸的是，现有的预训练 T2I 扩散模型主要关注高密度区域，这很大程度上是由于引导采样器（如 CFG）的影响，而引导采样器对于生成高质量的生成至关重要。为了解决这个问题，我们提出了一种新颖的框架来对抗 T2I 扩散模型的高密度关注。具体来说，我们首先开发了一个在线提示优化框架，该框架可以在推理过程中鼓励所需属性的出现，同时保留用户提供的提示的语义内容。随后，我们将这个通用的提示优化器定制成一个专门的求解器，通过结合精心设计的似然目标来促进少数特征的生成。我们在各种类型的 T2I 模型上进行的综合实验表明，与现有采样器相比，我们的方法显著增强了生成高质量少数样本的能力。

发布时间: 11/26/2024

查看原文