LLM2D

arXiv 论文列表

作者: Katarzyna Kobalczyk, Nicolas Astorga, Tennison Liu, Mihaela van der Schaar
arXiv:2502.04485v1 类型: cross 摘要: 尽管大型语言模型(LLMs)在各种基准测试中表现令人印象深刻,但在处理现实世界交互中常见的语义含糊问题方面的能力仍然尚未得到充分探索。为了解决这一问题,我们提出了一种任务含糊性的正式定义,并从贝叶斯实验设计的角度重新定义任务去含糊化问题。通过提出澄清性问题,LLM代理可以获取额外的任务规范,逐步缩小可行解的空间,降低生成不满意输出的风险。然而,生成有效的澄清性问题需要LLM代理进行一种形式的元认知推理,而目前LLM可能还缺乏这种能力。我们提出的一种主动任务去含糊化方法使LLM代理能够生成最大化信息增益的目标问题。实际上,这种方法将推理负担从隐含转移到了显式地关于可行解空间的推理。实验证明,这种问题选择形式在任务去含糊化方面比仅在问题空间内进行推理的方法更有效。
发布时间: 2/10/2025
查看原文
作者: Soham Deshmukh, Shuo Han, Rita Singh, Bhiksha Raj
arXiv:2502.04476v1 类别:交叉学科 摘要:理解并解释音频录音之间的差异对于音频鉴证、质量评估和音频生成等领域至关重要。这涉及到识别和描述音频事件、声学场景、信号特征及其对聆听者的情感影响。本文是第一篇全面研究解释音频差异任务并提出基准及基线的工作。首先,我们从AudioCaps和Clotho音频描述数据集中衍生出两个新的音频差异解释数据集。使用大型语言模型(LLMs),我们生成了三个级别的差异解释:(1)简洁的音频事件和对象描述,(2)简短的关于音频事件、声学场景和信号特征的句子,以及(3)全面的解释,包括语义和聆听者的情感。基线部分,我们使用前缀调整方法,其中来自两段音频文件的嵌入用于提示冻结的语言模型。我们通过实验分析和消融研究发现,朴素的基线难以区分感知上相似的声音并生成详细的第3级解释。为解决这些问题,我们提出了ADIFF,引入了跨投影模块、位置描述和三步训练过程,以增强模型生成详细解释的能力。我们使用客观指标和人工评估来评估我们的模型,并展示我们的模型改进在性能上比朴素基线和最先进的音频-语言模型(ALM)Qwen Audio有了显著的提升。最后,我们进行了多个消融研究,以研究跨投影、语言模型参数、位置描述、第三阶段微调的影响,并展示了我们的发现。我们的基准、发现以及强大的基线为更精致和人性化的音频差异解释铺平了道路。
发布时间: 2/10/2025
查看原文
作者: Jiahui Chen, Amy Zhang, Adriana Romero-Soriano
arXiv:2502.04475v1 宣传类型:交叉 摘要:文本到图像的扩散模型生成图像的能力取得了显著进步,能够从描述性文本中生成高度逼真的图像,并增加了利用合成图像训练计算机视觉模型的可能性。为了作为有效的训练数据,生成的图像必须既高度逼真,又在目标数据分布的支持范围内具有足够的多样性。然而,最先进的条件图像生成模型主要针对创意应用进行了优化,优先考虑图像的真实性和对提示的适应性,而忽略了条件多样性。在本文中,我们研究了如何改进生成图像的多样性,以增加其对下游图像分类模型训练的有效性,而无需微调生成图像模型。我们发现,在增强的真实图像和文本提示下条件生成过程产生的生成图像能够作为有效的下游训练合成数据集。在真实训练图像上进行条件生成过程能够使生成图像领域内与真实图像分布相符,而数据增强增加了视觉多样性,从而提高了下游分类器的性能。我们在总共五个已建立的长尾和少数镜头图像分类基准上验证了增强条件生成,并展示了在一个长尾基准上的一致改进以及在剩余四个基准的极端少数镜头场景中的显著改进。这些结果构成了有效利用合成数据进行下游训练的重要一步。
发布时间: 2/10/2025
查看原文
作者: Guillem Arias, Ramon Baldrich, Maria Vanrell
arXiv:2502.04470v1 公告类型: cross 摘要:本文探讨了如何在目前人工智能领域最具影响力的视觉语言模型 CLIP(对比语言-图像预训练)中编码颜色。通过对为此任务创建的合成数据集进行不同的实验后,我们得出结论,CLIP 能够为带有颜色的视觉刺激赋予正确的颜色标签,但发现了两个主要缺陷:(a)对与颜色概念关系较弱的中性色刺激有明显的偏好偏差,因此白色、灰色和黑色很少被赋予颜色标签;以及(b)倾向于优先考虑文本信息,而忽视其他视觉信息。我们通过详尽的圣罗opes效应测试证明了这一点。为了找出这些颜色缺陷的原因,我们从神经元层面分析了内部表示。我们得出的结论是,CLIP 在网络的深层网络中表现出大量对文本具有选择性的神经元,以及少量的多模态颜色神经元,这些多模态颜色神经元可能是正确理解颜色概念的关键。我们的研究强调,在神经网络中精炼颜色表示机制的必要性,以便更好地理解人类对颜色的认知,从而提升像 CLIP 这样的多模态模型在实际应用场景中的效果和灵活性。
发布时间: 2/10/2025
查看原文
作者: Imad Eddine Marouf, Enzo Tartaglione, Stephane Lathuiliere, Joost van de Weijer
arXiv:2502.04469v1 宣布类型: cross 摘要:视觉问答中的连续学习(VQACL)要求模型在学习新的多模态任务(塑性)的同时保留先前任务的知识(稳定性)。VQACL 的多模态性质提出了独特的挑战,要求模型在视觉和文本域之间保持稳定性的同时,保留塑性以适应新的对象和推理任务。现有的方法大多针对单模态任务设计,往往在平衡这些需求时表现不佳。在本文中,我们引入了QUestion-only replay with Attention Distillation(QUAD),这是一种新颖的VQACL方法,仅利用过去的任务问题进行正则化,从而无需存储视觉数据,解决了内存和隐私问题。QUAD 通过引入一种仅问题回放机制,有选择地使用以前任务的问题以防止对当前任务答案空间的过拟合,从而缓解了超出答案集的问题。为补充这一点,我们提出了注意力一致性蒸馏,这是一种独特的技术,能够在任务之间同时确保同一模态内和跨模态注意力的一致性,从而保留关键的视觉-语言关联。在VQAv2和NExT-QA上的广泛实验表明,QUAD 显著优于现有最先进的方法,在连续视觉问答中实现了稳健的性能。
发布时间: 2/10/2025
查看原文
作者: Luca Della Libera, Francesco Paissan, Cem Subakan, Mirco Ravanelli
arXiv:2502.04465v1 宣告类型: cross 摘要:大规模语言模型通过在大规模数据集上进行自我监督的预训练,革命性地改变了自然语言处理。受此成功的影响,研究人员探索了将这些方法应用于语音识别,通过神经音频编解码器将连续音频离散化成令牌。然而,现有方法存在一些局限性,包括高比特率、语义或声学信息的损失,以及在试图同时捕捉这些信息时对多码本设计的依赖,这增加了下游任务的架构复杂性。为了解决这些挑战,我们引入了FocalCodec,这是一种基于焦点调制的高效低比特率编解码器,使用单一的二进制码本将语音压缩至0.16至0.65 kbps之间。FocalCodec在更低比特率下提供了与当前最佳性能相当的语音重合成和声音转换性能,同时有效处理了多语言语音和嘈杂环境。下游任务的评估表明,FocalCodec成功保留了足够的语义和声学信息,同时也很适合生成建模。演示样本、代码和检查点可在 https://lucadellalib.github.io/focalcodec-web/ 获取。
发布时间: 2/10/2025
查看原文
作者: Yu-Neng Chuang, Leisheng Yu, Guanchu Wang, Lizhe Zhang, Zirui Liu, Xuanting Cai, Yang Sui, Vladimir Braverman, Xia Hu
arXiv:2502.04428v1 类别: cross 摘要: 大型语言模型(LLMs)越来越多地部署在边缘设备上。为了提高在设备上的部署效率,通常会采用小语言模型(SLMs),因为它们具有高效的解码延迟和降低的能量消耗。然而,这些SLMs在处理复杂查询时往往会生成不准确的响应。一种有前途的解决方案是基于不确定性的小语言模型路由,当SLMs产生低置信度的响应时,将高风险查询转交给更强的LLMs处理。这遵循“如果你缺乏信心,寻求更强的支持”的原则,以增强可靠性。依赖更强大的LLMs虽然有效,但也增加了调用成本。因此,在效率和效果之间取得平衡的路由策略仍然是一个关键挑战。此外,如何有效地将路由策略推广到新数据集仍然未被充分探索。在本文中,我们在超过1500种设置中对SLMs到LLMs的不确定性驱动路由策略进行了全面调查和基准测试。我们的研究发现:首先,不同不确定性量化(UQ)方法中的不确定性-正确性对齐显著影响路由性能。其次,不确定性分布更多地依赖于特定的SLMs和所选择的UQ方法,而不是下游数据。基于此洞见,我们提出了一种校准数据构造指令管道,并开放了一个构建的保留集,以增强在新下游场景中的路由泛化能力。实验结果表明,校准数据有效地提高了路由性能,而无需任何新的数据。
发布时间: 2/10/2025
查看原文
作者: Edoardo Loru, Jacopo Nudo, Niccol\`o Di Marco, Matteo Cinelli, Walter Quattrociocchi
arXiv:2502.04426v1 类型:交叉学科 摘要:大型语言模型(LLMs)越来越多地被用于评估新闻可信度,但对于它们如何作出这些判断知之甚少。虽然先前的研究已经考察了LLM输出中的政治偏见或是它们进行自动事实核查的潜在能力,但它们内部评估过程仍然很大程度上未被研究。了解LLMs如何评估可信度可以为我们提供关于AI行为以及可信度如何在大规模语言模型中构建和应用的洞察。本研究对最前沿的LLMs——Gemini 1.5 Flash(谷歌)、GPT-4o mini(OpenAI)和LLaMA 3.1(Meta)——进行了基准测试,将其与结构化、专家驱动的评价系统(如NewsGuard和Media Bias Fact Check)进行对比。除了评估分类性能外,我们还分析了塑造LLMs决策的语言标志,识别出哪些词汇和概念驱动它们的评估。通过检查关键词频率、上下文决定因素和排名分布,我们发现了LLMs如何将可信度与特定语言特征关联起来的模式。除了静态分类之外,我们提出了一种框架,其中LLMs通过检索外部信息、查询其他模型并调整其响应,来进一步细化其可信度评估。这使我们能够调查其评估是否反映的是结构化的推理还是主要依赖于先前学习的关联。
发布时间: 2/10/2025
查看原文
作者: He Hu, Yucheng Zhou, Lianzhong You, Hongbo Xu, Qianning Wang, Zheng Lian, Fei Richard Yu, Fei Ma, Laizhong Cui
arXiv:2502.04424v1 宣告类型: cross 摘要: 随着多模态大型语言模型(MLLMs)被集成到机器人系统和各种AI应用中,将情感 intelligence (EI) 能力嵌入到这些模型中对于使机器人能够有效应对人类的情感需求并在现实世界场景中无缝互动变得至关重要。现有的静态、基于文本或图文基准忽略了真实世界交互的多模态复杂性,无法捕捉情感表达的动态性和多模态性质,使得它们不足以评估MLLMs的情感intelligence。基于已建立的情感智能心理理论,我们构建了EmoBench-M,这是一种新的基准,旨在从三个关键维度对MLLMs在13种评价场景中的EI能力进行评估:基础情感识别、对话情感理解以及社会复杂情感分析。对开源和闭源MLLMs在EmoBench-M上的评估揭示了它们与人类之间存在显著的性能差距,突显了需要进一步提高其EI能力的必要性。所有基准资源,包括代码和数据集,均可在 https://emo-gml.github.io/ 公开访问。
发布时间: 2/10/2025
查看原文
作者: Khushboo Verma, Alan Michels, Ergi Gumusaneli, Shilpa Chitnis, Smita Sinha Kumar, Christopher Thompson, Lena Esmail, Guruprasath Srinivasan, Chandini Panchada, Sushovan Guha, Satwant Kumar
arXiv:2502.04423v1 交叉类型 摘要:转诊工作流程的低效,包括转诊不一致和延误,导致患者结果不佳和医疗成本增加。本研究探讨了基于初级诊断记录预测程序需求的可能性,以提高转诊准确性、简化工作流程并为患者提供更好的护理。通过使用基于Base General Embeddings (BGE)构建的机器学习模型对去识别的德克萨斯大学休伊特医疗中心2086例骨科转诊数据集进行语义提取分析。为了确保其实用性,进行了噪声容忍度实验,并采用了过采样技术来缓解类别不平衡问题。所选的最优且简约的嵌入模型显示出高的预测准确性(ROC-AUC:0.874,MCC:0.540),有效地区分出需要手术干预的患者。降维技术证实了该模型捕捉临床关系的能力。阈值灵敏度分析确定了最优决策阈值(0.30),以平衡精确性和召回率,从而最大化转诊效率。在预测建模分析中,过程率从11.27%增加到最优的60.1%,代表了433%的改进,对其运营效率和医疗服务收入有重大影响。 我们的研究结果表明,转诊优化可以增强初级和手术护理的整合。通过这种方法,可以精确和及时地预测程序需求,从而减少延误、改进手术规划并减轻行政负担。此外,研究结果还突显了临床决策支持作为提高患者结果和医疗服务系统效率的可扩展解决方案的潜力。
发布时间: 2/10/2025
查看原文