arXiv:2409.18339v2 宣告类型: replace-cross
摘要:近年来,大型语言模型(LLMs)在许多自然语言处理(NLP)任务中取得了巨大的成功。除了其认知智能外,探索其在情感智能方面的潜力也同样重要,因为这能够使对话AI更加自然和富有同情心。最近的研究表明LLMs具备识别情感的能力,但这些研究往往专注于单一情感标签,而忽视了人类情感的复杂性和模糊性。本研究首次通过利用LLMs的强大泛化能力和基于上下文的学习能力,解决这一问题,探索LLMs在识别模糊情感方面的潜力。我们设计了零样本和少量样本的提示,并结合过去的对话作为上下文信息,用于模糊情感识别。使用三个数据集进行的实验表明,LLMs在识别模糊情感方面具有显著的潜力,并强调了包括上下文信息的巨大益处。此外,我们的研究结果表明,LLMs在识别不太模糊的情感方面表现出高度的效果,并且有望识别更模糊的情感,其能力和人类的感知能力相媲美。
arXiv:2409.14876v2 通知类型: 交叉替换
摘要:乳腺癌是全球健康的重大问题,乳腺影像诊断一直具有挑战性。乳腺摄影图像通常具有极高的分辨率,病灶仅占据非常小的区域。神经网络中的下采样很容易导致微钙化或细微结构的丢失,使得传统的神经网络架构难以解决这些问题。为应对这些挑战,我们提出了一种具有三重信息融合的上下文聚类网络。首先,相比于CNN或变压器,我们发现上下文聚类方法(1)更具计算效率(2)更容易关联结构或病理特征,使其适用于乳腺摄影的临床任务。其次,我们提出了一种三重信息融合机制,整合了全局信息、基于特征的局部信息以及基于补丁的局部信息。我们提出的这种方法在两个公开数据集Vindr-Mammo和CBIS-DDSM上进行了严格的评估,使用五个独立的分割以确保统计稳健性。我们的方法在Vindr-Mammo上达到AUC 0.828,在CBIS-DDSM上达到AUC 0.805,分别比第二好的方法高出3.1%和2.4%。这些改进具有统计显著性(p<0.05),证明了三重信息融合上下文聚类网络的优势。总体而言,我们的上下文聚类框架展示了作为大规模乳腺摄影筛查可扩展且成本效益高的解决方案的强大潜力,能够促进更高效和准确的乳腺癌检测。我们的方法可通过https://github.com/Sohyu1/Mammo_Clustering访问。
arXiv:2409.13694v3 通知类型: replace-cross
摘要:检索增强生成(RAG)越来越被认作是一种通过整合外部知识来减轻大型语言模型(LLMs)幻觉的有效方法。尽管已经投入了大量努力,大多数研究仍集中于单一类型的外部知识来源。相比之下,大多数实际应用涉及多种来源的多样知识,这一场景尚未得到充分探索。主要困境在于缺乏一个包含多种知识源的合适数据集,以及与之相关的预探索。为了解决这些挑战,我们标准化了一个融合了不同且互补领域结构化和非结构化知识的基准数据集。基于该数据集,我们识别出在这些条件下现有方法的局限性。因此,我们开发了PruningRAG,这是一种即插即用的RAG框架,它使用多粒度修剪策略,更有效地整合相关背景信息并减轻误导性信息的负面影响。广泛的实验结果表明了PruningRAG的出色性能,我们的洞察性发现也得到了报告。我们的数据集和代码可公开获取\footnote{https://github.com/USTCAGI/PruningRAG}。
arXiv:2409.13338v2 更新类型: 交叉替换
摘要: 谁是美国总统?这个问题的答案取决于提问的时间。尽管大型语言模型(LLMs)在各种推理任务中得到了评估,但它们往往忽略了时间这一关键维度。在现实世界的情景中,答案的正确性通常与时间上下文密切相关。为了解决这一差距,我们提出了一种新的框架和数据集,涵盖了从2018年到2024年的超过8,000个事件,并且这些数据集在日级别进行了标注,来源涵盖了政治、科学和商业等多个领域。我们的TimeShift评估方法系统地测试了LLMs对时间推理的能力,揭示了基础模型在时间敏感的回忆方面往往优于指令优化和合成训练的版本。此外,我们发现即使大规模模型在处理改写过的事实时也表现出脆弱性,这揭示了时间一致性问题中的未解决挑战。通过识别这些限制,我们的工作为开发能够适应现实世界知识动态性的具备时间意识的语言模型提供了一大步进展。
arXiv:2409.10496v4 Announce 类型: replace-cross
摘要:多模态模型对于音乐理解任务至关重要,因为它们能够捕捉音频和歌词之间复杂的交互作用。然而,随着这些模型的日益普及,其可解释性的需求也随之增加——理解这些系统如何做出决策对于确保公平性、减少偏见并促进信任至关重要。在本文中,我们介绍了一种名为 MusicLIME 的模型无偏差特征重要性解释方法,该方法专为多模态音乐模型设计。与传统的一模态方法不同,后者各自分析每种模态而忽略它们之间的交互作用,往往导致解释不完整或具有误导性,MusicLIME 揭示了音频和歌词特征如何相互作用并为预测做出贡献,提供了一个涵盖模型决策过程的整体视角。此外,我们通过将局部解释聚合为全局解释来增强局部解释,给用户提供了更全面的模型行为视角。通过这项工作,我们旨在提高多模态音乐模型的可解释性,使用户能够做出明智的选择,并促进更加公平、公正和透明的音乐理解系统。
arXiv:2409.09866v2 通知类型: 替换-交叉
摘要:歌声包含比普通声音更加丰富多样的信息,例如多样的音质和声学特征。然而,现有的公开音频-文本数据集仅捕获了有限的属性并且缺乏声学特征,导致其在下游任务(如风格说明)中的实用性有限。为弥补这一缺口,我们正式提出了歌声风格说明任务,并引入了S2Cap数据集,该数据集包含了多样化的音质、声学和人口统计学属性的全面描述。基于此数据集,我们开发了一种简单而有效的基础算法来解决歌声风格说明问题。该算法利用了两种新型的技术组件:CRESCENDO 用于减轻预训练的单模模型之间的对齐问题,以及分离监督来规制模型使其专注于歌声。尽管算法结构简单,但所提出的方法在与最先进的基线相比时表现更优。
arXiv:2409.07966v4 宣告类型:替换-交叉
摘要:基于音频的3D面部动画合成是学术界和工业界都关注的一个活跃研究领域。尽管在这个领域已经取得了令人鼓舞的结果,但最近的方法大多集中在唇部同步和身份控制上,忽视了情绪及其控制在生成过程中的作用。这主要是由于缺乏富有情感的面部动画数据和能够同时生成带有情感表达的语音动画的算法。此外,大多数模型是确定性的,这意味着给定相同的音频输入,它们会产生相同输出运动。我们认为,情绪和非确定性对于生成多样化和富有情感的面部动画至关重要。在这篇论文中,我们提出了一种使用两阶段VQ-VAE模型和一个富有情感的3D面部动画数据集3DMEAD的非确定性神经网络方法ProbTalk3D,用于情感可控的语音驱动3D面部动画合成。我们通过客观评价、定性评价以及感知用户研究,对我们的模型与最近的3D面部动画合成方法进行了广泛的比较分析。我们强调了几种更适合评估随机输出的客观指标,并使用真实的和真实数据进行主观评价。据我们所知,这是第一个结合丰富情感数据集和带有情感标签和强度级别的情感控制的非确定性3D面部动画合成方法。我们的评估表明,所提模型在情感控制的确定性和非确定性模型中表现更优。我们建议观看补充视频进行质量判断。整个代码库已在公开提供(https://github.com/uuembodiedsocialai/ProbTalk3D/)。
arXiv:2409.06635v3 宣告类型: replace-cross
摘要:大规模语言模型(LLMs)的迅速发展显著增强了自然语言处理能力,促进了能够处理和理解语音和音频输入的AudioLLMs的发展。现有的AudioLLMs通常将预训练的音频编码器与预训练的LLM结合使用,随后对特定的音频任务进行微调。然而,预训练的音频编码器在捕捉新任务和数据集中的特征方面受到了限制。为了解决这一问题,我们提出在AudioLLM框架中引入混合的“弱”编码器(MoWE)。MoWE通过添加一个基础编码器以及一组相对较轻量的编码器,这些编码器可以根据音频输入的选择性激活来增强特征提取,而不会显著增加模型大小。我们的实验证明,MoWE有效提高了多任务性能,使得AudioLLMs能够应用于更广泛的音频任务。
arXiv:2409.03257v2 类型公告:替换交叉
摘要:本文在十一个月内进行纵向研究,以解决之前关于Open Ko-LLM Leaderboard的研究所依赖的仅五个月受限观测期的局限性。通过延长分析时间,我们旨在提供对开发韩语大型语言模型(LLMs)进步的更全面理解。我们的研究由三个主要的研究问题引导:(1)在Open Ko-LLM Leaderboard上,随着时间的推移,在多样化的任务中提高LLM性能的具体挑战是什么?(2)模型规模如何影响各种基准上的任务性能相关性?(3)Open Ko-LLM Leaderboard上的排行榜排名模式随着时间的推移发生了怎样的变化?通过对这一时期内的1,769个模型进行分析,我们的研究提供了对LLM持续进步和评估框架演变性质的全面考察。
arXiv:2409.00557v3 宣告类型: replace-cross
摘要:配备了调用函数的能力,现代大规模语言模型(LLMs)可以通过利用外部工具来解决一系列仅靠语言技能无法完成的任务。然而,有效地执行这些工具不仅仅依赖于LLMs的高级能力,还依赖于精准的用户指令,而在实际世界中往往无法确保这一点。为了评估在不完美指令下LLMs工具使用的性能,我们详细检查了从用户查询的真实世界指令,分析了错误模式,并构建了一个具有挑战性的工具使用基准,称为Noisy ToolBench(NoisyToolBench)。我们发现,由于下一个标记预测训练目标,LLMs往往会任意生成缺失的参数,这可能会导致幻觉和风险。为了解决这个问题,我们提出了一个名为需要时提问(Needed when Asked, AwN)的新型框架,它在遇到因指令不明确而遇到障碍时提示LLMs向用户提问。此外,为了减少用户-LLM交互中的手动劳动,并从准确性和效率的角度评估LLMs在工具利用方面的性能,我们设计了一个名为ToolEvaluator的自动化评估工具。我们的实验表明,AwN在NoisyToolBench中的工具学习现有框架中表现出显著优越性。我们将发布所有相关代码和数据集以支持未来的研究。