arXiv:2505.00035v1 宣告类型:交叉
摘要:本文提出了一个全面的计算框架,用于分析嘻哈歌词中的语言复杂性和社会文化趋势。利用涵盖146位有影响力的艺术家、时间跨度为四个十年(1980-2020)的3,814首歌曲数据集,我们运用自然语言处理技术量化了歌词复杂性的多个维度。我们的分析结果显示,在研究期间词汇多样性增加了23.7%,同时东海岸艺术家的词汇变化率比其他地区高17.3%。韵脚密度整体增加了34.2%,中西部艺术家表现出最高的技术复杂度(每行3.04个韵脚)。主题建模揭示了主题内容的重大转变,社会正义主题从内容的28.5%下降到13.8%,反思性主题则从7.6%增加到26.3%。情感分析表明,社会政治危机期间歌词变得更加消极,主要社会动荡后极性减少了0.31。多维度分析揭示了四种典型风格,这些风格与地理起源(r=0.68,p<0.001)和时间阶段(r=0.59,p<0.001)之间有较强的关联。这些发现为嘻哈作为一种艺术形式以及其对社会动态的反映提供了量化证据,提供了语言创新与文化背景在流行音乐中的互动关系的见解。
arXiv:2505.00034v1 交叉公告类型
摘要:大型语言模型(LLMs)在许多自然语言处理(NLP)任务上表现出色,并且已被用于网络钓鱼邮件检测研究。然而,在当前的研究中,表现良好的LLMs通常包含数十亿甚至数十亿个参数,需要巨大的计算资源。为了减少计算成本,我们研究了小型参数LLMs在网络钓鱼邮件检测任务中的有效性。这些LLMs拥有约30亿个参数,并可以运行在消费级GPU上。然而,小型LLMs在处理网络钓鱼邮件检测任务时常常表现不佳。为了解决这些问题,我们设计了一套方法,包括提示工程、解释增强微调和模型集成,以提高小型LLMs在网络钓鱼邮件检测方面的性能。通过实验验证了我们方法的有效性,在SpamAssassin数据集上,从基线模型Qwen2.5-1.5B-Instruct的约0.5显著提高到0.976。
arXiv:2505.00032v1 交叉类型公告
摘要:全球有超过3亿人受到重度抑郁症(MDD)的影响,突显出一个重要的公共卫生问题。然而,医疗资源分配的不均衡和诊断方法的复杂性导致了在许多国家和地区对这一疾病的关注不足。本文介绍了一种高性能的MDD诊断工具——MDD-LLM,这是一种以人工智能为导向的框架,利用了微调的大语言模型(LLMs)和大量的现实世界样本,以应对MDD诊断中的挑战。因此,我们从英国生物银行队列中选择了274,348个个体信息进行训练和评估所提出的方法。具体而言,我们从英国生物银行队列中选择了274,348个个体记录,并设计了表格数据转换方法,以创建一个大型语料库来进行训练和评估所提出的方法。为了展示MDD-LLM的优势,我们在多个评估指标上进行了全面的实验,并与现有的基于模型的解决方案进行了多项比较分析。实验结果表明,MDD-LLM(70B)达到了0.8378的准确率和0.8919的AUC(95% CI:0.8799 - 0.9040),显著优于现有用于MDD诊断的机器学习和深度学习框架。鉴于在MDD诊断中对LLMs的探索有限,我们研究了可能影响我们所提方法性能的各种因素,如表格数据转换技术和不同的微调策略。
arXiv:2505.00031v1 宣告类型: cross
摘要: 在大型语言模型(LLM)的后训练领域,利用LLM本身生成的合成数据的有效性已经被很好地展现出来。然而,一个关键问题仍未被解决:此类自生成数据应包含哪些本质信息?现有的方法仅生成逐步问题解决方案,未能捕捉到适用于类似问题的抽象元知识。从中认知科学的视角出发,人类在处理复杂问题时会使用高层次的抽象简化问题,然后再深入到具体细节,我们提出了一种新的自我训练算法:Learning to Plan before Answering (LEPA)。LEPA 训练LLM在处理问题具体细节之前先制定前瞻性的计划,这些计划作为解决问题的抽象元知识。这一方法不仅明确了解决方案生成的路径,还保护了LLM不受无关细节的干扰。在数据生成过程中,LEPA 首先基于问题构思一个前瞻性的计划,然后生成一个符合计划和问题的解决方案。通过自我反思,LEPA 进一步完善计划,旨在获得能够产生正确解决方案的计划。在模型优化过程中,LLM被训练预测改进后的计划以及相应的解决方案。通过高效地提取和利用前瞻性的计划,LEPA 在各种具有挑战性的自然语言推理基准测试中展示了明显优于传统算法的优势。
arXiv:2505.00029v1 类型: cross
摘要: 通过广泛的大规模多模态预训练,大型视觉语言模型展示了令人印象深刻的多功能能力,但在整合超出其训练分布的专业知识领域时面临重大限制。这些模型在最基本的两难境地中挣扎:直接适应方法将注入特定领域的知识,往往会引发基础视觉-语言能力的灾难性遗忘。我们引入了结构化对话微调(SDFT),这是一种有效的方法,能够在不引起灾难性遗忘的情况下有效注入特定领域的知识。我们的方法借鉴了大型语言模型的监督微调和文本生成图像模型的主题驱动个性化领域的三阶段对话结构:基础保存通过描述任务强化了预训练的视觉-语言对齐;对比消歧通过引入精心设计的反事实示例来保持语义边界;知识专业化通过链式推理嵌入特殊信息。在多个领域进行的实验结果证实,SDFT 在专业知识获取与通用能力保留之间实现了平衡。我们的关键贡献包括一个以数据为中心的对话模板,该模板平衡了基础对齐与目标知识集成,一个加权多轮监督框架,以及针对多种知识类型进行的全面评估。
arXiv:2505.00028v1 种类: cross
摘要: 近年来,由于能够实现更低的延迟并更好地整合诸如情感和讲话者身份等非言语线索,端到端语音到语音(S2S)对话系统获得了越来越多的研究关注,超越了传统的多级系统。然而,这些端到端系统面临着关键挑战,特别是在整合外部知识方面,这一能力通常通过文本基础的大语言模型(LLMs)中的检索增强生成(RAG)来实现。核心难点在于输入语音和检索到的文本知识之间存在的模态差距,这妨碍了有效整合。为了解决这个问题,我们提出了一种新的端到端RAG框架,可以直接从语音查询中检索相关的文本知识,从而消除通过ASR等技术进行中间语音到文本转换的需要。实验结果表明,我们的方法显著提高了端到端S2S对话系统的性能,同时实现了更高的检索效率。虽然整体性能仍在多级模型之后,但我们的框架为提高端到端S2S系统中的知识整合提供了有前景的方向。我们将会发布代码和数据集以支持可再现性并促进该领域的进一步研究。
arXiv:2505.00027v1 Announce Type: cross
摘要:本文提出了一种自动从文本中发现主题维度、动作维度、客体维度和副词维度的方法,以高效地操作文本并支持自然语言查询。高质量的树保证了文本中所有主题、动作、客体和副词及其子类关系都可以被表示。树的独立性保证了树之间没有冗余表示。树的表达性保证了大多数句子可以从每棵树中访问到,其余的句子可以从至少一棵树中访问到,从而使基于树的搜索机制能够支持自然语言查询。实验表明,由主题、动作、客体和副词的子类关系构建的抽象树的平均查准率、查全率和F1分数都大于80%。提出的这种方法在支持自然语言查询方面的应用表明,不同类型的查询模式对于查询主题或客体具有很高的文本覆盖率,根据查询模式在主题、动作、客体和副词上搜索多棵树可以迅速减少搜索空间以定位目标句子,从而支持对文本的精准操作。
arXiv:2505.00026v1 类别: cross
摘要: 理解他人心理状态的能力(Theory of Mind,ToM)是人类社会智能的基础。随着大型语言模型(LLMs)在日常生活中的日益融入,评估和增强它们解释和响应人类心理状态的能力变得至关重要。在本文中,我们通过评估基准和旨在提高这些基准的方法来回顾LLMs的ToM能力。我们专注于广泛采用的故事基准,并对旨在增强LLMs ToM的方法进行了深入分析。此外,我们概述了受最近基准和先进方法启发的有前途的未来研究方向。我们的调查为致力于提升LLMs ToM能力的研究人员提供了一个宝贵的资源。
arXiv:2505.00025v1
Announce Type: cross
摘要:近年来,尽管基础模型如DeepSeek-R1和ChatGPT在通用任务中表现出显著的能力,但专业知识壁垒、计算资源需求和部署环境限制严重阻碍了它们在实际医疗场景中的应用。为应对这些挑战,本文提出了一种高效的轻量级医疗垂直大型语言模型架构方法,从三个维度系统地解决了医疗大型模型的轻量化问题:知识获取、模型压缩和计算优化。在知识获取层面,设计了一种从微调的DeepSeek-R1-Distill-70B教师模型到DeepSeek-R1-Distill-7B学生模型的知识转移管道,并采用低秩适应(LoRA)技术精确调整关键注意力层。在模型压缩层面,实施了包括4比特权重量化在内的压缩技术,同时保留了核心的医学推理能力。在计算优化层面,集成了一系列推理优化技术,如Flash Attention加速和连续批量处理,并构建了一个专业的提示模板系统,以适应不同类型的医疗问题。在医学问答数据集上的实验结果表明,本文提出的方法在保持专业准确性的前提下,降低了64.7%的内存消耗和12.4%的推理延迟,为边缘计算设备等资源受限环境中的医疗大型模型应用提供了有效的解决方案。
arXiv:2505.00024v1 公告类型: cross
摘要: 通过外部工具增强大型语言模型已成为扩展其功能而不仅仅是文本生成任务的关键策略。先前的工作通常通过应用监督微调(SFT)来强制工具调用正确性,或将强模型的推理轨迹进行蒸馏以进行SFT来增强工具使用能力。然而,这两种方法都有所欠缺,要么完全忽略了推理,要么生成了模仿性的推理,从而限制了泛化能力。受到DeepSeek-R1在通过基于规则的强化学习激发推理方面的成功启发,我们使用类似训练范式开发了Nemotron-Research-Tool-N1系列工具使用语言模型。Nemotron-Research-Tool-N1并未严格监督从强模型蒸馏出的中间推理轨迹,而是通过二元奖励对其工具调用的结构有效性和功能正确性进行优化。这种轻量级的监督使模型能够自主内化推理策略,不需要标注的推理轨迹。在BFCL和API-Bank基准测试上的实验表明,基于Qwen-2.5-7B/14B-Instruct构建的Nemotron-Research-Tool-N1-7B和Nemotron-Research-Tool-N1-14B取得了最先进的成果,在两个评估中均优于GPT-4o。