arXiv:2502.14917v1 异或类型: cross
摘要: 从端到端的自动驾驶,直接将原始传感器输入映射为低级车辆控制,是沉浸式人工智能的重要组成部分。尽管在利用多模态大规模语言模型(MLLMs)进行高级交通场景语义理解方面取得了成功,但将这些概念性的语义理解有效翻译为低级运动控制命令并在跨场景驾驶中实现泛化和共识仍然是一个挑战。我们引入了Sce2DriveX,一种类似人类驾驶的推理链(Chain-of-Thought,CoT)多模态大规模语言模型框架。Sce2DriveX 利用局部场景视频和全局 bird’s-eye-view (BEV) 地图的多模态联合学习,深入理解长时间程的空间-时间关系和道路拓扑,增强其在3D动态/静态场景中的全面感知和推理能力,并在跨场景驾驶中实现驾驶泛化。在此基础上,它重构了人类驾驶内在的隐式认知链,涵盖了场景理解、元动作推理、行为解释分析、运动规划和控制,从而进一步缩小了自动驾驶与人类思维过程之间的差距。为了提升模型性能,我们开发了第一个面向3D空间理解和长轴任务推理的视觉问答(VQA)驾驶指令数据集。广泛的实验表明,Sce2DriveX 在从场景理解到端到端驾驶的所有环节均达到了最先进的性能,并在CARLA Bench2Drive基准测试中表现出良好的泛化能力。
arXiv:2502.14916v1 宣告类型:交叉
摘要:医学领域自动编码国际疾病分类(ICD)的任务已经被很好地确立,并且受到了广泛关注。在英语中,自动编码ICD已经取得了成功,但在处理中文电子医疗记录(EMRs)时面临着挑战。首先,从中文EMRs中提取疾病代码相关的信息具有困难,主要是由于EMRs的简洁写作风格和特定内部结构。其次,以往的方法未能利用基于疾病的多轴知识,且缺乏与相应的临床证据的关联。本文介绍了一种名为MKE-Coder的新颖框架:针对中文EMRs的ICD编码中的多轴知识及证据验证。首先,我们识别候选诊断代码,并将其按照四个编码轴归类为知识类别。随后,我们从EMRs的全面内容中检索相应的临床证据,并通过评分模型筛选可信的证据。最后,为确保候选代码的有效性,我们提出了一种基于掩码语言建模策略的推理模块。该模块验证与候选代码相关的所有轴知识是否得到了证据支持,并据此提供相应的建议。为了评估该框架的性能,我们在从各种医院收集的大规模中文EMR数据集上进行了实验。实验结果表明,MKE-Coder在基于中文EMRs的自动ICD编码任务中表现出显著的优势。在实际模拟的编码场景中对我们的方法进行评估,证明了我们的方法显著地帮助编码员提高编码准确性和速度。
arXiv:2502.14913v1 宣告类型: cross
摘要:尽管多智能体协作大语言模型(LLMs)在Text-to-SQL任务中取得了显著突破,但其性能仍受到多种因素的限制。这些因素包括框架的不完备性、未能遵循指令以及模型的生成幻觉问题。为了解决这些问题,我们提出了OpenSearch-SQL,将Text-to-SQL任务划分为四个主要模块:预处理、提取、生成和精炼,并基于一致性对齐机制引入了对齐模块。该架构通过对齐模块将各智能体的输入和输出进行对齐,从而减少了指令遵循失败和生成幻觉的情况。此外,我们设计了一种中间语言称为SQL-Like,并基于SQL-Like优化了结构化CoT。同时,我们开发了一种动态少量示范策略,形式为自我学习的Query-CoT-SQL。这些方法显著提高了LLMs在Text-to-SQL任务上的性能。
在模型选择方面,我们直接应用了基础LLMs,未进行任何后训练,从而简化了任务链并增强了框架的移植性。实验结果表明,OpenSearch-SQL在BIRD开发集上的执行准确率(EX)为69.3%,测试集上为72.28%,基于奖励的有效性效率分数(R-VES)为69.36%,三项指标提交时均排名第一。这些结果证明了所提出方法在有效性和效率方面的全面优势。
arXiv:2502.14911v1 交叉类型公告
摘要:近期大型语言模型(LLMs)在广泛基准测试的高资源语言上展现了卓越的能力;然而,欠资源语言的语法学特征尚未被充分探索。我们介绍了Batayan,这是一个综合性的菲律宾语基准,旨在系统性地评估LLMs在三个关键自然语言处理(NLP)能力上的表现:理解、推理和生成。Batayan整合了八个任务,涵盖了塔加洛语和代码切换的塔金什语陈述。我们严格且以母语使用者为导向的标注过程确保了对复杂菲律宾语形态和句法结构的流畅性和真实性,缓解了现有菲律宾语语料库中存在的广泛翻译腔偏见。我们在多种多语言LLMs上报告了实验证据,强调了菲律宾语在预训练语料库中的代表性不足、在建模菲律宾语丰富形态和结构时所面临的独特挑战,以及显式支持菲律宾语语言和指令调整的重要性。此外,我们讨论了在数据集构建过程中遇到的实践挑战,并提出了一种原则性解决方案,以构建符合文化和语言特征的资源,特别是在欠代表的语言中。我们也提供了一个公开的基准和排行榜,作为菲律宾语NLP迭代性社区驱动进展的明确基础。
arXiv:2502.14910v1 宣告类型: cross
摘要:大规模语言模型(LLMs)在自然语言处理任务中取得了显著的成功,但它们庞大的规模和计算需求阻碍了它们在资源受限环境中的部署。现有的结构剪枝方法通过从模型中移除冗余结构(例如,元素、通道、层)来解决这一问题。然而,这些方法采用了一种启发式剪枝策略,导致性能次优。此外,它们在剪枝模型时忽略了数据特性。
为克服这些限制,我们提出了一种名为EvoP的进化剪枝框架,用于稳健的LLM推理。EvoP首先提出了一种基于聚类的校准数据集采样(CCDS)策略,以创建更多样化且更具代表性的校准数据集。EvoP然后引入了一种进化剪枝模式搜索(EPPS)方法,以找到最佳剪枝模式。与现有的结构剪枝技术相比,EvoP在保持最佳效率的同时实现了最佳性能。在不同LLM和不同下游任务上的实验验证了所提出的EvoP的有效性,使其成为在实际应用中部署LLM的一种实用且可扩展的解决方案。
arXiv:2502.14909v1 交叉公告类型
摘要:在临床实践中,仍然广泛使用纸张记录的心电图(ECG),但其使用给自动化分析和数字存储带来了挑战。为解决这一问题,我们引入了PTB-Image数据集,该数据集包含有对应数字信号的扫描纸张ECG,以促进ECG数字化的研究。我们还提供了VinDigitizer,这是一种基线数字化方法,用于将基于纸张的心电图转换为电信号的时间序列。该方法包括检测信号行、从背景中提取波形以及从数字化痕迹中重建数值。我们对549份扫描的ECG应用了VinDigitizer,并将其性能与修改后的原始PTB数据集进行了评估。结果表明平均信噪比(SNR)为0.01 dB,这突出了ECG数字化的可行性和挑战,特别是在减轻打印和扫描过程中的失真方面。通过提供PTB-Image和基线数字化方法,这项工作旨在促进ECG数字化的进步,增强对历史ECG数据的访问,并支持远程医疗和自动心脏诊断的应用。
arXiv:2502.14908v1 交叉公告类型
摘要:关于单模态问答系统中知识冲突对大型语言模型(LLMs)的鲁棒性,已有充分研究。然而,多模态环境中信息源间的冲突对视觉语言模型(VLMs)的影响尚未被探索。在本文中,我们提出了一种名为 `\segsub` 的框架,该框架对图像源应用针对性扰动,以研究和改进VLMs在面对三种不同类型的知识冲突(即参数性冲突、来源冲突和反事实冲突)时的鲁棒性。与先前的研究发现不同,这些研究显示LLMs对由文本扰动引起的标准参数性冲突很敏感,我们的研究表明VLMs对图像扰动具有很大的鲁棒性。另一方面,VLMs在反事实示例上的表现很差(准确率<30%),并且无法有效处理来源冲突(准确率<1%)。我们还发现幻觉与图像上下文之间的联系,GPT-4o 在面对高度情境化的反事实示例时容易产生幻觉。尽管存在来源冲突的挑战,但微调模型显著提高了处理反事实样本的能力。我们的研究结果突显了需要改进VLM训练方法,特别是在处理复杂的多模态来源间的知识冲突方面增强其推理能力。
arXiv:2502.14907v1 声明类型: cross
摘要: 数据的数量和质量在决定大规模语言模型(LLMs)的表现中起着关键作用。尤其是高质量的数据可以显著增强LLMs在一系列下游任务上泛化的能力。领先的LLMs的大型预训练数据集对公众来说仍然不可访问,而许多公开的数据集规模较小(少于5万亿个令牌),限制了它们用于训练大型模型的适用性。
在本文中,我们介绍了GneissWeb,这是一个提供大约10万亿个令牌的大规模数据集,能够满足训练LLMs所需的数据质量和数量要求。我们的GneissWeb数据集制作配方包括分割精确的子字符串去重和精心构造的质量筛选组。GneissWeb在数据质量和数量之间达到了良好的权衡,生成的模型在使用最新开放大型数据集(5+万亿个令牌)训练的模型中表现出色。
我们展示了使用GneissWeb数据集训练的模型在评估数据集的11个常用基准集(包括零样本和少量样本)上,平均得分比使用FineWeb-V1.1.0训练的模型高出2.73个百分点。当评估集扩展到20个基准集(包括零样本和少量样本)时,使用GneissWeb训练的模型仍比使用FineWeb-V1.1.0训练的模型高出1.75个百分点。
arXiv:2502.14906v1 交叉类型公告
摘要:基于文化背景对大规模语言模型(LLMs)的价值对齐进行研究已经成为一个关键的研究领域。然而,在大规模多模态视觉语言模型(VLMs)中,类似偏见的广泛探索并不充分。随着多模态模型规模的不断扩大,评估图像是否能作为文化可靠的代理以及这些价值观通过视觉和文本数据的结合是如何嵌入的变得越来越重要。在本文中,我们对不同规模的多模态模型进行了彻底的评估,重点关注它们与文化价值观的对齐程度。我们的发现表明,就像LLMs一样,VLMs对文化价值观表现出敏感性,但它们在与这些价值观对齐方面的表现高度依赖于上下文。虽然VLMs通过使用图像在提高价值理解方面具有潜力,但这种对齐在不同上下文中的差异性突显了多模态模型对齐中的复杂性和尚未探索的挑战。
arXiv:2502.14905v1 公告类型:交叉
摘要:在本文中,我们通过利用大型语言模型(LLM)的推理能力,解决在LLM生成中严格执行严格模式规范的挑战。基于DeepSeek R1强化学习框架,我们的方法通过结合合成推理数据集构建和组相对策略优化(GRPO)下的自定义奖励函数,训练了一个1.5B参数模型的结构化推理技能。具体来说,我们首先在20K样本的无结构到结构化数据集上进行R1强化学习,以原始DeepSeek R1方法为镜像,建立核心推理能力。随后,我们在另一个10K推理样本数据集上进行监督微调,专注于精炼下游任务中的模式规范。尽管训练范围相对有限,GRPO训练大约需要8xH100 GPU集群20小时,以及1xA100上的3小时进行监督微调(SFT),我们的模型在强制模式一致性方面表现出稳健的性能。我们比较了我们的ThinkJSON方法与原始DeepSeek R1(671B)、DeepSeek R1的蒸馏版本(Qwen-1.5B和Qwen-7B)以及Gemini 2.0 Flash(70B),展示了其实用性。我们的结果强调了资源高效框架在模式约束文本生成中的实用价值。