arXiv:2503.20742v2 宣传类型: replace-cross
摘要: 尽管在探索性数据分析方面存在许多挑战,但人工神经网络仍然激发了科学家和研究人员在理论和实际应用方面的强烈兴趣。人工神经网络受欢迎的原因之一包括其建模非线性动力系统的能力、泛化能力和适应性。尽管如此,关于各种潜在的随机过程在稳定数据学习和预测的独特结构中的作用仍然存在巨大争议。这些障碍之一是理论和数值研究机器智能系统的维度灾难和高维概率分布的采样问题。总体而言,这种灾难性问题妨碍了对系统状态的高效描述,为系统提供了显著的复杂性障碍,使其难以有效描述和研究。在这项研究中,直接用量子信息语言描述学习理论中的这种抽象概念是最有利的候选方法之一。因此,这些文章的主题致力于计算上困难问题在量子机械系统中的设计、适应和表述问题。为了用推断统计的语言表征这种微观描述的动力学,在这种动力学系统中对d维高斯密度的协方差矩阵估计和动力学系统的特征值问题的贝叶斯解释进行了评估。
arXiv:2503.19469v2 宣布类型: replace-cross
摘要:在自然语言处理(NLP)中,零样本分类(ZSC)已成为使模型能够将未见过的文本分类到训练期间未见过的类别中的重要技术,特别是在资源匮乏的语言和数据稀缺的领域。尽管预训练语言模型(PLMs)在ZSC中显示出前景,但它们通常依赖于大规模的训练数据集或外部知识,这限制了它们在多语言和资源匮乏场景中的应用。最近利用自然语言提示的方法虽然减少了对大规模训练数据集的依赖,但在有效地整合相关分类任务中可用的标签数据方面仍存在问题,尤其是在这些数据集来源于不同语言或分布的情况下。此外,现有的基于提示的方法通常依赖于特定语言中手工构建的提示,这限制了它们在跨语言设置中的适应性和有效性。为了解决这些挑战,我们提出了一种名为RoSPrompt的轻量级和数据高效的提示训练方法,它可以在保持数据分布转移时的稳健泛化能力的同时增强跨语言ZSC。RoSPrompt旨在用于小型多语言PLMs,使其能够利用高资源语言来改善在资源匮乏环境中的性能,而无需进行大量的微调或高度的计算成本。我们在涵盖106种语言的多个多语言PLMs的数据集上评估了我们的方法,展示了强大的跨语言转移性能和对未见过类别的稳健泛化能力。
arXiv:2503.19206v2 通告类型: replace-cross
摘要: 在假设更好的预训练性能会转化为改进的下游模型的前提下,大型语言模型在不断增加的令牌预算下进行预训练。在这项工作中,我们挑战了这一假设,并展示了延长预训练会使模型更难以微调,从而导致最终性能下降。我们将这一现象称为灾难性过训练。例如,指令微调的OLMo-1B模型在3T令牌下进行预训练,其性能在多个标准LLM基准测试中比其2.3T令牌的对应模型差2%以上。通过控制实验和理论分析,我们表明灾难性过训练来自于预训练参数对修改的广泛敏感性的系统性增加,包括但不限于微调。我们的发现呼吁对预训练设计进行重新评估,以考虑模型的下游适应性。
arXiv:2503.18816v2 通告类型: 替换-交叉
摘要: 在本文中,我们提出了一种新颖的合作多智能体强化学习方法,称为基于局部性的因子分解多智能体演员-批评家(Locality Based Factorized Multi-Agent Actor-Critic,Loc-FACMAC)。现有的最先进的算法,例如FACMAC,依赖于全局奖励信息,这可能无法准确反映分散系统中单个智能体行为的质量。我们通过将局部性概念集成到批评家学习中,在训练过程中将高度相关的智能体形成分区,同一分区内的智能体相互影响更大,从而提高了策略评估的准确性。此外,我们构建了一个依赖图来捕捉智能体之间的关系,有助于分区过程。这种方法缓解了维数灾难问题,并防止智能体使用无关信息。我们的方法通过关注局部奖励并结合分区学习来提高训练效率和性能,从而改进了现有的算法。我们在三个环境中评估了Loc-FACMAC的性能:走廊、多滑杆和 bounded 合作导航。我们探索了分区大小对性能的影响,并将结果与基线多智能体强化学习(MARL)算法(如LOMAQ、FACMAC和QMIX)进行了比较。实验表明,如果局部性结构定义得当,Loc-FACMAC的性能可提高至基线算法的108%,这表明在演员-批评家框架中利用局部性结构可以提高MARL的性能。
arXiv:2503.18172v2 Announce Type: replace-cross
摘要:故意操纵数据表示以支持特定主张的误导性图表可视化可能扭曲人们的感知并导致错误的结论。尽管开展了数十年的研究,误导性可视化仍然是一种普遍存在且迫切的问题。最近,多模态大型语言模型(MLLMs)的进步展示了强大的图表理解能力,但目前没有任何工作系统地评估它们检测和解释误导性图表的能力。本文介绍了误导性图表问答基准(Misleading ChartQA),这是一个大型多模态数据集,旨在评估MLLMs在识别和推理误导性图表方面的表现。该数据集包含超过3000个精心挑选的例子,涵盖了21种误导类型和10种图表类型。每个例子包括标准化的图表代码、CSV数据以及带有标注解释的多项选择题,这些题目的正确性通过多轮MLLM检查和彻底的人类专家审查进行了验证。我们对我们的数据集上的16种最先进的MLLM进行了基准测试,揭示了它们在识别视觉欺骗性实践方面的局限性。我们还提出了一种新的流水线,用于检测和定位误导,提高了MLLMs在解释误导性图表方面的准确性。我们的工作为推动MLLM驱动的误导性图表理解奠定了基础。我们公开发布了样本数据集,以支持在这一关键领域进一步的研究。
arXiv:2503.17125v5 Announce Type: replace-cross
摘要:深度 reinforcement 学习(DRL)已经在机器人控制方面展现了强大的性能,但在处理离分布(OOD)状态时仍然容易受到影响,通常会导致不可靠的行动和任务失败。虽然之前的方法主要集中在最小化或防止离分布状态的发生,但它们在代理遇到这些状态时的恢复上很少提及相关内容。虽然最新的研究试图通过引导代理返回到分布状态来解决这一问题,但它们依赖于不确定性估计限制了其在复杂环境中的可扩展性。为了克服这一限制,我们引入了Language Models for Out-of-Distribution Recovery(LaMOuR),它能够在不依赖不确定性估计的情况下实现恢复学习。LaMOuR生成密集奖励代码,引导代理返回到一个它可以成功执行其原始任务的状态,利用LVLM在图像描述、逻辑推理和代码生成方面的功能。实验结果表明,LaMOuR在多样化的运动任务中显著提升了恢复效率,并且在包括类人行走和移动操作在内的复杂环境中表现出良好的泛化能力,而现有的方法在这方面遇到了困难。代码和补充材料可在https://lamour-rl.github.io/获取。
arXiv:2503.16021v3 宣告类型: 替换-交叉
摘要:大型语言模型(LLMs)近期取得的重大突破使自主AI代理能够模仿人类生成的内容。这一技术进步引发了关于人工智能对信息生态系统多样性和民主价值影响的基本问题。我们介绍了一个大规模的模拟框架,以研究新闻领域内基于AI的模仿,这对公共讨论至关重要。通过系统地测试两种不同的模仿策略,跨越多个初始多样性各异的信息环境,我们证明AI生成的文章并不均匀地同质化内容。相反,AI的影响强烈依赖于上下文:在原本同质化的新闻环境中小说式的AI内容可以引入有价值的多样性,但在起初异质性的环境中则会减少多样性。这些结果表明,信息环境的初始多样性对AI的影响至关重要,挑战了AI驱动模仿会威胁多样性的假设。相反,当信息起初同质时,AI驱动模仿可以扩展视角、风格和话题。这一点在新闻领域尤其重要,因为信息多样性可以促进更丰富的公众辩论,使公民接触到替代观点,挑战偏见,并防止叙述垄断,这对于一个抵御脆弱性的民主至关重要。
arXiv:2503.14883v2 更新类型: 替换-交叉
摘要:大型语言模型(LLMs)、推理模型和代理性AI方法的快速发展与全球日益严重的精神健康危机不谋而合,尽管需求在增长,但专业支持的获取仍然不足,特别是对于边缘化群体。这为AI提供了独特的机遇,使其能够补充由人类主导的干预措施,提供可扩展且情境相关的支持,同时在这一敏感领域保持人与人之间的联系。我们探讨了AI在同伴支持、自助干预、主动监测和数据驱动洞察等方面的应用,采用了以人为本的方法,确保AI支持而不是取代人类互动。然而,在心理健康领域部署AI也存在诸多挑战,包括伦理问题、透明度、隐私风险以及过度依赖的风险。我们提出了一种混合生态系统,在这种系统中,AI辅助但不取代人类提供者,强调负责任的部署和评估。此外,我们在这些AI应用的几个方面展示了我们早期的工作和发现。最后,我们概述了未来研究方向,旨在在遵守伦理和文化敏感准则的同时细化AI增强干预措施。
arXiv:2503.14536v2 通知类型: replace-cross
摘要:背景:本研究提出了一种利用SIGLIP编码器和Gemma-3b变压器解码器的视觉语言模型(VLM),以增强自动化慢性结核病(TB)筛查。通过结合胸部X光影像和临床数据,该模型解决了人工解释的挑战,提高了诊断的一致性和可访问性,特别是在资源受限的环境中。
方法:VLM架构结合了视觉变换器(ViT)进行视觉编码和基于变压器的语言编码器,以处理临床上下文,如患者历史和治疗记录。跨模态注意力机制将影像特征与文本信息对齐,而Gemma-3b解码器生成全面的诊断报告。该模型在500万对医学图像和文本上进行了预训练,并使用10万张特定于慢性TB的胸部X光图像进行了微调。
结果:该模型在检测纤维化、钙化脓肿和支气管扩张等关键慢性TB病理方面表现出高精度(94%)和召回率(94%)。曲线下面积(AUC)分数超过0.93,交并比(IoU)值高于0.91,验证了其在检测和定位TB相关异常方面的有效性。
结论:VLM为自动化慢性TB诊断提供了稳健且可扩展的解决方案,通过整合影像和临床数据,提供可操作且上下文相关的见解。未来的工作将解决细微病理变化和数据集偏见,以增强模型的普适性,确保在不同人群和医疗保健环境中实现公平的性能。
arXiv:2503.13222v2 通知类型: replace-cross
摘要:尽管在提高大语言模型(LLMs)的指令遵循能力方面取得了显著成就,但处理多个潜在交织或冲突的指令的能力仍然是一个重大挑战。现实世界中的场景经常要求随着时间的推移在多个指令之间保持一致性,例如保密隐私、个人偏好和优先级,这些场景要求具备在指令相互交叠或冲突时巧妙整合多个回合并仔细平衡竞争目标的能力。本研究对LLMs在处理多个指令回合方面的能力进行了系统的调查,涵盖了三个难度级别:(1) 从指令中检索信息,(2) 跟踪和在回合之间进行推理,以及(3) 解决指令之间的冲突。我们通过循环人性途径构建了包含约1100个高质量的多回合对话的MultiTurnInstruct,最终形成了九个能力类别,包括静态和动态、推理和多任务处理。我们的研究发现揭示了不同能力之间的有趣权衡。虽然GPT模型在记忆方面表现出色,但在需要选择性信息保留的隐私保护任务中,其效果有所下降。更大的模型展示了更强的推理能力,但在解决冲突指令方面仍然面临挑战。重要的是,这些性能差距不仅仅可以归因于信息的丢失,因为模型在记忆任务上的BLEU分数很高,但其注意力机制无法有效地整合多个相关的指令。这些发现强调了在涉及多回合指令的复杂现实任务中需要改进的关键领域。