arXiv:2504.13231v1 类型: cross
摘要:在野火事件中,快速获取信息至关重要,但传统数据源速度慢且成本高。社交媒体可以提供实时更新,但提取相关的见解仍然是一项挑战。我们介绍了WildFireCan-MMD,这是一个新的多模态数据集,包含最近加拿大野火事件中的X个帖子,并在13个关键主题上进行了标注。通过评估Vision Language模型和定制训练的分类器,我们显示,在零样本提示可以快速部署的情况下,即使是最简单的训练模型在有标注数据时的表现也要高出23%。我们的研究结果强调了定制数据集和任务特定训练的持久重要性。重要的是,这样的数据集应该本地化,因为灾害响应需求在地区和背景下会有所不同。
arXiv:2504.13227v1 类型: cross
摘要: 大型语言模型(LLMs)通常在多领域数据集上进行训练,其中领域采样策略会对模型性能产生显著影响,因为各个领域在下游任务中的重要性存在差异。现有方法在优化领域级采样策略时难以保持领域内的一致性并准确衡量领域影响。在本文中,我们提出了领域影响意识数据采样(DIDS)。为了确保领域内的一致性,提出了一种梯度聚类算法,根据训练数据的学习效果对其进行分组,其中使用代理语言模型和降维来减少计算开销。为了准确衡量领域影响,我们开发了一种由Fisher信息矩阵(FIM)引导的度量标准,该标准量化了领域特定的参数更新如何影响模型在下游任务上的输出分布,具有理论保证。此外,为了确定最佳采样比例,DIDS结合了FIM引导的领域影响评估和表明领域特定潜力的损失学习轨迹,同时考虑到边际收益递减的影响。广泛的实验表明,DIDS在保持类似训练效率的同时,平均性能提高了3.4%。
arXiv:2504.13224v1 宣言类型: cross
摘要:生成多个主题的风格化图像仍然是一个重大挑战,因为在定义风格属性(如颜色、纹理、氛围和结构)方面存在不确定性,并且在多个主题上一致地应用这些属性也具有困难性。尽管基于扩散的文本到图像模型取得了显著进展,但现有方法通常依赖于计算成本高昂的反演过程或大规模风格化数据集。此外,这些方法往往难以保持多主题语义的一致性,并且受到高推断成本的限制。为了克服这些限制,我们提出了一种新颖的框架ICAS(IP-Adapter和ControlNet基于的注意力结构),用于高效的可控多主题风格转换。ICAS 不是对整个模型进行调优,而是仅对预训练扩散模型的内容注入分支进行适应性微调,从而保持身份特定的语义并增强风格可控性。通过结合IP-Adapter进行自适应风格注入和ControlNet进行结构条件处理,我们的框架确保全局布局的忠实保留以及局部风格合成的准确性。此外,ICAS 引入了一种循环的多主题内容嵌入机制,这使得在有限数据集设置下能够有效进行风格转换,而无需广泛的风格化语料库。广泛的实验表明,ICAS 在结构保留、风格一致性以及推理效率方面表现出优越的性能,为现实世界应用中的多主题风格转换建立了新的范式。
arXiv:2504.13219v1 Announce Type: cross
摘要:目前针对视觉AI模型的扩增法则主要集中在大规模预训练上,对于数据受限的下游任务如何递增的问题留下了关键的缺口。为了解决这一局限性,本文建立了第一个适用于数据高效扩增法则的实践框架,解决两个基本问题:1) 当下游任务在有限数据条件下运行时,扩增行为如何变化?2) 在这种限制条件下,知识蒸馏的效用由什么决定?通过系统分析从1K到1M样本跨越不同数据范围的视觉任务,我们提出了蒸馏边界理论,揭示了蒸馏效率的关键转折点:1) 蒸馏优势:在数据稀缺的条件下,蒸馏模型显著优于非蒸馏模型,有效地利用继承的知识来弥补有限的训练样本。2) 预训练主导:当预训练数据超过一个关键阈值时,非蒸馏模型逐渐超越蒸馏版本,表明当充足的任务特定数据可用时,知识继承的效果会逐渐减弱。在各种模型规模(2.5M到38M参数)和数据量上的实证验证表明了这些性能转折点,在关键数据阈值处,误差差异曲线从正值转变为负值,证实了我们的理论预测。本文重新定义了数据受限条件下的扩增法则,填补了大规模预训练和实际下游适应之间知识差距,解决了理解视觉模型扩增行为和优化计算资源分配的关键障碍。
arXiv:2504.13218v1 类型: cross
摘要: 增量学习旨在使模型能够从不断演变的数据流中持续获取知识,同时保留之前学到的能力。尽管目前的研究主要集中在单一模态增量学习和模态一致的多模态增量学习上,但在现实世界中,往往会出现全新的模态数据,这带来了额外的挑战。本文探讨了开发一个统一模型的能力,使其能够在不断演变的模态序列中进行增量学习。为此,我们引入了一种新的范式,称为模态增量学习(MIL),其中每次学习阶段涉及不同模态的数据。为了完成这一任务,我们提出了一种名为Harmony的新框架,旨在实现模态对齐和知识保留,使模型能够减少模态差异并从一系列不同的模态中学习,最终在统一框架内完成多种模态的任务。我们的方法引入了自适应兼容特征调制和累积模态对接。通过构建历史模态特征并执行模态知识积累和对齐,提出的组件协同合作,跨越模态差异并保持知识保留,即使在每个学习阶段只有一模态数据可用的情况下也是如此。这些组件共同工作,即使在每个学习阶段只有一模态数据可用的情况下,也能建立有效的模态连接并保持知识保留。在MIL任务上的广泛实验表明,我们提出的方法显著优于现有的增量学习方法,验证了其在MIL场景中的有效性。
arXiv:2504.13217v1 类型: cross
摘要:大型语言模型(LLMs)越来越多地嵌入到组织的工作流程中。这引发了对其能源消耗、财务成本和数据主权的关注。虽然性能基准测试往往庆祝最先进的模型,但在实际部署决策中需要更广阔的视角:何时一个小型、本地可部署的模型“已经足够好”?本研究通过评估来自十种日常生活职业任务的11个专有和开源权重LLM,提供了实证回答。这些任务包括总结文本、生成日程、撰写邮件和提案。我们采用基于双LLM的评估框架,自动化任务执行,并在十个与输出质量、事实准确性及道德责任相关的标准上实现了标准化评估。结果显示,GPT-4o 在这些标准上持续表现优异,但代价显著更高且对环境的影响更大。值得注意的是,Gemma-3 和 Phi-4 这些较小的模型在大多数任务中取得了强有力且可靠的结果,这表明它们在需要成本效益、本地部署或隐私保护的环境中具有可行性。聚类分析揭示了三种模型组——顶级全能型、能干的通才以及有限但安全的表现者——突出了质量、控制和可持续性之间的权衡。此外,任务类型影响模型的有效性:概念性任务对大多数模型构成了挑战,而汇总和转换任务则产生了更好的表现。我们主张从追求性能最大化基准转向考虑任务和上下文的适当性评估,这更符合组织的优先事项。本研究通过可持续性的视角贡献了一种可扩展的方法来评估AI模型,并为负责任的LLM在实践中的部署提供了切实可行的指导。
arXiv:2504.13216v1 交叉类型:公告
摘要:我们介绍了KFinEval-Pilot,这是一个专门为评估韩语金融领域的大型语言模型(LLMs)而设计的标准测试套件。为了克服现有以英语为中心的标准的局限性,KFinEval-Pilot包含了超过1000个精心策划的问题,覆盖了三个关键领域:金融知识、法律推理和金融毒性。该基准测试是通过结合GPT-4生成的提示和专家验证的半自动化管道构建的,以确保领域相关性和事实准确性。我们评估了一系列具有代表性的LLMs,并观察到不同模型在性能上的显著差异,不同模型家族在任务准确性和输出安全性之间存在权衡。这些结果突显了在高风险金融应用中应用LLMs所面临的持续挑战,特别是在推理和安全性方面。基于实际的金融应用场景,并与韩国的监管和语言环境相匹配,KFinEval-Pilot作为开发更安全、更可靠的金融AI系统的早期诊断工具具有重要意义。
arXiv:2504.13211v1 交叉公告类型
摘要:最近的研究探讨了在心理治疗中使用大型语言模型(LLMs)的应用;然而,基于文本的认知行为疗法(CBT)模型常常难以应对来访者的抗拒,这会削弱治疗联盟。为了解决这一问题,我们提出了一种多模态方法,该方法整合了非言语线索,使AI治疗师能够更好地与其来访者的消极情感状态保持一致。具体来说,我们引入了一个新的合成数据集——Multimodal Interactive Rolling with Resistance (Mirror),这是一个新的合成数据集,将来访者的陈述与其相应的面部图像配对。利用这个数据集,我们训练了基础的视觉-语言模型(VLMs),这些模型能够分析面部线索、推断情绪,并生成同理心的回应以有效地管理抗拒。随后,我们在来访者抗拒存在的情况下,从治疗师的咨询技巧和治疗联盟的强度两个方面评估了这些模型。我们的结果显示,Mirror 显著增强了AI治疗师处理抗拒的能力,这优于现有的基于文本的CBT方法。
arXiv:2504.13209v1 宣告类型:交叉
摘要:增强现实(AR)和多模态大型语言模型(LLMs)正在迅速发展,为人类计算机交互提供了前所未有的能力。然而,它们的集成引入了一个新的社会工程攻击表面。在本文中,我们首次利用我们提出的SEAR框架系统地研究了使用多模态LLMs orchestrating AR驱动的社会工程攻击的可行性,该框架通过三个关键阶段运行:(1)基于AR的社会环境合成,融合多模态输入(视觉、听觉和环境线索);(2)基于角色的多模态RAG(检索增强生成),在保持角色区分的同时,动态检索和集成上下文数据;以及(3)ReInteract社会工程代理,通过推理交互循环执行适应性的多阶段攻击策略。为了验证SEAR,我们获得了伦理委员会批准,在三个实验配置(未辅助、AR+LLM和完整SEAR流水线)下进行了60名参与者的研究,收集了一个包含180个标注对话的新数据集,模拟了社会场景。我们的结果显示,SEAR在诱使高风险行为(例如,93.3%的参与者容易受到电子邮件欺诈)方面非常有效。该框架在建立信任方面特别有效,有85%的目标在交互后愿意接受攻击者的电话。此外,我们还发现了诸如“有时人工”之类的局限性,这可能是由于真实感差距造成的。这项工作为AR-LLM驱动的社会工程攻击提供了概念验证,并为开发针对下一代增强现实威胁的防御对策提供了见解。
arXiv:2504.13208v1 交叉公告类型
摘要:随着城市化进程的加速和交通流量的增加,路面病害问题日益严重,对道路安全和使用寿命构成了严重的威胁。传统的坑洞检测方法依赖于人工检查,不仅效率低下,而且成本高昂。本文提出了一种基于增强YOLOv8深度学习框架的智能道路裂缝检测与分析系统。通过训练4029张图像,开发出一种目标分割模型,能够高效准确地识别和分割道路裂缝区域。该模型还分析分割区域,精确计算裂缝的最大和最小宽度及其确切位置。实验结果表明,引入ECA和CBAM注意力机制显著提高了模型的检测准确性和效率,为道路维护和安全监测提供了一种新的解决方案。