LLM2D

arXiv 论文列表

作者: Javier Mu\~noz-Haro, Ruben Tolosana, Ruben Vera-Rodriguez, Aythami Morales, Julian Fierrez
arXiv:2504.07761v1 交叉验证类型 摘要:随着世界越来越数字化,验证身份证件的真实性已成为数字银行、加密交易所、租赁等领域现实应用中的一项关键挑战。本文专注于伪造身份证件检测这一主题,涵盖了该领域的一些限制。特别是,目前没有实际身份证件的公开数据,在隐私原因的限制下,大多数研究依赖于内部专有的数据库,这些数据库不可用。为了揭示这一关键挑战,使之能够促进该领域的进展,我们探讨了在隐私(即可获得的敏感数据量)与性能之间的权衡,提出了一种新的块级方法以保护隐私进行伪造身份证件检测。我们提出的方法探讨了通过以下方式增强隐私的方法:i) 对身份证件进行两级匿名化(即完全匿名化和伪匿名化),ii) 不同的块大小配置,改变块图像中可见的敏感数据量。此外,在分析中还考虑了最新方法,如视觉变换器和基础模型。实验框架显示,在未见过的数据库(DLC-2021)中,我们的提案在块级和身份证件级分别实现了13.91%和0%的EER,展示了良好的泛化能力到其他数据库。除了这一探索之外,我们研究的另一项重要贡献是发布了首个可用的公开数据库,该数据库包含来自真实和伪造身份证件的48,400个块,并提供了实验框架和模型,这些都将可在我们的GitHub上获得。
发布时间: 4/11/2025
查看原文
作者: Vladislav Mikhailov, Tita Enstad, David Samuel, Hans Christian Farseth{\aa}s, Andrey Kutuzov, Erik Velldal, Lilja {\O}vrelid
arXiv:2504.07749v1 评测类型: 多语言交叉评测 摘要:本文介绍了NorEval,这是一种新的全面的评估套件,用于大规模标准化评估挪威生成语言模型(LMs)。NorEval包含24个高质量的人工创建数据集——其中五个数据集是从头开始创建的。与现有的挪威语基准不同,NorEval涵盖了广泛的任务类别,旨在针对挪威语理解和生成,建立了人类基准,并且关注挪威语言的两个官方书面标准:Bokmål和Nynorsk。我们所有的数据集以及超过100个人工撰写的提示都整合到了LM评估工具包中,确保了评估的灵活性和可再现性。我们描述了NorEval的设计,并展示了在各种场景下对19个开源预训练和指令调优的挪威语LMs进行基准测试的结果。我们的基准、评估框架和标注材料都已公开。
发布时间: 4/11/2025
查看原文
作者: Yangliu Hu, Zikai Song, Na Feng, Yawei Luo, Junqing Yu, Yi-Ping Phoebe Chen, Wei Yang
arXiv:2504.07745v1 宣告类型:交叉学科 摘要:基于视频的大语言模型(Video-LLMs)近年来在多模态LLMs的进步推动下取得了显著进展。尽管这些模型在提供视频的整体描述方面表现出色,但在视觉动态和视频细节询问等方面却难以实现精细理解。为解决这些不足,我们发现,通过在自监督片段任务上微调Video-LLMs,极大地提高了它们的精细视频理解能力。因此,我们提出了两个关键贡献:(1)自监督片段微调(SF$^2$T),这是一种新颖且易于实现的微调方法,利用视频的丰富内在特性进行训练,同时提高了Video-LLMs的精细理解能力。此外,它减轻了研究人员的工作负担,并巧妙地规避了自然语言的局限性,自然语言往往无法捕捉视频中的复杂时空变化;(2)一个用于严格评估Video-LLMs在场景和片段级别性能的新基准数据集,即FineVidBench,它为全面评估其能力提供了评估标准。我们在多个模型上进行了评估,验证了SF$^2$T的有效性。实验结果表明,我们的方法提高了它们捕获和解释时空细节的能力。
发布时间: 4/11/2025
查看原文
作者: Nicole Tran, Anisa Prasad, Yan Zhuang, Tejas Sudharshan Mathai, Boah Kim, Sydney Lewis, Pritam Mukherjee, Jianfei Liu, Ronald M. Summers
arXiv:2504.07729v1 分割类型:跨学科 摘要:在多参数MRI研究中多个器官的分割对于放射学中的许多应用至关重要,例如将成像生物标志物与疾病状态(例如肝硬化、糖尿病)相关联。最近,为MRI的多器官分割提出了三个公开可用的工具,例如MRSegmentator(MRSeg)、TotalSegmentator MRI(TS)和TotalVibeSegmentator(VIBE)。然而,这些工具在特定的MRI序列类型上的性能尚未量化。在这项工作中,从公共的杜克肝病数据集中选择了40个卷的一部分。该精炼数据集包含了来自预对比脂肪饱和T1、动脉T1w、静脉T1w和延迟T1w期的各10个卷。在此类卷中手动注释了10个腹部结构。接下来,对这三个公开可用的工具在该精炼数据集上的性能进行了基准测试。结果显示,MRSeg获得了Dice系数为80.7 ± 18.6和Hausdorff距离误差为8.9 ± 10.4毫米。在不同的序列类型中,其表现最佳(p < .05),优于TS和VIBE。
发布时间: 4/11/2025
查看原文
作者: Pegah Nokhiz, Aravinda Kanchana Ruwanpathirana, Aditya Bhaskara, Suresh Venkatasubramanian
arXiv:2504.07719v1 交叉公告类型 摘要:金融不稳定性已成为当今社会的一个重要问题。尽管研究通常侧重于金融方面,但人们对不稳定工作时间相关的时间维度往往有所忽视。无法依赖固定的工作时间表导致职业倦怠、工作家庭冲突和直接冲击工人收入和资产的财务冲击。收入的不可预测波动给财务规划带来挑战,影响储蓄和消费的决策,最终削弱个人的长期财务稳定性和福祉。 该问题在工作时间经常变化而事先通知不足的行业中尤为明显,包括餐饮业和零售业,兼职和小时工,以及低收入个体。这些群体本来就更脆弱,他们工作时间的不可预测性进一步加剧了他们的财务脆弱性。 我们的目标是通过调查个人的财务管理在多大程度上依赖于对未来事件的预测和规划,来了解不可预测的收入波动如何加剧财务脆弱性。为了解决这个问题,我们开发了一个模拟框架,该框架描绘了个人在金融不确定性和避免财务破产的紧迫性下如何优化效用。我们采用在线学习技术,具体而言,是根据其工作时间表演变的信息来调整工人的消费政策。 通过该框架,我们从理论和实证两方面展示了工人对未来工作时间变化的预测能力如何增强其长期效用。相反,无法预测未来的事件会恶化工人的不稳定性。此外,该框架还使我们能够探索减轻时间不确定性问题的干预措施,并评估其有效性。
发布时间: 4/11/2025
查看原文
arXiv:2504.07717v1 声明类型:交叉 摘要:大型语言模型(LLMs)在各种应用中都表现出色,例如医学问答、数学科学和代码生成。然而,它们也存在固有的限制,如过时的知识和容易出现幻觉。检索增强生成(RAG)作为一种有望解决这些问题的方法已经出现,但同时也引入了新的脆弱性。最近的努力集中在基于RAG的LLMs的安全性方面,但现有的攻击方法面临三个关键挑战:(1)当只能向知识数据库注入少量恶意文本时,其有效性会急剧下降;(2)它们缺乏足够的隐蔽性,因为这些攻击往往会被异常检测系统检测到,这损害了其有效性;(3)它们依赖启发式方法生成恶意文本,缺乏正式的优化框架和理论保证,这限制了其有效性及其应用范围。为了解决这些问题,我们提出了协调的提示-RAG攻击(PR-攻击),这是一种新颖的优化驱动攻击,可以在知识数据库中引入少量恶意文本,并在提示中嵌入后门触发器。当触发器被激活时,它会促使LLM对目标查询生成预设的响应,而在其他情况下则保持正常行为。这既确保了高效果性又具有高度隐蔽性。我们通过利用原理明确的优化框架将攻击生成过程形式化为多层次优化问题,以开发最优的恶意文本和触发器。在不同LLM和数据集上进行的广泛实验表明,PR-攻击的有效性,即使在只能注入少量恶意文本的情况下也能实现高攻击成功率,并且在隐蔽性上也显著优于现有方法。
发布时间: 4/11/2025
查看原文
作者: Federica Granese, Benjamin Navet, Serena Villata, Charles Bouveyron
arXiv:2504.07711v1 类型: cross 摘要: 主题建模是无监督学习中的关键组成部分,用于在文本数据集中识别主题。随着社交媒体的迅速发展,每天生成的文本数据量持续增长,因此在线主题建模方法对于管理和处理不断涌入的数据流至关重要。本文介绍了一种新型在线主题建模方法,名为StreamETM。该方法基于嵌入主题模型(ETM)来处理数据流,通过不平衡最优传输合并连续的部分文档批次所学习的模型。此外,还采用了在线变化点检测算法来识别主题随时间的变化,从而能够识别文本流动态中的重要变化。对模拟和真实世界数据进行的数值实验表明,StreamETM在竞争对手中表现出色。
发布时间: 4/11/2025
查看原文
作者: Yusuf Meric Karadag, Sinan Kalkan, Ipek Gursel Dino
arXiv:2504.07654v1 交叉公告类型:cross 摘要:时间序列预测问题通常通过循环架构、Transformer 基础架构和最近提出的Mamba 基础架构来解决。然而,现有的架构通常在其输入上只处理单一的时间尺度,这在许多信息随多个时间尺度变化的任务中可能是不 optimal 的。在本文中,我们介绍了一种称为多尺度Mamba(ms-Mamba)的新架构来弥补这一不足。ms-Mamba 通过使用具有不同采样率($\Delta$s)的多个Mamba 块来纳入多个时间尺度。我们在许多基准上的实验表明,ms-Mamba 在包括最近提出的基于Transformer 和基于Mamba 的模型在内的现有最佳方法中表现出色。
发布时间: 4/11/2025
查看原文
作者: Alfredo Garrach\'on Ruiz, Tom\'as de la Rosa, Daniel Borrajo
arXiv:2504.07646v1 大概类型: cross 摘要:大型语言模型(LLMs)在处理训练期间未出现的数据的时序推理任务方面的适用性仍然是一个待探索的领域。本文聚焦于此主题,重点关注结构化和半结构化的匿名数据。我们不仅开发了一个直接的LLM管道,还比较了多种方法并进行了深入分析。我们识别并研究了自然语言中十七种常见的时序推理任务,重点关注它们的算法组件。为了评估LLM的性能,我们创建了《时序推理和回答能力数据集》(RATA),该数据集包括半结构化的匿名数据,以确保依赖推理而非先验知识。我们比较了几种方法,包括最先进的技术,如思维树、自我反思和代码执行,这些方法都针对这一场景进行了调优。我们的结果表明,实现可扩展且可靠的解决方案需要的不仅仅是一个独立的LLM,强调了集成方法的需求。
发布时间: 4/11/2025
查看原文
作者: Dan Parii, Evelyne Janssen, Guangzhi Tang, Charalampos Kouzinopoulos, Marcin Pietrasik
arXiv:2504.07638v1 类别: cross 摘要: 准确预测关键设备组件的使用寿命对于维护计划和生产优化至关重要,因此在学术界和工业界都是一个重要话题。在本文中,我们研究了使用生存分析来预测佳能生产印刷公司开发的生产喷墨头的使用寿命。具体而言,我们重点研究了五种技术来估计生存概率和失效率:Kaplan-Meier估计器、Cox比例风险模型、Weibull加速失效时间模型、随机生存森林以及梯度提升。然后使用等度回归对结果进行进一步细化,并最终汇总以确定预期的故障次数。随后,我们使用实际世界的真实数据在多个时间段内对这些预测进行验证,以评估模型的可靠性。使用三个性能指标进行的定量评估表明,生存分析在喷墨头使用寿命预测方面优于工业标准基准方法。
发布时间: 4/11/2025
查看原文