arXiv 论文列表

作者: Najeebullah, Maaz Salman, Zar Nawab Khan Swati

arXiv:2503.19223v1 交叉类型：cross 摘要：数字图像欺骗已成为生物认证系统中的一个重要安全威胁，特别是依赖面部识别的系统。本研究评估了三种基于视觉模型——MobileNetV2、ResNET50和Vision Transformer（ViT）——在图像分类中的欺骗检测性能，使用了一个包含150,986张图像的数据集，分为训练集140,002张、测试集10,984张和验证集39,574张。欺骗检测对于提升图像识别系统的安全性至关重要，本研究通过准确率、精确率、召回率和F1分数等指标比较了这些模型的有效性。结果显示，在测试数据集上，MobileNetV2在准确率、精确率、召回率和F1分数方面优于其他架构，分别达到了91.59%、91.72%、91.59%和91.58%，而ViT则分别为86.54%、88.28%、86.54%和86.39%。在验证数据集上，MobileNetV2和ViT表现优异，MobileNetV2的准确率为97.17%，略优于ViT的96.36%。MobileNetV2在训练过程中收敛速度更快，并且在处理未见过的数据时表现出更优秀的泛化能力，尽管两者都表现出过拟合的迹象。这些发现突显了MobileNetV2在平衡性能和鲁棒性方面的优势，使其成为在新数据可靠性至关重要的欺骗检测应用中的理想选择。研究强调了在安全敏感环境中选择模型的重要性，并建议MobileNetV2作为实际部署中的一个可行解决方案。

发布时间: 3/26/2025

查看原文

LLM 在 LLaMA2 上的基准测试：多编程语言下的代码开发性能评估

作者: Patrick Diehl, Nojoud Nader, Maxim Moraru, Steven R. Brandt

arXiv:2503.19217v1 宣传类型: cross 摘要：大规模语言模型（LLMs）的快速进化为在软件开发中自动化各种任务开辟了新可能。本文评估了Llama 2-70B模型在自动化这些任务方面的能力，特别是在使用常用编程语言编写的科学应用程序中。利用代表性测试问题，我们评估了模型生成代码、文档和单元测试的能力，以及在不同常用编程语言之间翻译现有代码的能力。我们全面的分析评估了生成和翻译代码的编译、运行时行为和正确性。此外，我们还评估了自动生成代码、文档和单元测试的质量。我们的结果表明，虽然Llama 2-70B在生成简单的数值任务的语法正确且功能正常的代码方面表现频繁，但在更复杂的并行化或分布式计算方面却遇到了重大困难，需要大量的人工修正。我们指出了关键的限制，并建议未来改进的方向，以更好地利用基于人工智能的自动化在科学计算工作流中的应用。

发布时间: 3/26/2025

查看原文

大型语言模型代理在问答中的研究综述

作者: Murong Yue

arXiv:2503.19213v1 公告类型：交叉摘要：本文综述了基于大型语言模型（LLM）的问答（QA）代理的发展。传统代理面临显著的局限性，包括大量数据需求和难以在新环境中泛化。基于LLM的代理通过利用LLM作为其核心推理引擎来应对这些挑战。与传统的问答管道和简单的LLM问答系统相比，这些代理通过与外部环境的交互实现了更优秀的问答结果。我们系统地从问答任务的角度 review 了LLM代理的设计，按照关键阶段组织讨论：计划、问题理解、信息检索和答案生成。此外，本文还指出了当前的挑战，并探讨了未来的研究方向，以增强LLM代理问答系统的性能。

发布时间: 3/26/2025

查看原文

基于持续强化学习的HVAC系统控制：结合超网络和迁移学习

作者: Gautham Udayakumar Bekal, Ahmed Ghareeb, Ashish Pujari

arXiv:2503.19212v1 Announce Type: 寻找合作伙伴摘要：配有供暖、通风和空调（HVAC）系统的建筑物在确保室内舒适度和效率方面发挥着关键作用。传统上，HVAC系统由基于物理的模型管理，但大数据的出现使数据驱动的方法，如深度强化学习（DRL）成为可能。然而，基于强化学习（RL）的技术往往遭受样本效率低下和泛化能力有限的问题，尤其是在不同类型的HVAC系统之间。我们提出了一种基于模型的强化学习框架，该框架通过使用超网络在具有不同动作空间的任务中持续学习环境动力学。这使得合成回放生成高效，并提高了样本利用率。我们在此框架中训练后，在连续学习环境中展示了强大的反向迁移能力，在第二个任务上训练后，仅在第一个任务上的微调允许在5个回合内快速收敛，从而优于无模型的强化学习（MFRL），并有效地缓解了灾难性遗忘的问题。这些发现对于减少楼宇管理中的能源消耗和运营成本具有重大意义，因此支持了全球可持续发展目标。关键词：深度强化学习，HVAC系统控制，超网络，迁移和连续学习，灾难性遗忘

发布时间: 3/26/2025

查看原文

过拟合的语言模型更难微调

作者: Jacob Mitchell Springer, Sachin Goyal, Kaiyue Wen, Tanishq Kumar, Xiang Yue, Sadhika Malladi, Graham Neubig, Aditi Raghunathan

arXiv:2503.19206v1 宣告类型: cross 摘要: 大型语言模型在不断增加的令牌预算下进行预训练，假设更好的预训练性能会转化为下游模型的改进。在这项工作中，我们挑战了这一假设，并表明延长预训练会使模型更难调整，导致最终性能下降。我们称这种现象为灾难性过度训练。例如，用于指令调整的 OLMo-1B 模型，在 3T 令牌上进行预训练，比其在 2.3T 令牌上进行预训练的对应模型在多个标准语言模型基准上的性能差超过 2%。通过受控实验和理论分析，我们表明灾难性过度训练源于预训练参数对修改的系统性敏感度增加，包括但不限于微调。我们的发现呼吁对预训练设计进行全面重新评估，以考虑模型的下游适应性。

发布时间: 3/26/2025

查看原文

一个共享低秩适应方法的个性化RLHF

作者: Renpu Liu, Peng Wang, Donghao Li, Cong Shen, Jing Yang

arXiv:2503.19201v1 类别: cross 摘要：基于人类反馈的强化学习（RLHF）已成为将人工智能系统与人类价值观对齐的关键技术，在大规模语言模型的精调方面取得了显著成功。然而，现有的RLHF框架常常假设人类偏好是相对同质的，并且可以通过单一、统一的奖励模型捕捉。这一假设忽略了个体间的内在多样性和异质性，限制了RLHF在个性化场景中的适应性，并可能引发对齐偏差，从而降低用户对AI系统的满意度和信任度。为应对这些挑战，本文引入了低秩适应（LoRA）方法到个性化的RLHF框架中。我们将在所有个性化奖励函数的聚合参数空间中应用LoRA，从而能够在潜在有限的本地数据集上高效地学习个性化奖励模型。我们的方法利用本地真实奖励模型之间的潜在共享结构，同时允许个体适应，而无需像先前工作那样依赖严格的共享表示假设。我们还为该方法提供了样本复杂性保证。理论分析表明，该方法在异质人类偏好中既能够捕捉共享结构，又能捕捉个体特异性结构，从而解决了个性化需求和实际数据限制的双重挑战。在现实世界数据集上的实验结果表明，我们的算法在个性化RLHF环境中具有高效性。

发布时间: 3/26/2025

查看原文

Mining-Gym：一种可配置的卡车调度派单 reinforcement learning 测试环境

作者: Chayan Banerjee, Kien Nguyen, Clinton Fookes

arXiv:2503.19195v1 类别: cross 摘要: 矿山作业优化，特别是卡车调度，是提高露天矿山作业效率的关键因素。然而，矿山环境的动态和不确定性性质，例如设备故障、卡车维护和变量的装载循环时间，给传统的优化方法带来了显著挑战。尽管强化学习（RL）在矿山物流的适应性决策方面显示出潜力，但其实际应用需要在现实且可定制的模拟环境中进行严格的评估。缺乏标准化的基准测试环境限制了算法之间的公平比较、可重复性和基于RL的方法在露天矿山现场的实际应用。为应对这一挑战，我们引入了Mining Gym，这是一个可配置的开源基准测试环境，旨在为矿山过程优化中的RL算法进行训练、测试和比较。Mining Gym建立在离散事件仿真（DES）之上，并无缝集成到OpenAI Gym接口中，提供了一个结构化的测试环境，可以直接应用来自Stable Baselines的高级RL算法。该框架模拟了关键的矿山特定不确定性，如设备故障、队列拥堵和矿山过程的随机性，确保了一个现实且适应性学习环境。此外，Mining Gym还配备了图形用户界面（GUI）以实现直观的矿山现场配置、完整的数据日志系统、内嵌的KPI仪表板以及矿山现场的实时可视化展示。这些功能促进了多种RL策略和基准启发式方法的标准化可重复评估。

发布时间: 3/26/2025

查看原文

音频水印在生成式AI模型中的稳健性如何？

作者: Yizhu Wen, Ashwin Innuganti, Aaron Bien Ramos, Hanqing Guo, Qiben Yan

arXiv:2503.19176v1 声纹认证类型：跨领域摘要：音频水印越来越多地用于验证人工智能生成内容的来源，从而实现诸如检测人工智能生成的声音、保护音乐IP和防范声音 cloned 的应用。为了有效，音频水印必须抵御那些通过改变认证信号以逃避检测的去除攻击。虽然许多方案声称具有鲁棒性，但这些声明通常是在孤立条件下测试，并且仅针对少量攻击。缺乏系统性的针对多种去除攻击的评估，阻碍了实际部署。在本文中，我们探讨了那些声称具有鲁棒性的最新音频水印方案是否能够抵御广泛范围的去除攻击。首先，我们引入了一种涵盖22种音频水印方案的分类体系。接着，我们总结了这些方案的底层技术及其潜在漏洞。然后，我们进行了一项大规模的实际研究，以评估其鲁棒性。为了支持这一研究，我们构建了一个包含22种类型去除攻击（109种配置）的评估框架，包括信号级别、物理级别和人工智能引发的改。我们使用开源代码复现了9种水印方案，发现了8种新的高效去除攻击，并突出了11项关键发现，这些发现揭示了这些方法在3个公开数据集上的根本局限。研究结果表明，调查的方案都无法抵御所有测试的畸变。这项评估提供了当前水印方法在现实威胁下的综合表现视图。我们的演示和代码可在 https://sokaudiowm.github.io/ 获取。

发布时间: 3/26/2025

查看原文

PSO-UNet：粒子群优化的U-Net框架，用于精确的多模態脑肿瘤分割

作者: Shoffan Saifullah, Rafa{\l} Dre\.zewski

arXiv:2503.19152v1 交叉公告类型摘要：医学图像分割，特别是针对脑肿瘤分析，需要精确且计算高效的模型，因为多模态MRI数据集和多样的肿瘤形态非常复杂。本研究引入了PSO-UNet，该模型结合了粒子群优化（PSO）和U-Net架构，用于动态超参数优化。与传统的手动调参或替代优化方法不同，PSO能够有效导航复杂的超参数搜索空间，显式地优化滤波器的数量、卷积核的尺寸和学习率。PSO-UNet显著增强了分割性能，在BraTS 2021和Figshare数据集上分别实现了Dice相似系数（DSC）为0.9578和0.9523，以及交并比（IoU）分别为0.9194和0.9097。此外，该方法显著降低了计算复杂度，仅使用了780万参数并在大约906秒内完成执行，明显快于基于U-Net的其他框架。这些结果表明，PSO-UNet具有强大的跨不同MRI模态和肿瘤分类的一般化能力，突显了其在临床中的潜力和相对于传统超参数调优方法的明显优势。未来的研究将探索混合优化策略，并与其他启发式算法进行比较验证，以增强其稳健性和可扩展性。

发布时间: 3/26/2025

查看原文

克服词汇 mismatch：无词汇依赖教师引导的语言建模

作者: Haebin Shin, Lei Ji, Xiao Liu, Yeyun Gong

arXiv:2503.19123v1 类型: cross 摘要：使用大型教师模型来引导较小学生模型的训练已成为高效和有效的学习主流范式。然而，教师和学生语言模型之间的词汇不匹配在语言建模中提出了重大挑战，导致不同的token序列和输出分布。为了克服这些限制，我们提出了词汇无关型教师引导语言建模（VocAgnoLM），这是一个通过两个关键方法弥补词汇不匹配差距的新方法：（1）token层面的词汇对齐，该方法在不同词汇集上对齐token序列，和（2）教师引导损失，该方法利用教师模型的损失来指导学生训练的有效性。我们通过使用各种不同词汇集的7B教师模型和1B学生模型展示了其在语言建模中的有效性。值得注意的是，使用仅与TinyLlama共享约6%词汇的Qwen2.5-Math-Instruct作为教师模型，VocAgnoLM相比直接持续预训练在性能上提高了46%。此外，我们展示了VocAgnoLM从更强的教师模型中受益，提供了一种针对语言建模中词汇不匹配的稳健解决方案。

发布时间: 3/26/2025

查看原文