arXiv:2503.19120v1 类型: cross
摘要:文档视觉问答(VQA)模型在过去的几年中取得了惊人的进步,已经接近或达到了某些基准测试中的human performance。我们认为,流行的基准测试所使用的常见评估指标未能考虑到模型输出的语义和多模态准确性。因此,幻觉和重大语义错误与广泛依据的输出以相同方式处理,评估分数未能反映模型的推理能力。为了解决这一问题,我们提出了一种新的评估方法,该方法考虑了输出的语义特性和输出在输入文档中的多模态位置所体现的准确性。我们提出的方法可以根据用户的需求进行参数化配置。我们使用人类判断来验证评分方法,并展示了其对现有流行排行榜的潜在影响。通过广泛的分析,我们证明了我们提出的方法所生成的分数是衡量模型稳健性的更好指标,并倾向于对更准确的答案给予更高的奖励。
arXiv:2503.19100v1 Announce Type: cross
摘要:本文展示了在计算机视觉领域进行异常检测的实验研究。该研究侧重于类别的区分和性能评估,结合使用 OpenCV 和深度学习技术,并利用基于 TensorFlow 的卷积神经网络进行实时面部识别和分类。该系统能够有效地区分三个类别:授权人员(admin)、入侵者和非人类实体。利用基于 MobileNetV2 的深度学习模型来优化实时性能,确保在不牺牲精度的情况下保持高计算效率。通过大量的数据预处理,包括图像增强和规范化,增强了模型的泛化能力。我们的分析显示,对于授权人员的分类准确率为 90.20%,对于入侵者的分类准确率为 98.60%,对于非人类检测的分类准确率为 75.80%,同时保持每秒平均处理率为 30 帧。该研究运用迁移学习、批次规范化和 Adam 优化来实现稳定且稳健的学习,并对类别的区分策略进行了比较分析,展示了特征提取技术和训练方法的影响。结果表明,高级特征选择和数据增强显著提高了检测性能,特别是在区分人类场景和非人类场景方面。作为一项实验研究,本研究为优化基于深度学习的监控系统以适应高安全环境,并提高实时异常检测的准确性和效率提供了宝贵的见解。
arXiv:2503.19092v1 类型: cross
摘要:大规模语言模型(LLMs)在信息检索(IR)中越来越不可或缺,它们在排名、评估和人工智能辅助内容创作中发挥作用。这种广泛的应用要求我们对这些基于LLM的组件之间的互动可能导致的潜在偏差进行关键性的审视。本文综合了现有的研究,并提出了新的实验设计,探索基于LLM的排名器和助手如何影响基于LLM的评判者。我们提供了基于LLM的评判者对基于LLM的排名器表现出显著偏好的首次实证证据。此外,我们观察到基于LLM的评判者辨别系统性能细微差异的能力存在限制。与一些先前的研究发现相反,我们的初步研究并未发现对AI生成内容存在偏见的证据。这些结果强调了对LLM驱动的信息生态系统进行全面审视的必要性。为此,我们提出了初步的指导原则和研究议程,以确保LLM在IR评估中的可靠使用。
arXiv:2503.19075v1 交叉公告类型:cross
摘要:生成式AI图像模型越来越多地被评估其(不)能够表现非西方文化的能力。我们认为,这些评估依赖于一种简化的表现理想,脱离了人们对自己表现的定义,并忽视了文化表现内在的解释性和情境性。与此类“薄”评估相对,我们提出了“厚”评估的概念:一种更加细腻、情境化和讨论性的评估框架,用于评估AI图像中社会世界的表征,基于社区对自己的表现的理解。我们通过在南亚的工作坊中开发这一评估框架,通过对人们如何解释和赋予自己文化图像意义的“厚”方法进行研究而形成。我们介绍了厚评估的表现实践,扩展了支撑AI评估的理解,并通过与社区共同构建衡量标准,使测量与地面上社区的经验保持一致。
arXiv:2503.19074v1 宣告类型: cross
摘要: 近年来生成对抗网络(GANs)的发展展示了其生成高质量图像的能力。然而,一个重大挑战仍然存在,即模式崩塌,当生成器产生的数据模式数量有限且不能反映训练数据集的多样性时发生。本研究通过提出一系列架构变化来解决这一问题,旨在增加GAN模型的多样性和稳定性。我们首先通过使用Wasserstein损失和梯度惩罚改进损失函数,以更好地捕捉数据变化的全部范围。我们还研究了各种网络架构,并得出结论,ResNet显著增加了多样性。在此基础上,我们引入了HingeRLC-GAN,这是一种结合了RLC正则化和Hinge损失函数的新方法。通过获得的FID得分为18和KID得分为0.001,我们的方法通过有效平衡训练稳定性和增加多样性,优于现有方法。
arXiv:2503.19070v1 安全性类型:交叉
摘要:图神经网络(GNNs)广泛用于图结构数据,但在图分类任务中容易受到成员 inference 攻击(MIAs)的影响,这些攻击可以确定一个图是否是训练数据集的一部分,可能造成数据泄漏。现有的 MIAs 依赖于预测概率向量,但在仅使用预测标签时,它们就变得无效。我们提出了一种基于目标模型对训练数据和测试数据的预测稳定性差异的图级标签唯一成员 inference 攻击(GLO-MIA)。GLO-MIA 通过对目标图的有效特征添加扰动生成一组扰动图,并通过查询目标模型获取这些扰动图的预测标签,然后利用这些标签计算目标图的鲁棒性分数。最后,通过将鲁棒性分数与预定义的阈值进行比较,可以以高概率正确推断目标图的成员身份。在三个数据集和四种 GNN 模型上的评估显示,GLO-MIA 的攻击准确率达到了 0.825,比基线工作高出 8.5%,并且即使仅使用预测标签,其性能也几乎与基于概率的 MIAs 相当。
arXiv:2503.19068v1 宣告类型: cross
摘要: 同度量预测提供了一种构建具有有限样本有效性预测集的规范框架。尽管大部分关注集中在单变量响应变量上,现有的多变量方法要么施加僵化的几何假设,要么依赖于灵活但计算成本高昂的方法,这些方法并未明确优化预测集体积。我们提出了一种基于新型损失函数的优化驱动框架,可以直接学习最小体积覆盖集,同时确保有效的覆盖范围。这一表述自然地诱导了一个新的非一致性得分,该得分可以适应残差分布和协变量。我们的方法优化了由任意范数球定义的预测集,包括单范数和多范数形式。此外,通过同时优化预测模型和预测不确定性,我们得到了既紧致、又有信息量且计算效率高的预测集,这一结果在我们对真实数据集进行的实验中得到了验证。
arXiv:2503.19050v1 并行类型: 交叉
摘要: 为了加速大型语言模型的分布式训练,已经提出了各种并行性,如数据并行、张量并行和管道并行,以及如激活检查点、冗余消除和卸载等内存优化技术。为了找到这些技术的最佳组合,提出了自动分布式训练系统。然而,现有的系统只调整了一部分优化,这是因为缺乏对重叠的意识、无法导航庞大的搜索空间以及忽略微批间不平衡导致的,从而导致了次优性能。为了解决这些不足,我们提出了Mist,这是一种具有记忆、重叠和不平衡意识的自动分布式训练系统,它全面协同优化所有内存占用减少技术以及并行性。Mist 基于三个关键思想:(1)细粒度的重叠为中心调度,以重叠方式协调优化;(2)基于符号的性能分析,利用符号表达式预测运行时间和内存使用情况,以便快速调整;(3)不平衡意识的层次调整,将过程分为区间阶段的不平衡和重叠意识混合整数线性规划问题和区内阶段的约束双目标优化问题,并通过帕累托前沿采样将它们连接起来。我们的评估结果表明,与最先进的手动系统Megatron-LM相比,Mist 的平均加速比为1.28倍(最多1.73倍),与最先进的自动系统Aceso相比,Mist 的平均加速比为1.27倍(最多2.04倍)。
arXiv:2503.19048v1 宣告类型:交叉
摘要:本论文研究了长期短期记忆(LSTM)模型在预测美国就业开放职位和劳动力流动调查数据方面的效果。利用多种经济指标的数据,将这些数据直接输入LSTM模型以预测随后时期的JOLT(就业开放职位)数据。LSTM模型的性能与传统的自回归方法(包括ARIMA、SARIMA和Holt-Winters)进行了比较。研究发现,与这些传统模型相比,LSTM模型在预测JOLT就业开放职位方面表现更优,因为它不仅能够捕捉到相关的变量趋势,还能与关键的经济因素保持一致。这些结果强调了深度学习技术在捕捉经济数据中复杂的时间依赖性方面的潜在价值,为政策制定者和利益相关者开发数据驱动的劳动力市场策略提供了宝贵的见解。
arXiv:2503.19041v1 宣布类型: cross
摘要: 微调使大型语言模型(LLMs)能够适应特定领域,但往往会削弱它们之前确立的安全对齐。为了减轻模型安全在微调过程中下降的问题,我们引入了前瞻性微调(LookAhead Tuning),这是一种由简单、低资源和有效的数据驱动方法组成的方案,这些方法通过预览部分答案前缀来修改训练数据。这两种方法的目标是通过最小化对初始标记分布的影响来保留模型固有的安全机制。全面的实验表明,前瞻性微调能够在不牺牲下游任务的鲁棒性能的情况下有效地保持模型安全。我们的研究结果将前瞻性微调定位为一个可靠且高效的解决方案,用于安全有效地适应LLMs。代码发布在 https://github.com/zjunlp/LookAheadTuning。