arXiv 论文列表

作者: Geetanjali Bihani, Tatiana Ringenberg, Julia Rayz

arXiv:2502.12563v1 宣告类型: cross 摘要: 对隐含语言的编码对语言模型构成了挑战，尤其是在需要保持高精度的高风险领域。在线儿童诱拐的自动检测就是一个这样的关键领域，其中犯罪分子利用显性和隐含语言的结合来传达有害意图，操纵受害者的心理。虽然最近的研究表明，像SBERT这样的Transformer语言模型在预防诱拐检测方面具有潜力，但它们主要依赖于表面特征，并通过义警和执法部门的对话模拟实际受害者的诱拐过程。迄今为止，这些问题特征和模拟是否合理尚未得到解答。本文旨在弥补这一空白，研究SBERT是否能有效地识别对话中所固有的不同层次的诱拐风险，并在不同参与群体中评估其效果。我们的分析揭示，尽管微调有助于语言模型学习分配诱拐分数，但在涉及更高层次诱拐风险的上下文中，预测结果显示出较高的波动性。这些错误出现在1）利用间接言语途径操纵受害者，以及2）缺乏色情内容的情况下。这一发现强调了对语言模型进行间接言语行为的稳健建模的必要性，特别是在犯罪分子使用的模型中。

发布时间: 2/19/2025

查看原文

MomentsSeeker：长视频中时刻检索的综合基准和强大基线

作者: Huaying Yuan, Jian Ni, Yueze Wang, Junjie Zhou, Zhengyang Liang, Zheng Liu, Zhao Cao, Zhicheng Dou, Ji-Rong Wen

arXiv:2502.12558v1 声称类型: cross 摘要：检索增强生成（RAG）在解决长视频理解相关挑战方面展现了巨大的潜力。这些方法可以从长视频中检索出对它们所展示的任务有用的时刻，从而使多模态大规模语言模型（MLLM）以经济有效的方式生成高质量的回答。在本文中，我们提出了 MomentSeeker，这是一个全面的基准，用于评估检索模型在处理通用长视频时刻检索（LVMR）任务方面的性能。MomentSeeker 提供了三个主要优势。首先，它包含平均时长超过 500 秒的长视频，使其成为第一个专门用于长视频时刻检索的基准。其次，它涵盖了广泛的任务类别（包括时刻搜索、字幕对齐、图像条件时刻搜索和视频条件时刻搜索）和多种应用场景（例如体育、电影、卡通和第一人称视角），使其成为评估检索模型一般 LVMR 性能的综合工具。此外，通过人工标注精心设计评估任务，确保评估的可靠性。我们进一步在合成数据上对基于 MLLM 的 LVMR 检索器进行了微调，其在我们的基准上展示了强大的性能。我们使用我们的基准对各种流行的多模态检索器进行了广泛实验，其结果突显了 LVMR 的挑战和现有方法的局限性。我们创建的资源将与社区共享，以促进未来对该领域的研究。

发布时间: 2/19/2025

查看原文

儿童的LLM安全性

作者: Prasanjit Rath, Hari Shrawgi, Parag Agrawal, Sandipan Dandapat

arXiv:2502.12552v1 安全类型：跨领域摘要：本文分析了大型语言模型（LLMs）在与18岁以下儿童互动中的安全性。尽管大型语言模型在儿童生活的各个方面，如教育和治疗中有着变革性的应用，但在理解和缓解特定于这一 demographic 的潜在内容危害方面仍然存在显著的差距。该研究承认了儿童的多样性和这种多样性往往被标准的安全评估所忽视，并提出了一种全面的方法来评估儿童专用的大型语言模型的安全性。我们列出了儿童在使用由大型语言模型驱动的应用时可能遇到的潜在风险。此外，我们根据儿童照护和心理学方面的文献，开发了儿童用户模型，以反映儿童不同的个性和兴趣。这些用户模型旨在填补文献中关于儿童安全的各个领域的现有空白。我们利用儿童用户模型评估了六种最先进的大型语言模型的安全性。我们的观察结果揭示了大型语言模型在某些对儿童有害而对成人无害的类别的安全性方面存在显著的差距。

发布时间: 2/19/2025

查看原文

通过降低特征相关性提高GNN力场模型的稳定性

作者: Yujie Zeng, Wenlong He, Ihor Vasyltsov, Jiaxin Wei, Ying Zhang, Lin Chen, Yuehua Dai

arXiv:2502.12548v1 宣告类型: cross 摘要: 近年来，基于图神经网络的力场模型（GNNFF）在分子动力学（MD）模拟中得到了广泛应用，而MD模拟是半导体材料研究中最经济有效的方法之一。然而，即使这些模型在训练数据集（内部数据集）上提供了高精度的能量和力的绝对误差均值（MAE），在使用于外部数据集进行长时间MD模拟时，它们通常会变得不稳定。本文提出了一种基于特征相关性的方法，以增强GNNFF模型在MD模拟中的稳定性。我们揭示了特征相关性与GNNFF模型稳定性之间的负相关关系，并设计了一种具有动态损失系数调度器的损失函数，可以减少边缘特征的相关性，并适用于一般的GNNFF训练。我们还提出了一个经验度量来评估MD模拟中的稳定性。实验表明，我们的方法可以显著提高GNNFF模型的稳定性，尤其是在外部数据上的稳定性提升，仅有不到3%的计算开销。例如，我们可以通过这项方法将Allegro模型的稳定MD模拟时间从0.03皮秒扩展到10皮秒。

发布时间: 2/19/2025

查看原文

计算具有改进反馈的投票规则

作者: Evi Micha, Vasilis Varsamis

arXiv:2502.12542v1 宣布类型：交叉摘要：在社会选择及相关领域中，汇总不完备或受限反馈下的偏好是一个基本问题。尽管先前的研究已经证明了对两两比较的强不可能性结果，但本文将研究扩展到改进反馈，其中选民表达增量调整而非完整的偏好。我们提供了在给定改进反馈的情况下可以计算的位次评分规则的完整表征。有趣的是，虽然在改进反馈下，首位制是可以学习的——但这与两两反馈的情况不同——许多其他位次评分规则仍然存在强不可能性结果。此外，我们证明了改进反馈不像两两反馈那样，足以计算任何康多塞一致规则。我们通过实验结果补充了我们的理论发现，进一步探讨了改进反馈在偏好聚合中的实用意义。

发布时间: 2/19/2025

查看原文

在强化学习股票市场交易中寻找最优交易历史

作者: Sina Montazeria, Haseebullah Jumakhanb, Amir Mirzaeinia

arXiv:2502.12537v1 交叉公告类型摘要：本文研究了使用2D卷积神经网络（CNN）在金融深度强化学习（DRL）模型中优化时间窗口的方法。我们提出了一种新颖的方法，将时间领域视为超参数，并探讨了在各种数据集和特征排列下其对模型性能的影响。我们为CNN策略引入了一个新的超参数，建议可以并且应该在这些模型中将时间领域视为超参数。通过在深度强化学习过程中逐步扩大CNN策略观察的时间窗口，我们探讨了时间领域的意义。我们的逐步过程包括从两周逐渐增加观察期至十二周，从而使我们能够研究不同的时间窗口对模型性能的影响。这种窗口扩展在两种设置中实现。在一种设置中，我们将数据集中的特征重新排列以按公司分组，使模型在其观察窗口和CNN核中对公司的数据有全面的视图。在第二种设置中，我们不对特征按公司进行分组，而是根据类别进行排列。我们的研究表明，在没有对特征进行按公司分组的重新排列的情况下，较短的时间窗口最为有效。然而，在我们引入特征重新排列时，模型将使用更长的时间窗口并获得更好的性能。为了验证我们的发现的一致性，我们在两个包含来自道琼斯指数的同一三十分家公司但每个数据集具有不同特征的数据集上重复了实验，并观察到了上述模式。结果是显著优于如Global X Guru等全球金融服务公司的一项交易模型，该模型由Mirae Asset公司建立。

发布时间: 2/19/2025

查看原文

神经编码中的算法板

作者: Jingyi Feng, Kai Yang

arXiv:2502.12536v1 声明类型：交叉学科摘要：理解神经编码和解码的机制一直是神经科学和认知智能等领域中高度有趣的研究课题。在前期研究中，一些研究人员在运动场景中通过未监督方法解码的神经数据中发现了对称性，并基于这一模式（即对称性）构建了一个认知学习系统。然而，数据流的分布状态，这显著影响神经解码的位置，系统内部仍然不明朗，这进一步限制了系统的可解释性增强。基于此，本文主要从机器学习和数学统计的角度探讨系统内部数据分布状态的变化。在实验中，我们使用数学和统计中常用的工具和指标评估了这种对称性的正确性。根据实验结果，正态分布（或高斯分布）在系统中预测位置的解码过程中起着至关重要的作用。最终，构建了一个类似于高尔顿板的算法板，作为所发现对称性的数学基础。

发布时间: 2/19/2025

查看原文

GSCE: 一种增强推理的提示框架，用于可靠的LLM驱动无人机控制

作者: Wenhao Wang, Yanyan Li, Long Jiao, Jiawei Yuan

arXiv:2502.12531v1 类别: cross 摘要：将大型语言模型（LLMs）整合到机器人控制中，包括无人机，有可能革新自主系统。研究已经表明，LLMs可以被利用来支持机器人的操作。然而，在面对具有复杂推理的任务时，人们对LLMs产生解决方案的可靠性提出了担忧和挑战。在本文中，我们提出了一种增强推理的提示框架，以实现可靠的LLM驱动的无人机控制。我们的框架包含使用指南、技能API、约束和示例等新型技术组件设计而成的GSCE框架。GSCE的特点是可靠的、符合约束的代码生成。我们使用GSCE进行了广泛的实验，用于控制具有不同复杂程度任务的无人机。我们的实验结果表明，与基准方法相比，GSCE在任务的成功率和完整性方面有显著改善，突显了其在可靠LLM驱动的自主无人机系统中的潜力。

发布时间: 2/19/2025

查看原文

从抽象到可行：成对舍勒值实现可解释的人工智能

作者: Jiaxin Xu, Hung Chau, Angela Burden

arXiv:2502.12525v1 宣告类型: cross 摘要: 可解释的人工智能（XAI）对于确保在高风险领域内部署的黑盒模型的透明性、责任性和信任度至关重要。在XAI方法中，Shapley值由于其公平性和一致性公理而被广泛使用。然而，常见的Shapley值近似方法通常依赖于抽象的基线或计算量大的计算，这可能限制了其可解释性和可扩展性。为了解决这些挑战，我们提出了Pairwise Shapley值这一新型框架，该框架基于特征空间中邻近数据实例之间明确的、可人类关联的对比来进行特征归因。我们的方法结合了成对参考选择和单值插补，以提供直观且模型无偏的解释，同时显著减少了计算开销。在这里，我们证明了Pairwise Shapley值在多种回归和分类场景中增强了可解释性，包括房地产定价、聚合物性质预测和药物发现数据集。我们得出结论，所提出的方法使AI系统更加透明，并推动了XAI在实际应用中的适用性。

发布时间: 2/19/2025

查看原文

YOLOv12：以注意力为中心的实时目标检测器

作者: Yunjie Tian, Qixiang Ye, David Doermann

arXiv:2502.12524v1 类型: cross 摘要: 长期以来，增强YOLO框架的网络架构至关重要，但主要集中在基于CNN的改进上，尽管已经证明注意力机制在建模能力方面具有优越性。这是因为基于注意力的模型无法与基于CNN的模型的速度相媲美。本文提出了一种以注意力为中心的YOLO框架，即YOLOv12，该框架能够在保持与之前的基于CNN模型相同速度的同时，充分利用注意力机制的性能优势。YOLOv12在精度上超越了所有流行的实时目标检测器，同时具有竞争力的速度。例如，YOLOv12-N在T4 GPU上的推理延迟为1.64 ms时，实现了40.6%的mAP，分别以相似的速度超越了先进的YOLOv10-N / YOLOv11-N，提高了2.1%和1.2%的mAP。这一优势也扩展到了其他模型规模。YOLOv12还超越了改进DETR的端到端实时检测器，如RT-DETR / RT-DETRv2：YOLOv12-S在运行速度快42%的情况下，只使用了36%的计算量和45%的参数，就击败了RT-DETR-R18 / RT-DETRv2-R18。更多比较见图1。

发布时间: 2/19/2025

查看原文