arXiv 论文列表

作者: Rishikesh Jha, Siddharth Subramaniyam, Ethan Benjamin, Thrivikrama Taula

基于嵌入的的神经检索是一种流行的方法，用于解决产品搜索中尾部查询经常出现的语义鸿沟问题。相比之下，流行查询通常缺乏上下文，并且具有广泛的意图，用户历史交互中的额外上下文可能会有所帮助。在本文中，我们分享了我们解决这两个问题的新颖方法：语义鸿沟问题，以及一个针对个性化语义检索的端到端训练模型。我们提出了一种学习统一嵌入模型的方法，该模型结合了图、转换器和基于词语的嵌入，并端到端进行训练，并分享了我们在性能和效率之间取得最佳权衡的设计选择。我们分享了我们在特征工程、难负样本采样策略以及转换器模型应用方面的经验，包括一种新颖的预训练策略和其他用于提高搜索相关性和在行业规模上部署此类模型的技巧。我们的个性化检索模型显著改善了整体搜索体验，正如多个 A/B 测试在实时流量中汇总的结果所显示的那样，搜索购买率提高了 5.58%，网站范围内的转化率提高了 2.63%。

发布时间: 9/26/2024

查看原文

利用可解释机器学习提高临床医生在痫性发作-发作间期-损伤连续体上脑电图模式分类的性能

作者: Alina Jade Barnett, Zhicheng Guo, Jin Jing, Wendong Ge, Peter W. Kaplan, Wan Yee Kong, Ioannis Karakis, Aline Herlopian, Lakshman Arcot Jayagopal, Olga Taraschenko, Olga Selioutski, Gamaleldin Osman, Daniel Goldenholz, Cynthia Rudin, M. Brandon Westover

在重症监护病房 (ICU)，危重病人会通过脑电图 (EEG) 进行监测以防止严重脑损伤。由于可用于解读脑电图的训练有素的医师数量有限，因此可监测的病人数量受到限制，而且脑电图解读可能存在主观性，容易出现观察者之间差异。用于脑电图的自动化深度学习系统可以减少人为偏差并加速诊断过程。然而，黑盒深度学习模型不可信，难以排查故障，且在现实世界应用中缺乏可问责性，导致临床医生对其缺乏信任和采用。为了解决这些挑战，我们提出了一种新颖的可解释深度学习模型，该模型不仅可以预测有害脑波模式的存在，还可以提供其决策的高质量基于案例的解释。尽管我们的模型被限制为可解释的，但其性能优于相应的黑盒模型。学习到的二维嵌入空间首次提供了脑波模式的痫性发作间期-损伤连续谱结构的全局概述。理解我们模型如何做出决策的能力不仅可以帮助临床医生更准确地诊断和治疗有害脑活动，还可以提高他们对机器学习模型的信任和采用；这可能是重症监护病房神经科医师标准工作流程中不可或缺的一部分。

发布时间: 9/26/2024

查看原文

基于目标的车辆轨迹预测神经物理模型

作者: Rui Gan, Haotian Shi, Pei Li, Keshu Wu, Bocheng An, Linheng Li, Junyi Ma, Chengyuan Ma, Bin Ran

车辆轨迹预测在智能交通系统和自动驾驶中起着至关重要的作用，因为它显著影响着车辆行为规划和控制，进而影响交通安全和效率。许多研究致力于预测近期的短期车辆轨迹。然而，由于累积的误差和不确定性，长期轨迹预测仍然是一个重大挑战。此外，在预测车辆轨迹时，平衡准确性和可解释性也是另一个挑战。为了解决这些挑战，本文提出了一种基于目标的物理神经网络车辆轨迹预测模型（GNP）。GNP模型将车辆轨迹预测简化为两阶段过程：确定车辆目标，然后选择合适的轨迹到达该目标。GNP模型包含两个子模块来实现此过程。第一个子模块采用多头注意力机制来准确预测目标。第二个子模块将深度学习模型与基于物理的社会力模型相结合，利用生成的目标逐步预测完整的轨迹。与四个基线模型相比，GNP展示了最先进的长期预测精度。我们提供了可解释的可视化结果，以突出显示我们神经物理框架的多模态性和内在性质。此外，还进行了消融研究以验证我们关键设计的有效性。

发布时间: 9/26/2024

查看原文

对数正态突变及其在检测秘密伪造图像中的应用

作者: Ismail Labiad, Thomas B\"ack, Pierre Fernandez, Laurent Najman, Tom Sander, Furong Ye, Mariia Zameshina, Olivier Teytaud

在许多情况下，对抗攻击基于专门用于攻击自动图像分类器的算法。这些算法由于其出色的初始攻击分布而表现良好。然而，由于其特定的初始分布，这些攻击很容易被检测到。因此，我们考虑其他黑盒攻击，这些攻击的灵感来自通用的黑盒优化工具，特别是对数正态算法。我们将对数正态方法应用于假检测器的攻击，并获得了成功的攻击：重要的是，这些攻击没有被专门针对经典对抗攻击的检测器检测到。然后，将这些攻击和深度检测结合起来，我们创建了改进的假检测器。

发布时间: 9/26/2024

查看原文

MLLM 作为强大的重排序器：通过知识增强重排序和噪声注入训练推进多模态检索增强生成

作者: Zhanpeng Chen, Chengjin Xu, Yiyan Qi, Jian Guo

多模态大型语言模型 (MLLMs) 在处理和生成跨多种数据模态的内容方面展现出了非凡的能力。然而，MLLMs 的一个重大缺陷是它们依赖于静态训练数据，导致信息过时且上下文感知能力有限。这种静态特性阻碍了它们提供准确和最新响应的能力，尤其是在动态或快速变化的语境中。尽管集成多模态检索增强生成 (Multimodal RAG) 提供了一种很有前景的解决方案，但该系统不可避免地会遇到多粒度噪声对应 (MNC) 问题，这阻碍了准确的检索和生成。在本研究中，我们提出了 RagVL，一个具有知识增强重新排序和噪声注入训练的新框架，以解决这些限制。我们使用一个简单但有效的指令模板对 MLLM 进行指令微调，以诱导其排名能力，并将其用作重新排序器，以精确过滤前 k 个检索到的图像。为了生成，我们在训练期间在数据和标记级别注入视觉噪声，以增强生成器的鲁棒性。在需要检索和推理图像以回答给定查询的两个数据集的子集上进行的大量实验验证了我们方法的有效性。代码和模型可在 https://github.com/IDEA-FinAI/RagVL 获取。

发布时间: 9/26/2024

查看原文

Fi$^2$VTS：基于频域捕获变量间和变量内变化的时间序列预测

作者: Rujia Shen, Yang Yang, Yaoxion Lin, Liangliang Liu, Boran Wang, Yi Guan, Jingchi Jiang

时间序列预测 (TSF) 在电力转换、医疗监测和作物生长等各种应用中发挥着至关重要的作用。尽管深度学习方法在 TSF 中取得了进展，但它们预测长期序列的能力仍然受到限制。这种局限性源于未能同时考虑变量内部和变量之间的变化。为了缓解这一挑战，我们引入了 Fi$^2$VBlock，它利用**频域**视角来捕捉**变量内部**和**变量之间**的**变化**。通过频率变换模块将数据转换到频域后，设计了实部和虚部之间的频率交叉注意力机制，以获得增强的频率表示并捕捉变量内部的变化。此外，采用 Inception 模块来整合信息，从而捕捉不同变量之间的相关性。我们的主干网络 Fi$^2$VTS 采用残差架构，通过连接多个 Fi$^2$VBlock 来防止退化问题。从理论上讲，我们证明了 Fi$^2$VTS 在时间和内存复杂度方面都实现了大幅度降低，从每个 Fi$^2$VBlock 计算的 $\mathcal{O}(L^2)$ 降至 $\mathcal{O}(L)$。在三个基准数据集上的实证评估表明，与最新的最先进方法相比，Fi$^2$VTS 的平均平方误差 (MSE) 平均降低了 30%，平均绝对误差 (MAE) 平均降低了 22%。实现代码可在 \url{https://github.com/HITshenrj/Fi2VTS} 获取。

发布时间: 9/26/2024

查看原文

SPL：基于大型语言模型的苏格拉底式学习游乐场

作者: Liang Zhang, Jionghao Lin, Ziyi Kuang, Sheng Xu, Xiangen Hu

基于对话的智能辅导系统（ITS）通过在交互式对话中自动化复杂的人类辅导策略，显著地推动了自适应和个性化学习的发展。然而，在自然语言处理（NLP）中，复制专家级人类交流的细微模式仍然是一个挑战。NLP的最新进展，特别是像OpenAI的GPT-4这样的大型语言模型（LLM），通过提供基于广泛预训练知识的人类化和上下文感知的响应，提供了有前景的解决方案。受LLM在各种教育任务（例如内容创建和摘要、问题解决和自动反馈提供）中的有效性的启发，我们的研究引入了苏格拉底学习游乐场（SPL），一个由GPT-4模型驱动的基于对话的ITS，它采用苏格拉底教学法来培养学习者的批判性思维。通过广泛的提示工程，SPL可以生成特定的学习场景，并促进高效的多轮辅导对话。SPL系统旨在增强针对个人需求量身定制的个性化和自适应学习体验，特别是专注于提高批判性思维技能。我们从作文任务中获得的初步实验结果表明，SPL有可能改善辅导互动，并进一步增强基于对话的ITS功能。我们的研究，以SPL为例，展示了LLM如何增强基于对话的ITS，并扩展了教育技术的可访问性和有效性。

发布时间: 9/26/2024

查看原文

揭开黑盒的神秘面纱：生成式人工智能时代的科学方法

作者: Gianmarco Mengaldo

科学方法是人类在自然科学和应用科学各个领域取得进步的基石，从理解人体到解释宇宙运作原理。科学方法基于识别描述感兴趣现象的系统规则或原理，这些规则或原理以可重现的方式进行验证，并可以通过实验证据得到验证。在人工智能 (AI) 时代，人们正在讨论人工智能系统如何发现新知识。我们认为，至少在通用人工智能出现之前，人类复杂的科学发现推理仍然至关重要。然而，可解释人工智能可以被利用于科学发现。更具体地说，了解人工智能系统认为哪些数据对于做出决策很重要，这可以成为与领域专家和科学家的接触点，从而导致对特定科学问题的不同或一致的观点。不同的观点可能会引发进一步的科学调查，从而导致新的科学知识。

发布时间: 9/26/2024

查看原文

基于Transformer序列到序列模型的城市道路网络轨迹地图匹配代理模型

作者: Sevin Mohammadi, Andrew W. Smyth

从联网车辆获取的大规模地理位置遥测数据有可能显著增强智慧城市中的移动基础设施和运营系统。为了有效利用这些数据，准确地将地理位置数据与道路段匹配至关重要。然而，由于城市环境中多径效应造成的低采样率和误差，这种匹配通常并不容易。传统上，将领域知识纳入匹配过程的隐马尔可夫模型等统计建模技术已广泛用于地图匹配任务。然而，基于规则的地图匹配任务对噪声敏感，并且在处理大规模轨迹数据方面效率低下。深度学习技术直接从数据中学习观测数据与道路网络之间的关系，通常无需手工规则或领域知识。这使它们成为一种高效的方法，适用于匹配大规模数据集，并且对噪声更具鲁棒性。本文介绍了一种深度学习模型，特别是基于 Transformer 的编码器-解码器模型，作为离线地图匹配算法的替代方案。编码器-解码器架构最初将一系列噪声 GPS 点编码为一个表示，该表示自动捕获 GPS 点之间的自回归行为和空间相关性。随后，解码器将数据点与道路网络特征相关联，从而将这些表示转换为一系列道路段。该模型使用在纽约曼哈顿收集的 GPS 轨迹进行训练和评估。基于 Transformer 的编码器-解码器模型在自然语言处理中被广泛使用，实现了 75% 的准确率，为将噪声 GPS 数据转换为城市道路网络中的导航路线提供了有希望的性能。

发布时间: 9/26/2024

查看原文

迈向自主供应链：定义、特征、概念框架和自主级别

作者: Liming Xu, Stephen Mak, Yaniv Proselkov, Alexandra Brintrup

近年来，全球性事件，例如疫情和地缘政治冲突，深刻地暴露了传统供应链的脆弱性，迫切需要探索更具韧性的替代方案。自主供应链（ASC）应运而生，为动荡的贸易环境提供了更高的可见性、灵活性和韧性。尽管在过去几年中，行业和学术界对此进行了讨论，但 ASC 缺乏完善的理论基础。本文旨在填补这一研究空白，通过提出 ASC 的正式定义及其定义特征和辅助概念来解决这一问题。我们提出了一个名为 MIISI 模型的分层概念框架。以肉类供应链为例的案例研究展示了基于此概念模型的初始 ASC 实施。此外，我们还介绍了一个七级供应链自治参考模型，描绘了实现完全供应链自治的轨迹。认识到这项工作只是一个初步尝试，我们强调需要在这个新兴领域继续探索。我们预计这项工作将激发进一步的理论和技术研究，并促进 ASC 的持续发展。

发布时间: 9/26/2024

查看原文