arXiv 论文列表

面向更优异的单语日语检索器的多向量模型研究

arXiv:2312.16144v2 公告类型: replace-cross 摘要：由于与英语相比，特定语言的训练数据往往较为稀缺，因此许多语言的文档检索主要依赖于多语言模型。在日语中，表现最好的基于深度学习的检索方法依赖于多语言密集嵌入器，而仅限日语的模型则远远落后。然而，多语言模型需要大量的计算和数据进行训练，并且具有更高的计算和内存需求，同时往往缺乏文化相关的信息。在本文中，我们介绍了JaColBERT，一个多向量检索器家族，其训练数据量比多语言模型少两个数量级，但却达到了竞争性的性能。我们的最强模型在所有数据集上都大大优于现有的所有单语言日语检索器，并在所有非域任务中优于现有的最强多语言模型，突显了需要能够处理语言特性的专用模型。这些结果是通过一个仅有1.1亿参数的模型实现的，远小于所有多语言模型，并且仅使用有限的日语数据。我们相信，我们的成果在支持各种领域的日语检索增强应用管道方面展现了巨大的潜力。

发布时间: 9/24/2024

查看原文

自承技术债务检测方法：十年系统回顾

技术债务（TD）代表了在软件开发中与次优设计或代码决策相关的长期成本，这些决策通常是为了满足短期交付目标而做出的。自承技术债务（SATD）发生在开发人员在代码库中明确承认这些权衡时，通常通过注释或标注的方式。随着自然语言处理（NLP）、机器学习（ML）和深度学习（DL）技术的发展，自动检测SATD已成为一个日益重要的研究领域。本系统文献综述提供了对2014年至2024年间发表的SATD检测方法的综合分析，重点关注从基于NLP的模型到更先进的ML、DL和基于Transformers的模型（如BERT）技术的演变。该综述识别了SATD检测方法和工具的关键趋势，使用如精确度、召回率和F1得分等指标评估了不同方法的有效性，并突出了该领域的主要挑战，包括数据集异质性、模型的通用性和模型的可解释性。研究结果表明，尽管早期的NLP方法为SATD检测奠定了基础，但最近在DL和Transformers模型方面的进展显著提高了检测的准确性。然而，在将这些模型扩展到更广泛的工业应用中仍存在挑战。这篇系统文献综述提供了对当前研究空白的洞察，并为未来工作提供了方向，旨在提高SATD检测工具的鲁棒性和实用性。

发布时间: 9/24/2024

查看原文

小缺陷检测的增量统一框架

人工智能（AI）驱动的缺陷检测在工业制造中至关重要。然而，许多针对特定流水线定制的方法在面对多样化的产品组合和不断变化的工艺时显得捉襟见肘。为了解决这个问题，我们提出了增量统一框架（IUF），该框架可以在流水线中持续集成新对象时减少特征冲突问题，使其在对象增量学习场景中具有优势。我们采用最先进的变换器，引入了对象感知自注意力（OASA）来划定不同的语义边界。语义压缩损失（SCL）被集成以优化非主要语义空间，增强网络对新对象的适应性。此外，我们在权重更新过程中优先保留已建立对象的特征。我们的方法在图像和像素级缺陷检测中均表现出色，达到最先进的性能，证明了其在动态和可扩展的工业检测中的不可或缺性。我们的代码将发布在https://github.com/jqtangust/IUF。

发布时间: 9/24/2024

查看原文

缓解图像裁剪中透视畸变引起的形状模糊问题

对象在相机视野中移动时会经历不同程度的透视扭曲。从单张图像预测3D的模型通常处理围绕感兴趣对象的裁剪区域，而忽略对象在相机视野中的位置。我们注意到，忽略位置信息会进一步加剧从2D图像进行3D推断的固有模糊性，甚至可能导致模型无法适应训练数据。为了减轻这一模糊性，我们提出了内在参数感知位置编码（KPE），该方法结合了图像中裁剪区域的位置和相机内在参数的信息。在三个流行的单张图像3D预测基准测试上进行的实验：NYU的深度预测、KITTI和nuScenes上的3D对象检测、以及ARCTIC上关节对象的3D形状预测，显示了KPE的优势。

发布时间: 9/24/2024

查看原文

日常自我中心图像中的3D手势估计

3D手势姿态估计在日常自我中心图像中面临多重挑战：视觉信号差（交互对象遮挡、低分辨率和运动模糊）、视角畸变大（手靠近摄像头）以及缺乏受控环境之外的3D注释。虽然现有方法通常使用手部裁剪作为输入以专注于处理视觉信号差的细粒度视觉信息，但视角畸变和野外环境中缺乏3D注释带来的挑战尚未系统研究。我们专注于填补这一空白，探讨不同实践的影响，如裁剪作为输入、结合相机信息、辅助监督、扩展数据集。我们提供了适用于卷积模型和变压器模型的若干见解，从而提升性能。基于我们的研究结果，我们还提出了WildHands，一个用于日常自我中心图像中的3D手势姿态估计系统。对四个不同数据集（H2O、AssemblyHands、Epic-Kitchens、Ego-Exo4D）进行零样本评估，展示了我们方法在2D和3D指标上的有效性，超越了过去的方法7.4%-66%。在系统级别比较中，WildHands在ARCTIC自我中心分割中实现了最佳3D手势姿态，全面超越FrankMocap，并在6个指标中的3个上超越HaMeR，同时体积小10倍、训练数据少5倍。

发布时间: 9/24/2024

查看原文

VITATECS：用于视频语言模型时间概念理解的诊断数据集

感知对象随时间变化的能力是人类智能的一个关键要素。然而，由于存在静态视觉捷径，当前的基准测试无法真实反映视频语言模型（VidLMs）的时间理解能力。为了解决这个问题，我们提出了VITATECS，这是一个用于评估时间概念理解的诊断性视频-文本数据集。具体来说，我们首先引入了自然语言中时间概念的细粒度分类法，以诊断VidLMs理解不同时间方面的能力。此外，为了解开静态信息和时间信息之间的关联，我们生成了与原始描述仅在指定时间方面不同的反事实视频描述。我们采用了一个使用大型语言模型和人工参与注释的半自动数据收集框架，以高效地获得高质量的反事实描述。对代表性视频语言理解模型的评估证实了它们在时间理解方面的不足，揭示了在视频语言研究中需要更加重视时间元素。

发布时间: 9/24/2024

查看原文

Hessian感知低秩扰动用于顺序鲁棒的持续学习

持续学习旨在依次学习一系列任务，而不会遗忘从前一个任务中获得的知识。在这项工作中，我们提出了针对持续学习的Hessian感知低秩扰动算法。通过使用权重矩阵变换来建模参数在连续任务中的转变，我们建议在神经网络每一层的任务自适应参数上应用低秩近似。具体而言，我们从理论上证明了Hessian与所提出的低秩近似之间的定量关系。然后，根据由层特定梯度和低秩近似误差估算的经验损失边际增量，全局确定近似秩。此外，我们通过修剪不重要的参数来控制模型容量，以减少参数增长。我们在各种基准上进行了广泛的实验，包括一个具有大规模任务的数据集，并将我们的方法与一些最新的最先进方法进行了比较，以证明我们提出方法的有效性和可扩展性。实证结果表明，我们的方法在不同的基准上表现更好，尤其是在实现任务顺序鲁棒性和处理遗忘问题方面。源代码在https://github.com/lijiaqi/HALRP。

发布时间: 9/24/2024

查看原文

学习户外配送的动态选择和定价

家庭配送失败、交通拥堵和相对较长的处理时间对末端物流的盈利能力产生了负面影响。一个潜在的解决方案是将包裹送到自提柜或包裹店，即所谓的户外配送（OOH）。在学术文献中，OOH配送的模型迄今为止仅限于静态设置，这与问题的顺序性质形成对比。我们对每个新到客户提供的OOH位置和奖励的顺序决策问题进行了建模，考虑到了未来客户的到达和选择。我们提出了一种动态选择和定价的OOH（DSPO）算法管道，该管道使用一种新的时空状态编码作为卷积神经网络的输入。通过与两种最先进的方法进行对比，我们证明了我们方法的性能。我们的广泛数值研究由真实数据指导，揭示了DSPO相比没有OOH位置的情况可以节省19.9%的成本，较静态选择和定价政策节省7%，较最先进的需求管理基准节省3.8%。我们提供了对OOH配送动态和受定价策略影响的客户行为之间复杂相互作用的全面见解。我们的研究结果表明，业界应采用动态选择和定价政策。

发布时间: 9/24/2024

查看原文

基于提示与大型语言模型交互的安全风险分类法

随着大型语言模型（LLM）在越来越多的应用中普及，对其相关安全风险的评估变得越来越必要。从虚假信息传播到数据泄露和声誉损害，恶意行为者利用这些模型的潜力是巨大的。本文填补了当前研究中的一个空白，特别关注于在基于提示的交互方案中，LLM所带来的安全风险，这超越了广泛报道的伦理和社会影响。我们的工作提出了一个用户模型通信管道中的安全风险分类法，并按照目标和攻击类型以及常用的保密性、完整性和可用性（CIA）三要素对攻击进行分类。该分类法通过具体的攻击实例加以巩固，以展示这些风险在现实世界中的影响。通过这一分类法，我们旨在为开发稳健和安全的LLM应用提供信息，增强其安全性和可信度。

发布时间: 9/24/2024

查看原文

XplainLLM：用于在大型语言模型中提供可靠基础解释的知识增强数据集

大型语言模型（LLMs）在自然语言任务中取得了显著成功，但理解其推理过程仍然是一个重要挑战。我们通过引入XplainLLM来解决这一问题，这是一个伴随解释框架的数据集，旨在增强LLM的透明性和可靠性。我们的数据集包含24,204个实例，每个实例使用知识图谱（KGs）和图注意网络（GAT）来解释LLM的推理行为，并包括对仅解码器Llama-3和仅编码器RoBERTa等LLM的解释。XplainLLM还提供了一个生成有根据的解释的框架以及用于多维质量分析的调试分数。我们的解释包括选择原因和不选择原因的组件、推理元素和调试分数，这些共同阐明了LLM的推理行为。我们的评估表明，XplainLLM有潜力减少幻觉并改进LLM中有根据的解释生成。XplainLLM是研究人员和从业者建立信任和验证LLM输出可靠性的资源。

发布时间: 9/24/2024

查看原文