arXiv 论文列表

作者: Soumik Dey, Hansi Wu, Binbin Li

arXiv:2505.04209v1 宣布类型: 横向摘要: 电子商务卖家基于其库存推荐关键短语，以提高买家参与度（点击率/销售额）。广告商关键短语的相关性在防止搜索系统被大量无关的项目淹没（这些项目在拍卖中争夺注意力），以及维护健康的卖家形象方面发挥着重要作用。在本文中，我们描述了使用点击率/销售额/搜索相关性信号训练广告商关键短语相关性过滤模型的局限性，并强调了与人类判断对齐的重要性，因为卖家有权接受或拒绝这些关键短语的推荐。在这项研究中，我们将广告商关键短语的相关性视为三个动态系统之间的复杂交互——卖家判断，这影响卖家对我们产品的采用；广告，提供可竞价的关键短语；以及搜索，针对相同的关键词举办拍卖。本文讨论了通过eBay广告案例研究利用人类判断的实用性，并展示了大规模使用LLM作为法官作为卖家判断的可扩展代理来训练我们相关性模型，可以在三个系统之间实现更好的和谐执行，前提是必须基于业务指标进行细致的评估框架。

发布时间: 5/8/2025

查看原文

增强的YOLOv8模型用于实时和准确的坑洞检测与测量

作者: Mustafa Yurdakul, \c{S}akir Tasdemir

arXiv:2505.04207v1 交叉公告类型：cross 摘要：车辙会导致车辆损坏和交通事故，从而引发严重安全和经济问题。因此，早期和准确地检测车辙至关重要。现有的检测方法通常仅基于2D RGB图像，无法准确分析车辙的物理特性。本文创建了一个公开可用的RGB-D图像数据集（PothRGBD），并基于YOLOv8提出了改进模型，用于车辙检测和车辙物理特性分析。使用英特尔RealSense D415深度相机从道路表面收集RGB和深度数据，形成了包含1000张图像的PothRGBD数据集。数据采用适合分割的YOLO格式进行标注。基于YOLOv8n-seg架构提出了一种新型YOLO模型，该模型在结构上进行了改进，加入了动态蛇形卷积（DSConv）、简单注意力模块（SimAM）和高斯误差线性单元（GELU）。所提出的模型更准确地分割了边缘结构不规则的车辙，并且在深度图上进行周长和深度测量的准确性很高。标准模型YOLOv8n-seg在准确率、召回率和mAP@50方面的值分别为91.9%、85.2%和91.9%。使用所提出的模型，这些值分别增加到93.7%、90.4%和93.8%。因此，在精准率、召回率和mAP方面分别取得了1.96%、6.13%和2.07%的改进。所提出的模型在高精度下同时执行车辙检测和周长与深度测量，并且由于其低模型复杂度，适用于实时应用。通过这种方式，已获得一个轻量级且有效的模型，可以用于基于深度学习的智能交通解决方案。

发布时间: 5/8/2025

查看原文

视频路径-LLaVA：通过视频指令调优的病理诊断推理

作者: Trinh T. L. Vuong, Jin Tae Kwak

arXiv:2505.04192v1 交叉类型: cross 摘要: 我们介绍了VideoPath-LLaVA，这是计算病理学中第一个集成了三种不同图像场景的大规模多模态模型（LMM）：单张切片图像、自动关键帧提取的剪辑，以及手动分割的病理视频图像，以模拟病理学家的自然诊断过程。通过生成详细的组织学描述并最终得出一个确定性的签出诊断，VideoPath-LLaVA 将视觉叙事与诊断推理相结合。我们方法的核心是 VideoPath-Instruct 数据集，该数据集包含 4278 个病理学视频和诊断特定的思维链指令对，这些数据来源于 YouTube 上的教育病理学视频。尽管高质量的数据对于增强诊断推理至关重要，但其创建需要大量时间和数据量有限。为了解决这一挑战，我们从现有的单张图像指令数据集转移知识，在弱标注的关键帧提取剪辑上进行训练，然后在手动分割的视频上进行微调。VideoPath-LLaVA 设立了病理视频分析的新基准，并为未来的 AI 系统提供了一个有希望的基础，这些系统通过集成的视觉和诊断推理支持临床决策。我们的代码、数据和模型已公开发布在 https://github.com/trinhvg/VideoPath-LLaVA。

发布时间: 5/8/2025

查看原文

S3D：草图驱动的3D模型生成

作者: Hail Song, Wonsik Shin, Naeun Lee, Soomin Chung, Nojun Kwak, Woontack Woo

arXiv:2505.04185v1 类别: cross 摘要: 从2D草图生成高质量的3D模型是一项具有挑战性的工作，由于草图数据固有的模糊性和稀疏性。在本文中，我们提出了一种名为S3D的新型框架，可以将简单的手绘草图转换成详细的3D模型。我们的方法利用基于U-Net的编码-解码架构，将草图转换成面部分割掩码，然后利用这些掩码生成可以从新视角渲染的3D表示。为了确保2D草图域和3D输出之间的稳健一致性，我们引入了一种新颖的风格对齐损失，这种损失使U-Net瓶颈特征与3D生成模块的初始编码输出对齐，显著提高了重建保真度。为了进一步增强网络的稳健性，我们对草图数据集应用了增强技术。这种简化的框架展示了S3D在从草图输入生成高质量3D模型方面的有效性。该项目的源代码已在https://github.com/hailsong/S3D上公开提供。

发布时间: 5/8/2025

查看原文

基于检索增强生成的端到端文本识别可变形优化变压器架构

作者: Naphat Nithisopa, Teerapong Panboonyuen

arXiv:2505.04175v1 交叉类型: cross 摘要：自然图像中的文本识别依然是一项具有挑战性但又必不可少的任务，其在计算机视觉和自然语言处理领域有着广泛的应用。本文介绍了一种新颖的端到端框架，该框架结合了ResNet和Vision Transformer骨干网络，并采用了一些先进的方法，包括可变形卷积、检索增强生成和条件随机场（CRF）。这些创新共同提升了特征表示，并改善了光学字符识别（OCR）性能。具体来说，该框架用可变形卷积替代了第三和第四块的标准卷积层，采用自适应丢弃进行正则化，并引入了CRF以实现更为精细的序列建模。在IC13、IC15、SVT、IIIT5K、SVTP和CUTE80六个基准数据集上进行的大量实验验证了所提出方法的有效性，分别在IC13、IC15、SVT、IIIT5K、SVTP和CUTE80上达到97.32%、58.26%、88.10%、74.13%、82.17%和66.67%的准确率，平均准确率为77.77%。这些结果建立了文本识别的新基准，展示了该方法在各种具有挑战性数据集上的鲁棒性。

发布时间: 5/8/2025

查看原文

基于设备的大语言模型用于上下文感知的Wi-Fi漫游

作者: Ju-Hyung Lee, Yanqing Lu

arXiv:2505.04174v1 宣告类型: cross 摘要：无基站漫游是在动态移动环境中维持无缝连接的关键且具有挑战性的任务。传统的基于阈值的方法或启发式方案往往失败，导致要么粘性切换要么过度切换。我们介绍了首个设备上的大语言模型（LLM）的跨层应用：应用程序层的高层次推理发出实时时频执行的动作于PHY/MAC堆栈。LLM解决两个任务：(i) 上下文感知的AP选择，其中结构化的提示融合环境线索（例如，位置、时间）来选择最佳的BSSID；和(ii) 动态阈值调整，模型根据条件适应性地决定何时进行漫游。为了满足边缘硬件的紧密延迟和资源预算，我们应用了一系列优化：思维链提示、参数高效微调和量化。在室内和室外数据集上的实验表明，我们的方法超越了传统的启发式方法和DRL基线，实现了漫游稳定性和信号质量之间的良好平衡。这些发现突显了应用层LLM推理在未来边缘系统中对低层无线控制的潜力。

发布时间: 5/8/2025

查看原文

TS-SNN: Temporal Shift 模块用于脉冲神经网络

作者: Kairong Yu, Tianqing Zhang, Qi Xu, Gang Pan, Hongwei Wang

arXiv:2505.04165v1 宣告类型: cross 摘要: 突触神经网络（SNNs）因其生物可解释性和能源效率而日益受到认可，并被定位为神经形态计算应用中人工神经网络（ANNs）的强有力替代者。SNNs 通过利用尖峰的精确时序来自然处理时间信息，但如何在充分利用时间特征的同时实现低能耗仍然是一个挑战。在这项工作中，我们引入了适用于突触神经网络的时序移位模块（TS-SNN），该模块通过简单的移位操作引入了新颖的时序移位（TS）模块，以便在一个时间步内整合过去、现在和未来的尖峰特征。残差组合方法通过整合移位和原始特征来防止信息丢失。TS 模块非常轻量，仅需要一个可学习的参数，并且可以轻松地以极少的额外计算成本融入现有的架构中。TS-SNN 在基准测试如 CIFAR-10（96.72%）、CIFAR-100（80.28%）和 ImageNet（70.61%）中实现了最先进的性能，同时保持了较低的能耗。这项工作标志着在开发高效且准确的 SNN 架构方面迈出了一大步。

发布时间: 5/8/2025

查看原文

R³-VQA: "读取环境"的视频社会推理

作者: Lixing Niu, Jiapeng Li, Xingping Yu, Shu Wang, Ruining Feng, Bo Wu, Ping Wei, Yisen Wang, Lifeng Fan

arXiv:2505.04147v1 社交推理类型：交叉摘要：“读房间”是人类日常生活中的一项重要社会推理能力。人类可以根据细微的社会线索推断出他人的心理状态。以往的社会推理任务和数据集缺乏复杂性（例如，简单的场景、基本的互动、不完整的心里状态变量、单步推理等），远远无法应对现实生活中的社会互动中存在的挑战。在本文中，我们贡献了一个有价值的、高质量且全面的视频数据集，名为R^3-VQA，该数据集包含精确且细致的社会事件和心理状态（即信念、意图、愿望和情绪）注释，以及复杂的社交情景中的相应社会因果链。此外，我们还包括了人工注释和模型生成的问题-答案。我们的任务R^3-VQA包括三个方面：社会事件理解、心理状态估计和社会因果推理。作为基准，我们全面评估了当前最先进的大型视觉-语言模型（LVLMs）在社会推理能力及其一致性方面的表现。综合实验表明：（i）LVLMs仍无法在复杂的社交情景中达到人类级别的一致性社会推理；（ii）心智理论（ToM）提示可以有助于LVLMs更好地完成社会推理任务。我们将在附录中提供部分数据集和代码，并在论文被接受后发布完整的数据集和代码。

发布时间: 5/8/2025

查看原文

揭开画布：图像生成、脱缰与LLM内容安全的动态基准

作者: Variath Madhupal Gautham Nair, Vishal Varma Dantuluri

arXiv:2505.04146v1 宣告类型: cross 摘要：现有的大型语言模型（LLMs）在图像生成任务中取得了迅速的进步，并且在这些任务中展示了卓越的结果，然而它们的内容安全性检查仍然容易受到基于提示的破解攻击的影响。通过在ChatGPT、MetaAI和Grok等平台上进行初步测试，我们发现即使是简短的自然提示也可能导致生成具有潜在风险的图像，这些图像从伪造文件的逼真描述到公众人物的操纵图像不等。我们介绍了揭露画布（UTC Benchmark；UTCB），这是一个动态和可扩展的基准数据集，用于评估LLM在图像生成中的漏洞。我们的方法结合了结构化提示工程、多语言混淆（例如Zulu、Gaelic、Base64）以及使用Groq托管的LLaMA-3进行评估。管道支持零样本和后退提示策略、风险评分和自动标记。所有生成的内容都保存了丰富的元数据，并被整理成青铜（未验证）、白银（LLM辅助验证）和黄金（手动验证）三个等级。UTCB设计用于随着时间的推移而不断发展，新增数据源、提示模板和模型行为。警告：本文包含用于测试模型安全性的对抗性输入示例。所有输出均已屏蔽，以确保负责任的披露。

发布时间: 5/8/2025

查看原文

通过使用大规模预训练语言模型构建法律题库，将法律知识普及给公众

作者: Mingruo Yuan, Ben Kao, Tien-Hsuan Wu, Michael M. K. Cheung, Henry W. H. Chan, Anne S. Y. Cheung, Felix W. H. Chan, Yongxi Chen

arXiv:2505.04132v1 公告类型：交叉摘要：获取法律信息是获得正义的基础。然而，“可访问性”不仅指法律文件向公众提供，还包括使公众理解这些法律信息。向公众提供法律信息的一个棘手问题是，如何将立法和判决等正式的法律文件（这些文件往往非常技术性），转化为普通人容易导航和理解的知识。在本研究中，我们制定了一个三步方法来将法律知识带给非专业人士，解决可导航性和可理解性的问题。首先，我们将法律中选定的部分翻译成片段（称为CLIC页），每个片段都是一个小文章，专注于用非法律术语解释特定的法律概念。其次，我们构建了一个法律问题银行（LQB），这是一个包含合法问题的集合，其答案可以在CLIC页中找到。第三，我们设计了一个交互式的CLIC推荐器（CRec）。给定用户对需要法律解决方案的法律情况的口头描述，CRec 解释用户的输入，并从问题银行中精选出与给定法律情况最相关的几个问题，并推荐相应的CLIC页面，其中包含相关的法律知识。在本文中，我们重点关注创建LQB的技术方面。我们展示了如何使用大型预训练语言模型（如GPT-3）生成法律问题。我们将机器生成的问题（MGQs）与人工编写的提问（HCQs）进行了比较，发现MGQs更具可扩展性、成本效益和多样性，而HCQs更为精确。我们还展示了CRec的原型，并通过一个例子说明了我们三步方法如何有效将相关法律知识带给公众。

发布时间: 5/8/2025

查看原文