arXiv 论文列表

作者: Jingjin Wang

arXiv:2504.18070v1 公告类型: cross 摘要: 回忆增强生成（RAG）已成为为大型语言模型（LLMs）提供最新知识并在持续学习中缓解常见灾难性遗忘的标准非参数方法。然而，依赖独立段落检索的标准RAG方法无法捕捉人类记忆中对于复杂推理（联想性）和上下文理解（意义构建）至关重要的相互关联性。虽然像HippoRAG这样的结构化RAG方法利用从三元组构建的知识图谱（KGs），但固有的上下文损失限制了保真度。我们引入了PropRAG框架，该框架利用上下文丰富的命题并通过命题路径上的新颖的束搜索算法显式地发现多步推理链。关键的是，PropRAG的在线检索过程完全不依赖生成LLM，而是依赖高效的图遍历和预计算嵌入。这避免了在线LLM推理成本以及证据收集过程中的潜在不一致。LLM在离线使用时有效进行高质量命题提取，并在检索后用于答案生成。PropRAG在PopQA（55.3%）、2Wiki（93.7%）、HotpotQA（97.0%）和MuSiQue（77.3%）上实现了最先进的零样本Recall@5结果，同时还具有顶级的F1分数（例如，MuSiQue上的52.4%）。通过通过更丰富的表示和显式、无需LLM的在线路径查找来改进证据检索，PropRAG推动了非参数持续学习的发展。

发布时间: 4/28/2025

查看原文

单目3D目标跟踪的择优状态空间模型(S3MOT)

作者: Zhuohao Yan, Shaoquan Feng, Xingxing Li, Yuxuan Zhou, Chunxi Xia, Shengyu Li

arXiv:2504.18068v1 宣告类型: cross 摘要: 准确可靠的三维空间多对象跟踪(MOT)对于推进机器人和计算机视觉应用至关重要。然而，在单目设置中，由于难以从二维视频流中提取三维时空关联，这仍然是一个重大挑战。在本文中，我们提出了三种创新技术来增强单目3D MOT中异构线索的融合和利用：(1) 我们引入了匈牙利状态空间模型(HSSM)，这是一种新颖的数据关联机制，它通过压缩多个路径上的上下文轨迹线索来实现高效且全面的分配决策，其复杂性为线性。HSSM 具有全局感受野和动态权重，与传统的线性分配算法依赖手工构造的关联成本形成对比。(2) 我们提出了全卷积一阶段嵌入(FCOE)，该方法通过直接使用密集特征图来进行对比学习，从而在具有变化视角和光照条件等挑战性条件下提高对象再识别的准确性。(3) 我们通过使用建模速度时变关系的编码器-解码器架构 VeloSSM 来增强6自由度姿态估计，从而捕捉运动动态，克服基于帧的3D推理的限制。在KITTI公开测试基准上的实验展示了我们方法的有效性，在31 FPS下达到新的最佳性能，HOTA得分为76.86。我们的方法在HOTA和AssA方面分别比之前最佳方法高出2.63和3.62，展示了其在单目3D MOT任务中的稳健性和效率。代码和模型可在 https://github.com/bytepioneerX/s3mot 获取。

发布时间: 4/28/2025

查看原文

LLM引导的开放式RAN：赋能分层RAN智能控制

作者: Lingyan Bao, Sinwoong Yun, Jemin Lee, Tony Q. S. Quek

arXiv:2504.18062v1 交叉公告类型摘要：大型语言模型（LLMs）的 recent 进展导致了对利用 LLM 驱动的算法部署在无线通信网络中的显著兴趣。与此同时，开放无线接入网络（O-RAN）技术提供了前所未有的灵活性，通过非实时（non-RT）无线接入网络（RAN）智能控制器（RIC）（non-RT RIC）和近实时（near-RT）RIC（near-RT RIC）组件，在不同时间尺度上实现了智能资源管理。在本文中，我们提出了 LLM 支撑的分层 RIC（LLM-hRIC）框架，以改善 RIC 之间的协作。该框架将 LLM 与强化学习（RL）结合，用于高效的网络资源管理。在该框架中，LLM 支撑的 non-RT RIC 提供基于环境上下文的战略指导和高层次策略。同时，基于战略指导和局部近实时观察的 RL 支撑的 near-RT RIC 执行低延迟任务。我们评估了 LLM-hRIC 框架在一个集成接入和回传（IAB）网络设置中。仿真结果表明，提出的框架实现了更优的性能。最后，我们讨论了在将 LLM 应用于 O-RAN 中所面临的关键未来挑战。

发布时间: 4/28/2025

查看原文

探索销售人员对话代理的个性意识交互

作者: Sijia Cheng, Wen-Yu Chang, Yun-Nung Chen

arXiv:2504.18058v1 通告类型: cross 摘要：将对话代理整合到销售领域需要深入理解这些系统与具有不同人设的用户相互作用的方式。本研究探讨了使用迈尔斯-布里格斯类型指标（MBTI）定义的用户人设对销售导向对话代理的交互质量和性能的影响。通过大规模测试和分析，我们评估了预训练代理在广泛定义的MBTI用户类型范围内的有效性、适应性和个性化能力。研究发现揭示了交互动态、任务完成率和对话自然度的显著模式，强调了对话代理在未来根据不同的个性特征调整其策略的巨大潜力。这项工作不仅为在销售领域构建更具适应性和用户中心的对话系统提供了行动指南，还通过发布基于人设的用户模拟器为该领域做出了广泛贡献。这些模拟器不受领域限制，为未来的研究提供了有价值的工具，并展示了跨多种应用扩展个性化对话系统潜力的可能性。

发布时间: 4/28/2025

查看原文

基于大型视觉模型指导控制的 Opportunistic 联合计划与联合查询-服务优化

作者: Jiayi Chen, Shuai Wang, Guoliang Li, Wei Xu, Guangxu Zhu, Derrick Wing Kwan Ng, Chengzhong Xu

arXiv:2504.18057v1 交叉公告类型：cross 摘要：在开放场景中导航自主车辆是一项挑战，因为难以处理未见过的对象。现有解决方案要么依赖于难以泛化的较小模型，要么依赖于资源密集型的大模型。虽然两者的合作提供了有望的解决方案，但关键挑战在于决定何时以及如何使用大模型。为了解决这一问题，本文提出了机会性协作规划（OCP），该方法通过两项关键创新无缝整合了高效局部模型与强大云模型。首先，我们提出了云引导的视觉模型预测控制（LVM-MPC），利用云端进行LVM感知和决策。云输出作为局部MPC的全局指导，从而形成了一个闭环的感知到控制系统。其次，为了确定何时以及何时请求和提供云服务的最佳时机，我们提出了协作时间优化（CTO），包括对象检测置信度阈值（ODCT）和云前向仿真（CFS），以决定何时寻求云服务和支持何时提供云服务。 extensive 实验表明，提出的 OCP 在导航时间和成功率方面都优于现有方法。

发布时间: 4/28/2025

查看原文

基于可追踪的RFC文档解释验证网络协议解析器

作者: Mingwei Zheng, Danning Xie, Qingkai Shi, Chengpeng Wang, Xiangyu Zhang

arXiv:2504.18050v1 类别: cross 摘要：验证网络协议实现的正确性极为具有挑战性，主要原因在于 oracle 和可追溯性问题。前者决定了何时可以认为协议实现存在缺陷，尤其是在这些缺陷不会引发任何可观察症状的情况下。后者使得开发人员能够理解实施如何违反协议规范，从而便于进行缺陷修复。不同于现有工作很少同时考虑这两种问题，这项工作同时考虑了两者，并利用最新的大型语言模型（LLMs）进展提供了一个有效的解决方案。我们的关键观察是，网络协议通常伴随着结构化的规范文档，即 RFC 文档，这些文档可以系统地通过 LLMs 翻译为形式化的协议消息规范。此类规范可能因 LLM 的幻觉而含有错误，但它们被用作一种准 oracle 来验证协议解析器，而验证结果反过来逐步完善 oracle。由于 oracle 是从文档中派生出来的，因此在协议实现中发现的任何缺陷都可以追溯到文档本身，从而解决了可追溯性问题。我们使用九种网络协议及其用 C、Python 和 Go 编写的实现进行了广泛的评估。结果显示，我们的方法优于最先进的方法，共检测到了 69 个缺陷，其中有 36 个被确认。该项目还展示了基于自然语言规范完全自动化软件验证的潜力，一个以前主要依赖手动过程来理解规范文档并为测试输入生成预期输出的过程。

发布时间: 4/28/2025

查看原文

一种用于识别眼底图像中疾病的BERT风格自我监督学习CNN

作者: Xin Li, Wenhui Zhu, Peijie Qiu, Oana M. Dumitrascu, Amal Youssef, Yalin Wang

arXiv:2504.18049v1 Announce Type: cross 摘要：在医学图像领域，深度学习的兴起，尤其是卷积神经网络（CNNs）的应用，已经彻底改变了医学图像的分析和解读。然而，深度学习方法通常依赖大量的标注数据。在医学成像研究中，获取高质量的标注既昂贵又困难。视图变换器（ViT）和自我监督学习的引入提供了一种预训练策略，利用丰富的非标注数据，有效缓解了标注获取的挑战，同时也扩大了数据利用的广度。然而，ViT的高计算密度和对计算能力的大量需求，以及其在图像块上的操作缺乏定位特性，限制了其在许多应用场景中的效率和适用性。在这项研究中，我们采用轻量级CNN框架nn-MobileNet，实现了一种类似于BERT的自我监督学习方法。我们利用UK Biobank中未标注的眼底图像对网络进行预训练，以提高下游应用的性能。我们利用阿尔茨海默病（AD）、帕金森病（PD）以及多种眼底疾病识别任务验证了预训练模型的结果。结果显示，我们的方法可以显著提高下游任务的表现。总之，本研究表明，结合CNNs与高级自我监督学习的能力，在大量非标注数据的背景下处理数据的优势，展示了在标签稀缺情况下CNNs的潜力。

发布时间: 4/28/2025

查看原文

DMS-Net：双模态多尺度.siamese 网络用于双眼底图像分类

作者: Guohao Huo, Zibo Lin, Zitong Wang, Ruiting Dai, Hao Tang

arXiv:2504.18046v1 交叉公告类型：摘要：眼科疾病是全球公共卫生的一个重大挑战，然而，传统的诊断方法以及现有的单眼深度学习方法往往未能考虑到双眼病理相关性。为了解决这一问题，我们提出了DMS-Net，一种用于双眼视网膜图像分类的双模态多尺度Siamese网络。我们的框架利用共享权重的Siamese ResNet-152骨干网络从配对视网膜图像中提取深度语义特征。为了解决边界模糊不清的病变和病理性分布分散等挑战，我们引入了一个多尺度上下文感知模块（MSCAM），该模块结合了自适应池化和注意力机制进行多分辨率特征聚合。此外，我们设计了一个双模态特征融合（DMFF）模块，通过空间语义校准和双向注意力增强跨模态交互，有效结合了全局上下文和局部边缘特征。在ODIR-5K数据集上，DMS-Net实现了最先进的性能，准确率为80.5%，召回率为86.1%，科恩κ系数为83.8%，证明了其在检测对称性病理变化和推动眼疾临床决策方面具有优越的能力。

发布时间: 4/28/2025

查看原文

AI伦理与社会规范：探索ChatGPT的能力从“是什么”到“怎么做”

作者: Omid Veisi, Sasan Bahrami, Roman Englert, Claudia M\"uller

arXiv:2504.18044v1 Announce Type: 横跨多个领域摘要：在医疗卫生、计算机支持的协作工作以及社交计算中使用大型语言模型（LLMs）需要对伦理和社会规范进行检查，以确保它们在人类生活中安全地应用。我们进行了一项混合方法研究，包括一项涉及111名参与者在线调查和一项涉及38名专家的访谈研究，以调查ChatGPT作为日常生活工具中的AI伦理和社会规范。本研究旨在评估在实际应用中ChatGPT是否遵循了伦理和社会规范，这对于理解和工业及学术研究中的行动以及实现机器伦理至关重要。本研究的发现为AI伦理的六个重要方面提供了初步见解，包括偏差、可信度、安全性、毒性、社会规范和道德数据。与未监督数据收集方法相关的透明度和偏差问题被识别为ChatGPT的主要伦理关切。

发布时间: 4/28/2025

查看原文

RAG 大语言模型并不更安全：检索增强生成的安全性分析

作者: Bang An, Shiyue Zhang, Mark Dredze

arXiv:2504.18041v1 安全类型: cross 摘要：确保大型语言模型（LLMs）安全的努力包括安全微调、评估和红队测试。然而，尽管 Retrieval-Augmented Generation (RAG) 框架得到了广泛应用，人工智能安全工作主要集中在标准 LLM 上，这意味着我们对 RAG 使用场景如何改变模型的安全特性知之甚少。我们对 RAG 和非 RAG 框架进行了详细的比较分析，涉及 11 种 LLM。我们发现 RAG 可以使模型变得更不安全，并改变其安全特性。我们探讨了这种变化的原因，并发现即使是安全模型与安全文档的组合也可能导致不安全的生成。此外，我们评估了一些现有的 RAG 环境下的红队方法，并表明这些方法在 RAG 环境中比在非 RAG 环境中要少有效。我们的工作突出了对 RAG LLM 特别定制的安全研究和红队方法的需要。

发布时间: 4/28/2025

查看原文