arXiv:2504.02492v1 映射类型: 交叉
摘要:在复杂环境中,为了使移动机器人能够安全且无障碍地避开所有障碍物,对其智能水平提出了很高的要求。鉴于障碍物的位置和几何特性等信息是随机的,机器人的控制参数,如速度和角速度,也容易出现随机偏差。为了解决这一问题,在工业互联网机器人协作系统框架下,本文提出了一种基于深度学习的移动机器人全局路径控制方案。首先建立了移动机器人的动态方程。根据移动机器人的线速度和角速度,将其运动行为分为避障行为、目标转向行为和目标接近行为。随后,使用深度学习中的神经网络方法来构建机器人的全局路径规划模型。在此基础上,利用模糊控制算法设计了一个模糊控制器,以纠正路径规划过程中出现的偏差,从而实现对机器人全局路径的优化控制。此外,考虑到边缘计算优化,所提出的模型能够在边缘设备上处理局部数据,减少机器人与中央服务器之间的通信负担,并提高路径规划的实时性能。实验结果显示,采用本文研究方法控制的移动机器人,路径角度偏差在5厘米以内,偏差收敛可在10毫秒内完成,并且规划路径更短。这表明所提出的方案能够有效提高工业互联网环境下移动机器人的全局路径规划能力,并通过边缘计算优化促进机器人的协同操作。
arXiv:2504.02480v1 类别:交叉学科
摘要:单光子LiDAR成像在三维成像中因其高分辨率和远距离能力而具有显著优势,但在每个像素有多目标的嘈杂环境中应用具有挑战性。为应对这些挑战,已提出了多种方法。统计方法在推断参数上具有可解释性,但它们往往在处理复杂场景方面能力有限。基于深度学习的方法在准确性和稳健性方面表现出色,但缺乏可解释性或最多只能处理每个像素一个峰值。在本文中,我们提出了一种针对双峰单光子LiDAR成像的深度展开算法。我们引入了多目标的分层贝叶斯模型,并提出了一种展开底层统计方法的神经网络。为了支持多个目标,我们采用了一对深度地图表示,并利用几何深度学习从点云中提取特征。所提出的方法在准确性和量化不确定性方面结合了统计方法和基于学习方法的优势。在合成数据和实际数据上的实验结果表明,与现有方法相比,其具有竞争力的表现,同时也提供了不确定性信息。
arXiv:2504.02479v1 宣告类型: cross
摘要:我们提出了一种使用策略梯度方法的去中心化强化学习解决方案,用于非凝聚力目标的多智能体放牧。我们的架构通过近端策略优化将目标选择与目标驱动整合,克服了以往深度Q网络方法中的离散动作限制,使智能体轨迹更加平滑。该无模型框架无需先验动力学知识即可有效解决放牧问题。实验表明,该方法在增加目标数量和限制感知能力的情况下仍具有有效性和可扩展性。
arXiv:2504.02464v1 Announce Type: cross
摘要:3D物体检测旨在从LiDAR点云中预测物体的中心、尺寸和旋转。尽管简单,但LiDAR只能捕捉物体的近侧,使得基于中心的检测器在点分布 vary 的跨域任务中容易出现局部化精度差的问题。同时,现有的针对单一领域评估设计的评价指标也会由于数据集特异性的尺寸变化而过度拟合。一个关键问题是:我们真的需要模型在跨域应用后在整个3D边界框上保持出色的性能吗?实际上,我们主要关注的是防止车辆与其他障碍物之间的碰撞,特别是在跨域场景中,正确预测尺寸更加困难。为了应对这些问题,我们从实用的角度重新思考了跨域3D物体检测。我们提出了两种新的度量标准,用于评估模型检测LiDAR传感器附近表面的能力。此外,我们引入了EdgeHead,这是一种引导模型更多关注可学习的附近表面的细化头部,显著改善了新度量标准和传统BEV/3D度量标准下的跨域性能。我们还提出,预测最近的角点而不是物体中心可以增强鲁棒性。我们提出了一种新颖的3D物体检测器,称为CornerPoint3D,该检测器基于CenterPoint,并使用热图来监督每个物体的最近角点的检测与学习。我们提出的这些方法在检测整个边界框的质量和接近LiDAR传感器的局部化精度之间实现了平衡,优于传统的基于中心的检测器CenterPoint,在多个跨域任务中表现更佳,并提供了一个更实际合理且健壮的跨域3D物体检测方案。
arXiv:2504.02463v1 类别: cross
摘要:本研究介绍了一种基准测试方法,旨在评估AI驱动的招聘寻源工具的表现。我们创建并利用了一个数据集,对主流的AI解决方案LinkedIn Recruiter和我们自己开发的系统Pearch.ai生成的搜索结果进行了比较分析。人类专家评估了返回候选人的相关性,并应用了Elo评分系统来定量衡量每种工具的相对性能。研究发现,AI驱动的招聘寻源工具在候选人的相关性方面始终优于LinkedIn Recruiter,其中Pearch.ai获得了最高的性能评分。此外,我们还发现基于AI的评估与人类判断之间存在很强的一致性,这突显了先进AI技术在大幅提升人才获取效性方面的潜力。完整的代码和相关数据可公开查阅,网址为https://github.com/vslaykovsky/ai-sourcing-benchmark
arXiv:2504.02461v1 宣布类型: cross
摘要:当前的公平性度量和缓解技术为从业者提供了评估自动决策系统(ADM)非歧视性的工具。但如果我作为一个面对 ADM 系统决策的个体,我想知道:我是否得到了公平对待?我们探讨了如何为用户提供一种能力,使他们能够对 ADM 提出这个问题。在本文中,我们认为不仅要将公平性视为 ADM 的一种属性,还应视为个体的一种认识权利,即获得关于影响他们的决策的信息,并利用这些信息对这些决策进行质疑,并寻求有效的救济,如果这些决策被证明具有歧视性。我们研究了现有研究中的一些关键概念,不仅在算法公平性方面,还在可解释的人工智能、问责制和可辩论性方面。整合这些领域的概念,我们提出了一种概念框架,通过结合不同的工具来确保公平性,从而赋能 ADM 系统的最终用户。我们的框架从面向从业人员的技术解决方案转向使个体能够理解、挑战和验证决策公平性的机制,同时也为组织和政策制定者提供了一个蓝图,弥合了技术需求与以用户为中心的实际问责之间的差距。
arXiv:2504.02458v1 类型: cross
摘要: 近期,由大型语言模型(LLM)赋能的推荐系统已经革新了个性化推荐框架,并吸引了广泛关注。尽管取得了显著的成功,现有的LLM赋能的RecSys已被证明对细微的扰动非常脆弱。为了减轻此类漏洞的负面影响,一种可能的解决方案是利用基于项项共现的协作信号来净化用户历史交互中插入的恶意协作知识。另一方面,由于能够扩展LLM不足的内部知识,检索增强生成(RAG)技术提供了前所未有的机会,通过引入外部协作知识来增强LLM赋能推荐系统的鲁棒性。因此,本文提出了一种新的框架(RETURN),通过检索外部协作信号以插拔式的方式净化受毒化的用户资料并增强LLM赋能的RecSys的鲁棒性。具体地,提出的检索增强扰动定位旨在通过从协作项图中检索外部知识来识别用户历史序列内的潜在扰动。之后,我们进一步检索协作知识以通过删除或替换策略来净化扰动,并引入稳健的集成推荐策略以生成最终的稳健预测。在三个真实世界的数据集上的广泛实验表明了所提出的RETURN的有效性。
arXiv:2504.02450v1 类型: 多领域交叉
摘要: 为了解决自动驾驶仿真场景中当前智能水平较低和车辆行为建模简化的挑战,本文提出了认知层次代理模型 (CHARMS),该模型可以像人类驾驶员一样推理其他车辆的行为,并以不同的决策风格做出响应,从而提高驾驶场景中周围车辆的智能水平和多样性。通过引入层级-k行为博弈论,本文构建了人类驾驶员的决策过程模型,并运用深度强化学习训练具有不同决策风格的模型,模拟了不同的推理方法和行为特征。基于泊松认知层次理论,本文还提出了一种新的驾驶场景生成方法。该方法使用泊松分布和二项分布控制场景中具有不同驾驶风格的车辆的比例,从而生成可控且多样的驾驶环境。实验结果显示,CHARMS 不仅作为ego车辆表现出优越的决策能力,还生成了更复杂和多样的驾驶场景。我们将发布CHARMS的代码,链接为:https://github.com/WUTAD-Wjy/CHARMS。
arXiv:2504.02441v1 类型:交叉
摘要:本文探讨了大语言模型 (LLMs) 中的记忆机制,强调了这些机制对于丰富语境的响应、减少幻觉以及提高效率的重要性。文章将记忆分为感官记忆、短期记忆和长期记忆三类,感官记忆对应于输入提示,短期记忆处理即时语境,而长期记忆通过外部数据库或结构实现。文本记忆部分涵盖了记忆的获取(选择和总结)、管理(更新、访问、存储和解决冲突)以及利用(全文搜索、SQL查询、语义搜索)。基于 KV 缓存的记忆部分讨论了选择方法(基于规律的总结、基于评分的方法、特殊标记嵌入)和压缩技术(低秩压缩、KV 合并、多模态压缩),以及管理策略如卸载和共享注意力机制。基于参数的记忆方法(LoRA、TTT、MoE)将记忆转换为模型参数以提高效率,而基于隐藏状态的记忆方法(块机制、递归变换器、Mamba 模型)通过结合递归神经网络隐藏状态和当前方法来改善长文本处理。总体而言,本文对 LLM 记忆机制进行了全面分析,突出了它们的重要性以及未来的研究方向。
arXiv:2504.02438v1 类别:交叉领域
摘要:长时间视频处理由于需要处理扩展的时间序列而对视觉-语言模型(VLMs)构成了根本性的挑战,这带来了高昂的计算成本。现有的令牌剪枝和特征合并方法往往牺牲了关键的时间相关性或稀释了语义信息。我们引入了差异性蒸馏,这是一种原则性的方法,能够系统地保留有关任务的信息,同时抑制冗余。在此基础上,我们开发了ViLaMP,这是一种分层的视频-语言模型,它通过两级机制以“混合精度”处理长达一小时的视频:(1) 差异性关键帧选择,该机制在最大化查询相关性的同时,在帧级别保持时间的区分性;(2) 差异性特征合并,在补丁级别保留查询显著的特征,而不是保留非关键帧的所有信息。因此,ViLaMP 在关键帧中保留了完整的信息,而在非关键帧中减少到其最显著的特征,类似于混合精度训练。广泛的实验展示了ViLaMP 在四个视频理解基准测试中表现出色,特别是在长视频内容上。值得注意的是,ViLaMP 可以在单个 NVIDIA A100 GPU 上处理超长时间的视频(长达 10K 帧),同时保持了高性能,展现了显著的计算效率。