arXiv 论文列表

TempBEV：通过结合图像和BEV空间的时间聚合提升学习型BEV编码器

arXiv:2404.11803v2 公告类型: 替换-交叉摘要: 自动驾驶需要对环境进行精确的表示。提高精度的策略之一是融合来自多个传感器的数据。学习到的鸟瞰图（BEV）编码器通过将来自各个传感器的数据映射到一个联合的潜在空间中，可以实现这一目标。对于成本高效的纯摄像头系统，这提供了一种有效机制，可以将来自多个视角不同的摄像头的数据进行融合。通过在时间上聚合传感器信息，精度可以进一步提高。这对于单目摄像头系统尤为重要，以弥补缺乏显式深度和速度测量的不足。因此，开发出的BEV编码器的有效性关键取决于用于聚合时间信息的算子和所使用的潜在表示空间。我们分析了文献中提出的BEV编码器，并比较了它们的有效性，量化了聚合算子和潜在表示的影响。尽管大多数现有方法在图像或BEV潜在空间中聚合时间信息，但我们的分析和性能比较表明，这些潜在表示具有互补的优势。因此，我们开发了一种新的时间BEV编码器，TempBEV，它整合了来自两个潜在空间的时间聚合信息。我们将随后的图像帧视为时间上的立体，并利用光流估计的方法进行时间立体编码。在NuScenes数据集上的实证评估显示，TempBEV在3D目标检测和BEV分割方面显著优于基线。消融实验揭示了图像和BEV潜在空间中联合时间聚合的强大协同效应。这些结果表明了我们方法的整体有效性，并为在图像和BEV潜在空间中聚合时间信息提供了强有力的支持。

发布时间: 9/20/2024

查看原文

通过基于提示的定位在统一框架中重新思考3D密集标注与视觉定位

三维视觉定位（3DVG）和三维密集描述（3DDC）是各种三维应用中的两项关键任务，它们在定位和视觉语言关系方面既需要共享信息，也需要互补信息。因此，现有方法采用两阶段的“检测-然后描述/区分”流程，这严重依赖于检测器的性能，导致性能不佳。受DETR启发，我们提出了一种统一框架3DGCTR，以端到端的方式联合解决这两个不同但密切相关的任务。其核心思想是重新考虑3DVG模型的基于提示的定位能力。通过这种方式，输入为精心设计的提示的3DVG模型可以通过从提示中提取定位信息来辅助3DDC任务。在实现方面，我们将一个轻量级描述头集成到现有的3DVG网络中，并使用描述文本提示作为连接，有效利用现有3DVG模型的固有定位能力，从而提升3DDC能力。这种集成促进了两个任务的同步多任务训练，相互增强其性能。广泛的实验结果证明了该方法的有效性。具体而言，在ScanRefer数据集上，3DGCTR在MLE训练中的[email protected]指标上超越了最先进的3DDC方法4.3%，并在[email protected]指标上提升了最先进的3DVG方法3.16%。代码位于https://github.com/Leon1207/3DGCTR。

发布时间: 9/20/2024

查看原文

语音匿名化对病理学的影响及其局限性

arXiv:2404.08064v3 公告类型: 替换-交叉摘要: 将语音整合到医疗保健中加剧了隐私担忧，因为语音作为包含个体生物识别信息的非侵入性生物标志物的潜力。为此，说话人匿名化旨在隐藏个人身份信息的同时保留关键的语言内容。然而，将匿名化技术应用于病理性语音，这一隐私尤为重要的关键领域，尚未得到广泛研究。本研究调查了匿名化对来自多个德国机构的2700多名病理性语音的影响，重点关注隐私、病理性效用和人口统计公平性。我们探索了基于深度学习和信号处理的匿名化方法。我们记录了显著的隐私改进——通过等错误率增加高达1933%，对整体效用的影响最小。具体病症如构音障碍、发声障碍和唇腭裂的效用变化最小，而言语障碍则显示出轻微改善。我们的研究结果强调，匿名化对不同病症的影响差异显著。这需要针对病症的特定匿名化策略，以最佳平衡隐私与诊断效用。此外，我们的公平性分析显示，大多数人口统计群体的匿名化效果一致。本研究展示了匿名化在病理性语音中的有效性，同时强调了定制化和病症特定方法的重要性，以应对反演攻击。

发布时间: 9/20/2024

查看原文

辅助人类进行复杂比较：大规模自动化信息比较

arXiv:2404.04351v2 公告类型: 替换-交叉摘要: 生成式大型语言模型能够在知识领域之间进行高效的分析，在信息比较方面与人类专家相媲美。然而，由于在大上下文中维护信息和克服模型令牌限制的困难，LLM在信息比较方面的应用面临可扩展性挑战。为了应对这些挑战，我们开发了新颖的摘要生成与标准驱动的比较端点（ASC$^2$End）系统，以实现大规模的信息比较自动化。我们的系统采用语义文本相似性比较来生成证据支持的分析。我们利用经过验证的数据处理策略，如摘要生成和检索增强生成，以克服令牌限制并在模型推理期间保留相关信息。提示设计采用了零样本策略，以更好地为模型推理提供信息上下文。我们使用ROUGE评分评估摘要生成，并通过调查反馈评估生成的比较质量。在ASC$^2$End系统上评估的模型显示出理想的结果，提供了系统预期性能的见解。ASC$^2$End是一个新颖的系统与工具，能够在知识领域之间实现准确、自动化的信息比较，克服上下文长度和检索的限制。

发布时间: 9/20/2024

查看原文

跨领域纤维簇形状分析用于语言表现认知分数预测

形状在计算机图形学中扮演着重要角色，提供了传达物体形态和功能的丰富特征。在脑成像中，形状分析有助于解读人脑的结构和功能关联。本文中，我们研究了大脑三维白质连接的形状及其与人类认知功能的潜在预测关系。我们利用扩散磁共振成像（dMRI）追踪技术，将大脑连接重建为一系列三维点。为了描述每条连接，我们提取了12种形状描述符，以及传统的dMRI连接性和组织微结构特征。我们提出了一种新颖的框架——形状融合纤维簇变换器（SFFormer），该框架利用多头交叉注意力特征融合模块，基于dMRI追踪技术预测个体语言表现。我们在包含1065名健康年轻成人的大型数据集上评估了该方法的性能。结果表明，基于变换器的SFFormer模型及其形状、微结构和连接性的内外特征融合均具有信息性，并共同提高了个体语言表现评分的预测能力。总体而言，我们的研究结果表明，大脑连接的形状对人类语言功能具有预测性。

发布时间: 9/20/2024

查看原文

探索扩散模型共享中的隐私与公平风险：一种对抗性视角

扩散模型因其卓越的生成性能，在采样质量和分布覆盖方面，最近在学术界和工业界引起了广泛关注。因此，有人提议在不同组织之间共享预训练的扩散模型，以此提高数据利用率，同时通过避免直接共享私有数据来增强隐私保护。然而，这种做法潜在的风险尚未得到全面审视。本文从对抗的角度探讨了共享扩散模型可能带来的隐私和公平风险。具体而言，我们研究了在一种情况下，一方（共享者）使用私有数据训练扩散模型，并向另一方（接收者）提供预训练模型的黑箱访问权限，用于下游任务。我们证明，共享者可以通过操纵扩散模型的训练数据分布，执行公平性中毒攻击，从而破坏接收者的下游模型。同时，接收者可以进行属性推断攻击，揭示共享者数据集中敏感特征的分布。我们在真实世界数据集上进行的实验表明，不同类型的扩散模型在攻击性能上表现出色，这突显了在相关应用中实施强有力的数据审计和隐私保护协议的至关重要性。

发布时间: 9/20/2024

查看原文

MMSR：符号回归是一项多模态信息融合任务

数学公式是人类数千年来探索自然规律智慧的结晶。用简洁的数学公式描述复杂的自然规律是科学家们不懈的追求，也是人工智能的一大挑战。这一领域被称为符号回归（SR）。符号回归最初被表述为一个组合优化问题，并使用遗传编程（GP）和强化学习算法来解决。然而，GP对超参数敏感，这两种算法效率低下。为了解决这个问题，研究人员将数据到表达式的映射视为一个翻译问题。并引入了相应的大规模预训练模型。然而，数据和表达骨架并不像两种语言那样具有非常明确的词对应关系。相反，它们更像是两种模态（例如，图像和文本）。因此，在本文中，我们提出了MMSR。将SR问题作为一个纯粹的多模态问题来解决，并在训练过程中引入对比学习进行模态对齐，以促进后续的模态特征融合。值得注意的是，为了更好地促进模态特征融合，我们采用了同时训练对比学习损失和其他损失的策略，这只需要一步训练，而不是先训练对比学习损失，然后再训练其他损失。因为我们的实验证明，一起训练可以使特征提取模块和特征融合模块更好地磨合。实验结果表明，与多个大规模预训练基线相比，MMSR在包括SRBench在内的多个主流数据集上实现了最先进的结果。我们的代码已在https://github.com/1716757342/MMSR开源。

发布时间: 9/20/2024

查看原文

视觉图像上的增量概念形成，避免灾难性遗忘

深度神经网络在机器学习中表现出色，特别是在视觉任务中，然而，它们在连续学习新任务时常常遭受灾难性遗忘。在这项工作中，我们引入了Cobweb4V，一种替代传统神经网络方法的新型视觉分类方法。Cobweb4V基于Cobweb构建，Cobweb是一种类似于人类学习系统的模型，灵感来自于人类随着时间逐步学习新概念的方式。在本研究中，我们进行了全面的评估，展示了Cobweb4V在学习视觉概念方面的熟练程度，与传统方法相比，它需要更少的数据就能实现有效的学习成果，并且在长时间内保持稳定的性能，同时实现了值得称赞的渐近行为，没有灾难性遗忘的影响。这些特性与人类认知中的学习策略相吻合，使Cobweb4V成为神经网络方法的有前途的替代方案。

发布时间: 9/20/2024

查看原文

多车道自动驾驶车辆自适应压力测试的新框架

arXiv:2402.11813v2 公告类型: 替换-交叉摘要: 压力测试是一种在极端条件下评估系统可靠性的方法，有助于揭示标准测试可能忽略的脆弱场景。在自动驾驶车辆（AV）和其他安全关键系统中，识别这些场景至关重要。由于故障事件罕见，简单的随机搜索方法需要大量的车辆运行时间来识别潜在的系统故障。自适应压力测试（AST）是一种通过使用马尔可夫决策过程有效探索AV故障轨迹的方法，并采用强化学习技术来识别高概率故障的驾驶场景。然而，现有的AST框架只能处理简单的场景，例如单车道道路上纵向移动的单辆车，这既不现实也适用性有限。本文提出了一种新的AST框架，系统地探索智能驾驶模型中可能导致安全问题的极端情况，涉及车辆的纵向和横向运动。特别地，我们为深度强化学习开发了一种新的奖励函数，以指导AST基于测试AV（即自车）与其他车辆在多车道道路上的轨迹碰撞概率估计来识别碰撞场景。为了验证我们框架的有效性，我们使用可在纵向和横向方向上控制的复杂驾驶模型车辆进行了测试。定量和定性分析的实验结果表明，我们的框架在识别复杂驾驶操作的极端情况方面优于最先进的AST方案。

发布时间: 9/20/2024

查看原文

通过观察学习：机器人操作中基于视频的学习方法综述

arXiv:2402.07127v2 公告类型: 替换-交叉摘要: 机器人操作技能的学习受到多样化、无偏数据集稀缺的阻碍。虽然精心策划的数据集可以有所帮助，但在通用性和现实世界应用方面仍存在挑战。与此同时，大规模的“自然环境”视频数据集通过自监督技术推动了计算机视觉的进步。将这一概念应用于机器人技术，最近的研究探索了通过被动观看丰富的在线视频来学习操作技能。这些基于视频的学习范式展示了有希望的结果，提供了可扩展的监督，同时减少了数据集偏差。本调查回顾了视频特征表示学习技术、物体功能理解、3D手/身体建模以及大规模机器人资源等基础知识，以及从不受控视频演示中获取机器人操作技能的新兴技术。我们讨论了仅通过观察大规模人类视频如何增强机器人操作的泛化能力和样本效率。调查总结了基于视频的学习方法，分析了它们相对于标准数据集的优势，调查了评估指标和基准，并讨论了这一新兴领域在计算机视觉、自然语言处理和机器人学习交叉点上的开放挑战和未来方向。

发布时间: 9/20/2024

查看原文