arXiv:2504.06884v1 交叉公告类型:跨领域
摘要:跨模态事件定位(AVEL)在多模态场景理解中扮演着关键角色。尽管现有的AVEL数据集主要包含以风景为导向的长视频,其音频背景清晰且简单,但由于智能手机的普及,短视频已成为在线视频内容的主要格式。短视频的特点是采用纵向构图和多层次的音频组合(例如,重叠声音效果、旁白和音乐),这对常规方法带来了独特的挑战。有鉴于此,我们介绍了AVE-PM,这是首次专门为纵向构图短视频设计的AVEL数据集,包含25,335个片段,覆盖86个细分类别,并有帧级注释。除了数据集的创建,我们的经验分析显示,在跨模式评估中,最先进的AVEL方法平均性能下降了18.66%。进一步的分析揭示了不同类型视频格式的两个主要挑战:1)纵向构图的空间偏见引入了不同的领域先验,2)嘈杂的音频组合损害了音频模态的可靠性。为了解决这些问题,我们研究了面向纵向构图短视频的AVEL方法的最佳预处理方案及其背景音乐的影响。实验表明,这些方法仍然可以从定制的预处理和专门模型设计中受益,从而提高性能。这项工作提供了基础基准和 actionable 洞察,有助于在以移动为中心的视频内容时代推进AVEL研究。数据集和代码将公开发布。
arXiv:2504.06881v1 宣告类型: cross
摘要:卷积神经网络已经变得越来越深和复杂,导致了更高的计算成本。虽然热带卷积神经网络(TCNNs)减少了乘法次数,但它们的性能不如标准的CNNs。为了应对这一挑战,我们提出了两种新的变体——组合TCNN(cTCNN)和并行TCNN(pTCNN),它们使用热带最小加法和最大加法核的组合来替代传统的卷积核。这减少了乘法次数,并在效率与性能之间实现了平衡。在各种数据集上的实验表明,cTCNN和pTCNN与其他CNN方法的性能相当或优于其他方法。将这些方法与标准的CNNs结合到更深层的架构中也提高了性能。我们还进一步研究了减少参数和乘法次数同时最大限度地减少准确率损失的简化TCNN架构,旨在开发高效且有效的模型。
arXiv:2504.06868v1 声称类型: 交叉
摘要:人工代理在复杂交互和决策任务中越来越居于中心地位,然而将其行为与期望的人类价值观对齐仍然是一个开放的挑战。在此项工作中,我们研究了人类样式的个性特征如何影响代理在基于文本的交互环境中行为和性能。我们引入了PANDA(个性适应神经决策代理):一种将人类个性特征投影到代理上的新方法,以引导其行为。为了在基于文本的游戏代理中注入个性特征,我们采取了以下步骤:(i) 训练一个个性分类器来识别代理行为所体现的个性类型,(ii) 将个性档案直接整合进代理的策略学习管道中。通过对25个基于文本的游戏分配16种不同个性类型,并分析其轨迹,我们展示了代理的行为决策可以被引导朝向特定的个性特征。此外,某些个性类型,如开放性水平较高的类型,表现出明显的性能优势。这些发现强调了个性适应型代理在促进更具对齐性、更有效和以人为中心的决策方面的潜力。
arXiv:2504.06866v1 Announce Type: cross
摘要:在杂乱环境中实现 robust 抓取仍然是机器人领域的开放挑战。虽然基准数据集已显著促进了深度学习方法的发展,但它们主要集中在简单场景和轻度遮挡上,并且缺乏多样性,限制了其在实际场景中的应用。我们提出了 GraspClutter6D,这是一个大规模的真实世界抓取数据集,包含以下内容:(1) 包含密集排列的 1000 个高度杂乱的场景(平均每场景 14.1 个物体,62.6% 遮挡),(2) 对 75 种环境配置(包括箱子、架子和桌子)中的 200 个物体进行全面覆盖,使用四台 RGB-D 摄像机从多个视角进行捕捉,(3) 丰富的注解包括 736,000 个 6D 物体姿态和 93 亿个可行的机器人抓取点,适用于 52,000 张 RGB-D 图像。我们在基准测试中最先进的分割、物体姿态估计和抓取检测方法,以提供杂乱环境中所面临挑战的关键见解。此外,我们验证了该数据集作为训练资源的有效性,证明了在 GraspClutter6D 上训练的抓取网络在仿真和实际实验中均显著优于在现有数据集上训练的模型。该数据集、工具包和注释工具已在我们的项目网站上公开发布:https://sites.google.com/view/graspclutter6d。
arXiv:2504.06861v1 Announce Type: cross
摘要:零样本、无需训练的基于图像的文本到视频生成是新兴领域,旨在使用现有的基于扩散的图像模型生成视频。当前该领域的方法需要对图像生成模型进行特定的架构改动,这限制了它们的适应性和可扩展性。与此类方法不同,我们提供了一种模型无关的方法。我们利用扩散轨迹的交集,仅使用潜变量来进行操作。我们仅通过轨迹的交集无法获得帧层面的局部一致性与多样性。因此,我们采用了基于网格的方法。我们使用上下文训练的语言模型生成一致的帧级提示;另一个语言模型用于识别帧之间的差异。基于这些信息,我们获得了一个基于CLIP的注意力掩码,用于控制每个网格单元切换提示的时间。较早切换会导致更高的方差,而较晚切换则会产生更多的一致性。因此,我们的方法可以在一致性和方差之间实现适当的控制。我们的方法在与其他多样化的图像生成模型合作时更加灵活,同时达到了最先进的性能。通过定量指标和用户研究的实证分析证实了我们模型在时间一致性和视觉保真度及用户满意度方面的优越性,从而提供了一种新的获得无需训练的基于图像的文本到视频生成的方法。
arXiv:2504.06843v1 交叉公告类型:跨学科
摘要:最近,认知神经科学在自然语言处理(NLP)中的整合引起了广泛关注。本文提供了对利用认知信号,特别是在语言模型(LMs)和多模态大型语言模型(MLLMs)中利用眼球追踪(ET)信号的最新进展的关键和及时回顾。通过结合以用户为中心的认知信号,这些方法解决了数据稀缺性和大规模模型训练的环境成本等关键挑战。认知信号使高效的数据增强成为可能,加速了模型的收敛,并提高了与人类的对齐。回顾强调了在视觉问答(VQA)任务中使用ET数据以及缓解MLLMs中的幻觉的潜力,并讨论了新兴的挑战和研究趋势。
arXiv:2504.06829v1 交叉公告类型
摘要:流形学习技术,如局部线性嵌入(LLE),旨在在降维过程中保留高维数据的局部邻域结构。传统的LLE使用欧几里得距离来定义邻域,这在捕捉复杂数据中的内在几何关系时可能存在困难。为了应对这一局限性,提出了自适应局部线性嵌入(ALLE)新方法,通过引入一种动态的数据驱动度量来增强拓扑保真度。该方法通过关注拓扑邻域包含而非固定距离来重新定义近邻的概念。根据数据的局部结构调整度量,它在保持邻域方面实现了更优的效果,特别是在具有复杂几何形状和高维结构的数据集上。实验结果表明,ALLE显著改善了输入空间和特征空间中邻域的对齐,从而获得更准确且拓扑忠实的嵌入。通过为底层数据定制距离度量,该方法advance了流形学习,提供了一种捕捉高维数据集中复杂关系的稳健解决方案。
arXiv:2504.06796v1 宣告类型: cross
摘要:理解生物神经网络是如何通过局部可塑性机制形成的,可以导致一种高效且自适应的信息处理系统,这有望缓解边缘计算系统中的一些当前障碍。尽管生物学利用尖峰同时利用尖峰时间与时均放电率来调节突触强度,但大多数模型仅关注其中之一。在这项工作中,我们提出了一种基于钙迹跟踪神经元活动的海 Balanced Hebbian 局部学习规则。我们展示了该规则如何重现神经科学研究中尖峰时间与时均放电率协议的结果。此外,我们使用该模型在 MNIST 数字识别任务中训练尖峰神经网络,以展示并解释所需的学习机制,以便学习真实世界的模式。我们展示了我们的模型对相关尖峰活动的敏感性,并说明了这种敏感性如何使该模型能够调节网络的学习率,而无需改变神经元的时均放电率或学习规则的超参数。据我们所知,这是首次展示尖峰时间与时均放电率在塑造尖峰神经网络连接性方面可以互补作用的工作。
arXiv:2504.06785v1 宣布类型: cross
摘要:有效且快速地评估路面状况对于优先进行维护、确保交通运输安全以及减小车辆磨损至关重要。传统的人工检查存在主观性问题,而现有的基于机器学习的方法则受到对大规模和高质量标注数据集的依赖限制,这需要大量的资源并限制了在变化多样的道路条件下应用的灵活性。大规模语言模型(LLMs)的革命性进展为克服这些挑战提供了巨大潜力。在本研究中,我们提出了一种创新的自动化零样本学习方法,该方法利用LLMs的图像识别和自然语言理解能力,以有效评估道路状况。开发了多种基于LLM的评估模型,采用了与公路表面状况指数(PSCI)标准相契合的提示工程策略。这些模型的准确性和可靠性与官方PSCI结果进行了评估,并最终选择了优化模型。广泛测试对标记专家使用Google街景图像评估的优化模型进行了基准测试。结果表明,基于LLM的方法能够有效评估道路状况,经过全面结构化的提示工程优化模型在准确性和一致性方面优于简单配置模型,甚至超越了专家评估。此外,成功将优化模型应用于Google街景图像证明了其在未来城市规模部署中的潜力。这些发现突显了LLMs在自动化道路损坏评估方面的变革潜力,并强调了详细提示工程在实现可靠评估中的关键作用。
arXiv:2504.06771v1 交叉类型公告
摘要:我们如何设计AI工具,以便通过补充和增强用户的推理过程来有效地支持人类决策?常见的基于推荐的方法面临着与用户决策过程不适当依赖或缺乏整合相关的挑战。在这里,我们探讨了一种替代的交互模型,在该模型中,AI的输出建立在用户的自有决策推理之上。我们将这种方法称为ExtendAI,并将其与基于推荐的AI进行了比较。在我们的混合方法用户研究中,参与者在一项投资决策任务中与两种AI进行了互动。我们发现,这两种AI对决策过程的影响不同,ExtendAI更好地融入了决策过程和人们的自有思考,导致了稍微更好的结果。RecommendAI能够提供更多的新颖见解,同时需要较少的认知努力。我们讨论了这些以及其他发现的意义,以及我们研究中揭示的AI辅助决策中的三个紧张关系。