我们提出了一种多通道到多通道目标声音提取(M2M-TSE)框架,用于从多通道声源混合中分离出多通道目标信号。目标声音提取(TSE)通过用户提供的线索隔离特定的目标信号,通常专注于使用类别标签或时间激活图进行单通道提取。然而,为了保留和利用多通道音频信号中的空间信息,提取目标声源的多通道信号至关重要。此外,提取线索还可以包括空间或时间线索,如到达方向(DoA)或声源激活的时间戳。为了应对这些挑战,我们提出了一种基于时空线索提取多通道声音信号的M2M框架。我们证明,基于Transformer的架构能够成功完成不同房间环境中从多种类别音频信号合成的多通道信号的M2M-TSE任务。此外,我们展示了多通道提取任务在深度神经网络(DNN)中引入了足够的归纳偏置,使其能够直接处理DoA线索,而无需使用手工制作的空间特征。
arXiv:2409.12924v1 公告类型: 交叉 摘要: 大型语言模型 (LLMs) 引领了人工智能的新浪潮,影响着每一个科学领域和学科。它们基于一个简单的目标进行训练:根据先前的上下文预测下一个标记。我们生活在一个数据大多具有多尺度结构的世界中,例如文本、音频和音乐。本文在预训练阶段将传统信号处理思想,即小波,融入 LLMs,以利用这种结构。在不增加任何额外参数的情况下,我们几乎以两倍的速度在文本、原始音频和符号音乐上实现了相同的预训练性能。这是通过在中间嵌入中施加结构来实现的。在相同训练步数下,我们实现了显著的性能提升,这相当于预训练一个更大的神经架构。我们的架构允许每个下一个标记预测在每个 Transformer 解码器块中访问不同时间分辨率的中间嵌入。这项工作有望为将多速率信号处理思想融入传统 LLM 预训练铺平道路。此外,我们展示了通过改进内部结构而不是仅仅追求规模来提升模型性能。
arXiv:2409.12409v1 公告类型: 交叉 摘要: 在自动驾驶中,高清晰度(HD)地图提供了不受传感器范围和遮挡限制的完整车道模型。然而,HD地图的生成和维护涉及定期的数据收集和人工标注,限制了其可扩展性。为了解决这一问题,我们研究了自动化车道模型生成以及使用稀疏的车辆观测数据替代密集传感器测量的方法。在我们的方法中,预处理步骤通过对齐和聚合观测到的车道边界生成多段线。对齐的行驶轨迹被用作预测由左右边界点定义的车道对的起点。我们提出了车道模型变换网络(LMT-Net),这是一种编码器-解码器神经网络架构,执行多段线编码并预测车道对及其连通性。通过使用预测的车道对作为节点和预测的车道连通性作为边,形成车道图。我们在一个包含多个车辆观测数据以及人工标注作为地面真值(GT)的内部数据集上评估了LMT-Net的性能。评估结果显示了有希望的结果,并展示了在高速公路和非高速公路操作设计域(ODD)上相对于实现的基线的优越性能。
arXiv:2409.12922v1 公告类型: 交叉 摘要: 人工智能正在改变我们在跨学科和实际应用中处理信息的方式。越来越多的学科正在参与研究、开发和评估人工智能在实践中的应用,但这些学科往往对人工智能的定义及其应用的理解存在冲突。需要新的跨学科方法来弥合实践中对人工智能概念的竞争性理解,并帮助塑造人工智能的未来应用。我提出了一种名为“人工智能思维”的新概念框架,该框架从跨学科的角度模拟了人工智能应用中的关键决策和考虑因素。人工智能思维模型解决了在特定情境中应用人工智能所需的五项实践能力:推动人工智能在信息过程中的应用、制定人工智能方法、评估可用的工具和技术、选择合适的数据以及将人工智能置于其使用的社会技术背景中。通过一个假设的案例研究,展示了人工智能思维在实践中的应用。本文将人工智能思维置于更广泛的人工智能跨学科讨论中,包括其与人工智能素养和人工智能驱动创新的持续讨论的联系。人工智能思维有助于弥合学术学科与多样化的人工智能应用情境之间的鸿沟,并重塑人工智能在实践中的未来。
背景:手动测试对于发现自动化测试遗漏的问题至关重要,但指定准确的验证条件具有挑战性。目的:本研究旨在探讨使用大型语言模型(LLMs)生成手动测试验证条件的方法。方法:我们进行了两项独立且互补的探索性研究。第一项研究涉及使用2个闭源和6个开源LLMs生成手动测试步骤的验证条件,并评估其与原始验证条件的相似度。第二项研究涉及招募软件测试专业人员,评估他们对生成验证条件与原始验证条件的感知和一致性。结果:开源模型Mistral-7B和Phi-3-mini-4k在生成手动测试验证条件方面表现出与闭源模型如Gemini-1.5-flash和GPT-3.5-turbo相当的效力和一致性。然而,专业测试人员之间的一致性水平略高于40%,表明既有潜力也有改进空间。尽管一些LLM生成的验证条件被认为优于原始验证条件,但也存在AI幻觉问题,即验证条件显著偏离预期。结论:我们通过使用8种不同的LLMs生成了一个包含37,040个测试验证条件的数据集。尽管这些模型显示出潜力,但相对较低的40%一致性水平突显了进一步改进的必要性。提高生成验证条件的准确性、相关性和清晰度对于确保在实际测试场景中的更大可靠性至关重要。
arXiv:2409.12903v1 公告类型: 交叉 摘要: 语言模型的预训练阶段通常从随机初始化的参数开始。随着当前模型扩展的趋势,训练大量参数可能会非常缓慢且成本高昂。相比之下,小型语言模型的训练成本较低,但它们往往无法达到大型模型的准确性。在本文中,我们探讨了一个有趣的想法,将这两种不同的模式联系起来:我们能否开发一种方法,使用较小的预训练模型来初始化大型语言模型?这种初始化是否会在训练时间和最终准确性方面带来任何好处?在本文中,我们介绍了HyperCloning,一种可以将预训练语言模型的参数扩展到更大模型并增加隐藏维度的方法。我们的方法确保较大模型保留较小模型的功能。因此,较大模型在训练开始前已经继承了较小模型的预测能力和准确性。我们证明,训练这种初始化的模型在预训练大型语言模型所需的GPU小时数方面显著节省。
arXiv:2409.12900v1 公告类型: 交叉 摘要: 监测浮游生物分布,特别是有害浮游植物,对于保护水生生态系统、调节全球气候和确保环境保护至关重要。传统的监测方法通常耗时、昂贵、易出错,且不适用于大规模应用,这凸显了对准确高效的自动化系统的迫切需求。在本研究中,我们评估了几种最先进的卷积神经网络模型,包括ResNet、ResNeXt、DenseNet和EfficientNet,使用三种迁移学习方法:线性探测、微调和组合方法,对从显微图像中分类十一种有害浮游植物属。最佳性能由使用微调方法的ResNet-50实现,准确率达到96.97%。结果还表明,模型在区分四种具有相似形态特征的有害浮游植物类型时遇到困难。
arXiv:2409.12403v1 公告类型: 交叉 摘要: 最近的文本到语音(TTS)进展表明,基于语言模型(LM)的系统在性能上与传统系统不相上下。通过偏好对齐算法进一步优化,这些算法调整LM以与奖励模型的偏好对齐,从而提高生成内容的质量。本研究对偏好对齐算法,特别是直接偏好优化(DPO),如何增强基于LM的TTS进行了全面的实证评估。我们使用一个1.15亿参数的基于LM的TTS模型,证明偏好对齐一致地提高了可理解性、说话者相似性和代理主观评估分数,后两项指标在某些评估中甚至超过了人类语音。我们还展示了偏好对齐适用于低资源场景,并能有效地推广到域外应用。
arXiv:2409.12883v1 公告类型: 交叉 摘要: 在输尿管镜检查过程中实时识别肾结石类型将是泌尿外科领域的一项重大医学进步,因为它可以缩短繁琐的肾结石提取过程的时间,同时降低感染风险。此外,这种自动化程序使得立即开具抗复发治疗成为可能。如今,只有少数经验丰富的泌尿科医生能够在内窥镜检查期间通过屏幕上的视频图像识别肾结石类型。因此,近年来提出了几种深度学习(DL)模型,用于自动识别输尿管镜图像中的肾结石类型。然而,这些DL模型本质上是黑箱,限制了它们在临床环境中的应用。本研究提出了一种基于案例推理的DL模型,该模型使用原型部分(PPs)并生成局部和全局描述符。PPs为每个类别(即肾结石类型)编码视觉特征信息(色调、饱和度、强度和纹理),类似于生物学家所使用的信息。PPs通过在模型训练期间使用的新损失函数进行最佳生成。此外,PPs的局部和全局描述符允许以生物学家和泌尿科医生可理解的方式解释决策(“什么”信息,“图像中的何处”)。所提出的DL模型已在包含六种最常见肾结石类型图像的数据库上进行了测试。总体平均分类准确率为90.37。与肾结石领域其他八种最先进的DL模型相比,可以看出,在解释性方面的显著提升并未以牺牲准确性为代价,甚至相对于文献中最佳方法(88.2)的准确性略有提高。这些有前景且可解释的结果也鼓励泌尿科医生信任基于AI的解决方案。
arXiv:2409.12396v1 公告类型: 交叉 摘要: 推荐算法在线上传播内容所引发的社会风险现已得到充分记录。新兴的监管措施旨在通过道德审计和促进算法社会影响的新研究来缓解这一风险。然而,目前迫切需要能够支持此类评估的工具和方法。本文介绍了ARTAI,这是一个评估环境,能够对推荐算法进行大规模评估,以识别在线内容分发中的有害模式,并支持实施新的监管要求,以提高推荐系统的透明度。