高效地确定布尔方程的可满足性——简称为 SAT 问题——在各种工业问题中至关重要。近年来,深度学习方法的出现为增强 SAT 求解带来了巨大潜力。然而,该领域发展的主要障碍是缺乏大型、现实的训练数据集。目前大多数公开数据集要么是随机生成的,要么极其有限,只包含来自无关问题族的几个示例。这些数据集不足以对深度学习方法进行有意义的训练。鉴于此,研究人员开始探索生成式技术来创建更准确地反映实际情况中遇到的 SAT 问题的训练数据。迄今为止,这些方法要么无法生成具有挑战性的 SAT 问题,要么存在时间可扩展性障碍。在本文中,我们通过识别和操作影响问题“难度”的关键因素——即核心——来解决这两个问题。虽然之前的一些工作已经解决了核心问题,但由于传统启发式核心检测技术的成本高昂,导致时间成本不可接受地高。我们引入了一种使用图神经网络的快速核心检测程序。我们的实证结果表明,我们可以有效地生成难以解决的问题,并保留原始示例问题的关键属性。我们通过实验表明,生成的合成 SAT 问题可以在数据增强设置中使用,以提供改进的求解器运行时间预测。
眼周距离和眼部及眼睑周围的特征对于疾病量化以及手术和医疗干预的监测具有重要价值。这些距离通常通过手动测量来获取,这一过程既主观又耗时。本文旨在开发三种用于分割和眼周距离预测的深度学习方法,并评估眼周距离在疾病分类中的实用性。我们的深度学习预测距离的平均绝对误差小于或非常接近训练有素的人类注释者之间的误差。我们将我们的模型与当前最先进的眼周距离预测方法进行了比较,发现我们的方法在所有数据集上除一项眼周测量外,均优于最先进的方法。我们还表明,使用在开源健康眼睛上训练的模型,可以在患病眼睛上实现稳健的分割,并且眼周距离可以作为下游分类模型中的高质量特征。利用分割网络作为分类中的中间步骤,对于通过避免传统卷积神经网络中观察到的分布外问题来提高眼科整形和颅面外科分类模型的泛化能力具有广泛的意义。
大型语言模型 (LLM) 已取代传统方法,成为众多自然语言处理任务的首选。然而,在命名实体识别 (NER) 中,现有的基于 LLM 的方法...
高精度地图为自动驾驶系统提供环境信息,是安全规划的关键。虽然现有方法使用单帧输入在在线矢量化高精度地图构建方面取得了令人印象深刻的性能,但它们在处理复杂场景和遮挡方面仍然存在困难。我们提出了 MemFusionMap,这是一种具有增强的时间推理能力的全新时间融合模型,用于在线高精度地图构建。具体来说,我们贡献了一个工作记忆融合模块,该模块提高了模型的记忆能力,使其能够跨历史帧进行推理。我们还设计了一种新颖的时间重叠热图,以明确地向模型告知鸟瞰空间中的时间重叠信息和车辆轨迹。通过整合这两种设计,MemFusionMap 在显著优于现有方法的同时,也保持了可扩展性的灵活设计。我们在开源基准上进行了广泛的评估,并证明了与最先进方法相比,mAP 最多提高了 5.4%。MemFusionMap 的代码将在本文发表后开源。
非小细胞肺癌(NSCLC)是全球癌症死亡的主要原因,对其进行早期检测和细致的亚型分类是一个至关重要且复杂的议题。本文提出了一种创新的多模态数据整合方法,将融合的医学影像(CT 和 PET 扫描)与临床健康记录和基因组数据相结合。这种独特的融合方法利用先进的机器学习模型,特别是 MedClip 和 BEiT,进行复杂的图像特征提取,为计算肿瘤学树立了新的标准。我们的研究超越了现有方法,体现在显著提高了 NSCLC 的检测和分类精度。结果表明,在准确率、精确率、召回率和 F1 分数等关键性能指标方面取得了显著改进。具体来说,我们领先的多模态分类器模型取得了令人印象深刻的 94.04% 的准确率。我们相信,我们的方法有可能改变 NSCLC 的诊断,促进早期检测和更有效的治疗计划,最终导致肺癌患者的治疗效果得到改善。
我们提出了一种新型的对抗攻击方法,该方法利用了语言模型无法解释 ASCII 艺术的缺陷。为了评估这些攻击,我们提出了 ToxASCII 基准测试,并开发了两种自定义 ASCII 艺术字体:一种利用特殊标记,另一种利用文本填充的字母形状。我们的攻击在十个模型中实现了完美的 1.0 攻击成功率,包括 OpenAI 的 o1-preview 和 LLaMA 3.1。
警告:本文包含出于研究目的而使用的有毒语言示例。
针对真无线立体声 (TWS) 耳机设备使用而设计的语音增强解决方案。该解决方案专门为在嘈杂环境中进行对话而设计,并激活了主动降噪 (ANC)。在这种情况下,语音增强模型的主要挑战源于计算复杂度限制了设备使用,以及必须小于 3 毫秒的延迟以保持实时对话。为了解决这些问题,我们评估了几个关键的设计元素,包括网络架构和领域、损失函数的设计、剪枝方法和硬件特定的优化。因此,我们证明了与基线模型相比,语音增强质量有了显着提高,同时降低了计算复杂度和算法延迟。
人类大脑表现出强大的能力,能够自发地将同一或相似视觉场景的不同视觉属性联系起来,例如将草图和涂鸦与现实世界的视觉物体联系起来,通常不需要监督信息。相比之下,在人工智能领域,可控生成方法(如 ControlNet)严重依赖于注释的训练数据集,例如深度图、语义分割图和姿态,这限制了该方法的可扩展性。受可能有助于大脑联想能力的神经机制的启发,特别是皮质模块化和海马体模式完成,我们提出了一种自监督可控生成 (SCG) 框架。首先,我们在模块化自动编码器网络中引入了一个等变约束,以促进模块间独立性和模块内相关性,从而实现功能专门化。随后,基于这些专门的模块,我们采用了一种自监督模式完成方法进行可控生成训练。实验结果表明,所提出的模块化自动编码器有效地实现了功能专门化,包括颜色、亮度和边缘检测的模块化处理,并表现出类似大脑的特征,包括方向选择性、颜色拮抗和中心-周围感受野。通过自监督训练,联想生成能力在 SCG 中自发出现,展示了对各种任务(例如绘画、草图和古代涂鸦上的联想生成)的出色泛化能力。与之前的代表性方法 ControlNet 相比,我们提出的方法不仅在更具挑战性的高噪声场景中表现出更强的鲁棒性,而且由于其自监督方式,还具有更具潜力的可扩展性。
量子近似优化算法(QAOA)及其变体在解决组合优化问题方面展现出巨大潜力。然而,其实际应用面临着一个困境:实现令人满意的性能所需的电路深度与具体问题相关,且往往超过当前量子设备的最大能力。为了解决这一困境,我们首先分析了 QAOA 的收敛行为,揭示了这一困境的根源,并阐明了所用混合哈密顿量、具体问题和允许的最大电路深度之间的复杂关系。利用这一理解,我们引入了混合器生成网络(MG-Net),这是一个统一的深度学习框架,能够动态地制定针对不同任务和电路深度的最佳混合哈密顿量。系统模拟,包括高达 64 个量子位的 Ising 模型和加权最大割实例,证实了我们的理论发现,突出了 MG-Net 在近似比和效率方面的优越性能。
近年来,各种音频大型语言模型(ALLMs)被探索用于使用单个统一模型同时处理不同的音频任务。虽然现有的 ALLMs 评估主要集中在单一音频任务上,但现实应用中通常需要同时处理多个音频流。为了弥合这一差距,我们提出了第一个多音频评估(MAE)基准,该基准包含来自 11 个多音频任务的 20 个数据集,涵盖语音和声音场景。对 MAE 的全面实验表明,现有的 ALLMs 虽然在理解单个音频输入中的主要音频元素方面很强大,但在处理多音频场景时却很吃力。为此,我们提出了一种新颖的多音频大型语言模型 (MALLM),通过在我们提出的合成数据上进行判别性学习来捕获多个相似音频之间的音频上下文。结果表明,所提出的 MALLM 优于所有基线,并使用合成数据实现了高数据效率,无需人工标注。所提出的 MALLM 为 ALLMs 打开了通往多音频处理时代的大门,让我们更接近在机器中复制人类听觉能力。