arXiv:2503.05805v2 宣告类型: replace-cross
摘要:本文提出了一种基于扩散的自动竞价框架,该框架利用图表示来模拟大规模拍卖环境。在这种环境下,代理必须在由关键绩效指标(KPI)定义的约束条件下,动态优化竞价策略,同时在充满不确定、稀疏和随机变量的竞争环境中操作。为了应对这些挑战,我们提出了一种结合可学习的图基嵌入和基于规划的潜在扩散模型(LDM)的新方法。通过捕捉竞价机会之间及其与拍卖环境中多代理动态之间的相互依赖模式和细微之处,图表示能够进行具有表现力的自动竞价结果计算。通过奖励对齐技术,LDM 的后验概率被微调以生成能最大限度地满足约束阈值并最大化KPI指标的自动竞价轨迹。在真实世界和合成拍卖环境上的实证评估表明,该框架在多个常见KPI指标上显著提高了自动竞价性能,并且在预测拍卖结果方面具有更高的准确性。
arXiv:2503.05794v3 通知类型: 替换-跨
摘要:随着深度学习在说话人验证中的广泛应用,大规模语音数据集已成为宝贵的知识产权。为了审计并防止这些有价值的已发布数据集在商业或开源场景中的未经授权使用,我们提出了一种新型的数据集归属验证方法。该方法通过引入基于聚类的后门水印 (CBW),使数据集所有者能够在黑盒环境中确定可疑第三方模型是否在受保护的数据集上进行了训练。CBW 方法包括两个关键阶段:数据集水印和归属验证。在嵌入水印过程中,我们将在数据集中植入多个触发模式,使得具有相似特征相似性的样本接近相同的触发,而相似度不同的样本则靠近不同的触发。这确保了任何在水印数据集上训练的模型,在暴露于嵌入触发的输入时,会表现出特定的错误分类行为。为了验证数据集归属,我们设计了一种基于假设检验的框架,通过统计评估可疑模型是否表现出预期的后门行为。我们对基准数据集进行了广泛的实验,验证了我们的方法在潜在适应性攻击下的有效性和稳健性。主要实验的代码可在 https://github.com/Radiant0726/CBW 查看。
arXiv:2503.04839v2 交叉替换通知类型:
摘要:跨模态上下文学习(ICL)已成为大型视觉语言模型(LVLMs)的关键能力,这得益于其不断增加的规模和适用性。尽管具有很大的潜力,但多模态环境中的有效ICL仍然具有挑战性,原因在于图像-文本输入的固有复杂性和ICL性能对输入配置的高敏感性。在这项工作中,我们揭示了多模态ICL背后的核心机制,确定了任务映射是配置稳健的上下文学习演示(ICD)序列的关键因素。基于这些见解,我们提出了一个轻量级但功能强大的仅解码器变压器SabER,该变压器配备了任务感知注意机制,可以智能地选择和排列示例库中的ICD,在自回归方式下进行安排。这种设计使细粒度特征提取和跨模态推理成为可能,并逐步精化任务映射以生成高质量的ICD序列。通过涵盖五个大型视觉语言模型和九个基准数据集的广泛实验,SabER不仅展示了强大的实证性能,还进一步揭示了任务语义如何与多模态ICD相互作用。我们的发现突显了概念上恰当的ICD序列配置的重要性,并为在各种实际场景中增强多模态ICL提供了新的途径。
arXiv:2503.01669v2 宣告类型: replace-cross
摘要:在使用神经网络进行连续时间序列分析时,当在新的数据域进行训练时,先前学习模型的灾难性遗忘(CF)一直是重大挑战。这个问题在车辆估计和控制中尤为突出,因为新的信息会连续引入模型中。不幸的是,现有的连续学习工作并未充分解决时间序列分析中的灾难性遗忘的不良影响,尤其是在多输出环境中。在本文中,我们提出了EM-ReSeleCT(高效多变量代表性选择连续学习时间序列任务方法),这是一种旨在处理多变量环境中连续学习的方法。我们的方法战略性地从旧和历史数据中选择代表性子集,并结合基于记忆的连续学习技术改进的优化算法,以适应新的信息,同时保留先前获得的信息。此外,我们还开发了一个针对车辆状态估计序列到序列的变换模型(自回归模型)。此外,我们提出了一种不确定性量化框架,使用一致性预测来评估记忆大小的敏感性,并展示所提出方法的稳健性。实验结果表明,EM-ReSeleCT在持续学习新信息的同时保留先前知识方面优于最先进的连续学习方法,并且还显著缩短了训练时间,这是连续学习应用中的一个重要优势。
arXiv:2502.20934v2 宣告类型: replace-cross
摘要:实时视频分割是AI辅助手术的一项有前景的功能,通过识别手术工具和解剖结构为术中提供指导。然而,在实际应用中部署最先进的分割模型(如SAM2)是个计算密集型任务,这使得平衡帧率和分割性能变得至关重要。在这项研究中,我们探讨了帧率对零样本手术视频分割的影响,评估了SAM2在胆囊切除手术程序中的有效性,涉及多种帧采样率。令人惊讶的是,我们的研究结果表明,在传统的评估设置中,每秒一帧的帧率甚至可以优于25 FPS,因为较低的帧率可以平滑分割不一致之处。然而,在实时流媒体场景中评估时,较高的帧率提供了更优秀的时域连续性和稳定性,尤其是在手术钳等动态物体方面。最后,我们在与此类数据紧密合作的专业人士中调查了实时手术视频分割的人类感知,发现受访者一致偏好高FPS分割掩码叠加,进一步强调了AI辅助手术中实时评估的重要性。
arXiv:2502.19255v2 通告类型: replace-cross
摘要:样本效率对于从人类反馈强化学习(RLHF)进行在线强化学习至关重要。虽然现有工作研究了样本高效的在线探索策略,但利用那些不完美但相关的回报模型来加速学习的潜力尚未得到充分探索。本文研究了如何在在线RLHF中转移这些不完美的回报模型的知识。我们首先识别出KL正则化RLHF目标的一个新颖性质:**一个策略对其最优策略的可覆盖性由其非最优性来表征**。基于这一洞见,我们提出了新的转移学习原则以及一个具有可证明优势的标准在线学习算法。我们的方法在早期阶段通过快速适应现有的最佳来源回报模型而实现低遗憾,而随着时间的推移,它能够获得一个与结构复杂度度量无关的\(\tilde{O}(\sqrt{T})\)遗憾上界。实验上,受理论发现的启发,我们开发了一种基于胜率的转移策略选择方法,提高了计算效率。此外,我们的经验中的转移学习技术是模块化的,并可以与各种策略优化方法(如DPO、IPO和XPO)相结合,进一步增强其性能。我们通过在总结任务中的实验验证了我们方法的有效性。
arXiv:2502.19115v2 宣告类型: 替换-交叉
摘要:本研究介绍了一种新型自然语言处理流水线,通过自动检测和分类电子邮件主题,提高塞尔维亚领先的电信公司Telekom Srbija的客户服务效率。该流水线的核心是BERTopic,这是一个模块化的框架,允许无监督主题建模。经过一系列预处理和后处理步骤后,我们为每封进来的电子邮件分配一个主题(共12个主题)和多个额外标签,使得客户服务可以通过自定义的应用程序筛选和访问这些邮件。通过评估自动分配的主题的速度和准确性,模型的性能得到了评估,加权平均处理时间为每封电子邮件0.041秒,加权平均F1分为0.96。该流水线在多种语言中显示出广泛的适用性,特别适用于低资源语言和形态丰富的语言。该系统现在已在公司的生产环境中运行,通过自动电子邮件分类来简化客户服务操作。
arXiv:2502.18778v3 公告类型: replace-cross
摘要: 我们介绍了 M2-omni,这是一个先进的开源全模态大语言模型(omni-MLLM),在性能上与 GPT-4o 相当。M2-omni 采用了统一的多模态序列建模框架,使大型语言模型(LLMs)能够获得全面的跨模态理解和生成能力。具体来说,M2-omni 可以处理任意组合的音频、视频、图像和文本模态作为输入,并生成包含音频、图像或文本输出的多模态序列,从而实现高级且互动的实时体验。在这种全模态大语言模型的训练中,由于模态间数据量和收敛率的巨大差异,面临着诸多挑战。为了应对这些挑战,我们在预训练阶段提出了一种步骤平衡策略,以处理模态特定数据的数量差异。此外,在指令调优阶段引入了一种动态适应性平衡策略,以同步模态间的训练进度,确保最佳收敛。值得注意的是,我们优先保持在纯文本任务上的强大性能,以保持 M2-omni 语言理解能力的稳健性,贯穿整个训练过程。据我们所知,目前 M2-omni 是 GPT-4o 的一个非常竞争力的开源模型,它以全面的模态和支持、卓越的性能为其特征。我们期待 M2-omni 将促进全模态大语言模型(omni-MLLMs)的发展,从而推动该领域的未来研究。
arXiv:2502.17475v3 宣告类型: replace-cross
摘要:我们介绍了ECG-Expert-QA,这是一个全面的多模态数据集,用于评估心电图(ECG)解释中的诊断能力。该数据集结合了真实的临床上ECG数据和系统生成的合成病例,涵盖了12项基本诊断任务,共计47,211对专家验证的问答对。这些问答对涵盖了从基本节律识别到涉及罕见病症和时间变化的复杂诊断等各种临床场景。一个关键的创新是支持多回合对话,这使得可以开发出模拟临床医生-患者或跨专业互动的对话式医疗AI系统。这使得AI模型的临床推理、诊断准确性和知识整合的评估更加现实。通过一个知识引导的框架并严格执行质量控制,ECG-Expert-QA 确保了语言和临床一致性,使其成为促进辅助心电图解释的优质资源。该数据集挑战模型识别细微的心肌缺血变化并在富有情境的场景中解释复杂的心律失常。为促进研究透明度和合作,该数据集、配套代码和提示已公开发布在 https://github.com/Zaozzz/ECG-Expert-QA
arXiv:2502.15969v3 Announce Type: replace-cross
摘要:尽管在视觉语言任务上表现出色,但多模态大型语言模型(MLLMs)在数学问题解决方面遇到困难,无论是开源模型还是最先进的模型,在视觉数学基准测试上的表现都低于人类性能。为了系统地研究MLLMs的视觉数学推理能力,我们进行了以下工作:(1)评估它们对几何原素的理解,(2)测试多步骤推理,以及(3)探索可能改进视觉推理能力的解决方案。我们的研究发现,形状识别的基本缺陷,顶级模型在识别正多边形时的准确率低于50%。通过二过程理论视角分析这些失败,表明MLLMs依赖于系统1(直觉的、记忆化的关联)而非系统2(有意识的推理)。因此,MLLMs无法数出熟悉和新颖形状的边数,这表明它们既没有学习边的概念,也没有有效地处理视觉输入。最后,我们提出了视觉提示链式思考(VC-CoT)提示方法,该方法通过在图中明确参考视觉注释来增强多步骤数学推理,从而将GPT-4o在不规则多边形边数计数任务上的准确性从7%提升到93%。我们的发现表明,MLLMs中的系统2推理仍然是一个开放问题,而视觉引导的提示对于成功进行视觉推理是必不可少的。可在以下链接获取代码:https://github.com/rsinghlab/Shape-Blind。