arXiv:2502.01718v3 宣告类型: replace-cross
摘要:最近的编码器模型进展主要由监督微调(SFT)推动,而强化学习(RL)的潜力尚未充分探索,主要是因为代码领域缺乏可靠的奖励数据/模型。在本文中,我们通过利用自动化大规模测试案例合成来应对这一挑战,以增强代码模型的训练。具体来说,我们设计了一条 pipeline,从现有代码数据生成大量的(问题,测试案例)对。使用这些测试案例,我们基于采样程序的通过率构建偏好对,使用Bradley-Terry损失训练奖励模型。通过最优32次采样,Llama-3.1-8B-Ins在平均方面提高了10个点,Qwen2.5-Coder-7B-Ins提高了5个点,使得7B模型与236B DeepSeek-V2.5性能持平。此外,我们使用两种奖励模型和测试案例通过奖励进行强化学习,导致在HumanEval、MBPP、BigCodeBench和LiveCodeBench(V4)中取得一致的进步。值得注意的是,我们遵循R1训练方式,直接从Qwen2.5-Coder-base开始,展示了我们的强化学习训练可以在HumanEval-plus上提高超过25%,在MBPP-plus上提高6%,仅为80次优化步骤。我们认为,我们的结果突显了在编码器模型中强化学习的巨大潜力。
arXiv:2502.01678v2 Announce Type: replace-cross
摘要:脑电图(EEG)提供了一种无创、高度可访问且成本效益高的阿尔茨海默病(AD)检测解决方案。然而,现有的方法,无论是基于手工特征提取还是深度学习,都面临两个主要挑战:缺乏大规模数据集以实现稳健的特征学习和评估,以及由于个体间差异而导致的检测性能不佳。为了解决这些挑战,我们编制了一个包含813个受试者的EEG-AD语料库,据我们所知,它形成了迄今为止世界上最大的EEG-AD数据集。利用这个独特的数据集,我们提出了LEAD,这是首个基于EEG的AD检测的大规模基础模型。我们的方法涵盖了从数据选择和预处理到自监督对比预训练、微调以及如个体独立评估和基于多数投票的受试级别检测等关键设置的整个管道。我们在11个EEG数据集上预训练模型,并在5个AD数据集上统一微调。我们的自监督预训练设计包括样本级和个体级的对比,以提取有用的一般EEG特征。微调在5个通道对齐的数据集上进行。骨干编码器结合了时间嵌入和通道嵌入,以捕获跨时间和空间维度的特征。我们的方法在AD检测性能方面表现出色,样本级别上的F1分数提高了多达9.86%,受试者级别上的F1分数提高了多达9.31%,超过最先进的方法。我们模型的结果强烈证实了对比预训练和通道对齐的统一微调对于解决个体间差异的有效性。源代码可在https://github.com/DL4mHealth/LEAD。
arXiv:2502.01189v3 宣告类型: replace-cross
摘要:我们提出了一种基于去噪扩散模型(Denoising Diffusion Models, DDMs)的新颖生成方法,该方法能够生成高质量的图像样本及其无损压缩的位流表示。这通过在反向扩散过程中用预定义的固定独立同分布高斯向量编码本中选择的噪声样本替换标准的高斯噪声采样来实现。令人惊讶的是,我们发现我们的方法,称为去噪扩散编码本模型(Denoising Diffusion Codebook Model, DDCM),即使在极小的编码本中也能保留标准DDM的样本质量和多样性。我们利用DDCM,并从编码本中挑选出与给定图像最优匹配的噪声样本,将我们的生成模型转换为一种极其有效的有损图像编解码器,实现最先进的感知图像压缩结果。更广泛地说,通过设定其他噪声选择规则,我们将我们的压缩方法扩展到任何有条件图像生成任务(例如图像恢复),在这种任务中,生成的图像与其紧凑的位流表示同时产生。我们的工作伴随着对提出压缩条件生成方案的数学解释,建立了与所考虑任务中的基于得分的后验采样近似之间的关联。
arXiv:2502.01143v2 宣布类型: 替换-交叉
摘要:类人机器人在执行像人类一样的全身技能方面具有前所未有的灵活性潜力。然而,由于仿真与现实世界之间的动力学不匹配,实现灵活和协调的全身运动仍是一个重大挑战。现有的方法,如系统识别(SysID)和领域随机化(DR)方法,往往依赖于劳动密集型的参数调整,或者导致过于保守的策略,牺牲了灵活性。在本文中,我们提出了ASAP(使仿真与真实世界物理对齐)框架,用于解决动力学不匹配问题,并实现灵活的类人机器人全身技能。在第一阶段,我们使用重新定向的人体动作数据在仿真中预训练动作跟踪策略。在第二阶段,我们将策略部署到现实世界中,并收集现实世界的数据显示一个差值(残差)动作模型,以补偿动力学不匹配。然后,ASAP将差值动作模型集成到仿真器中,微调预训练策略,以更有效地与现实世界动力学对齐。我们通过三个转移场景评估了ASAP:IsaacGym到IsaacSim,IsaacGym到Genesis,以及IsaacGym到现实世界的Unitree G1类人机器人。我们的方法在各种动态动作中显著提高了灵活性和全身协调性,相比SysID、DR和差值动力学学习基准,降低了跟踪误差。ASAP使以前难以实现的高度灵活动作成为可能,证明了差值动作学习在弥合仿真和现实世界动力学方面的潜力。这些结果表明了从仿真到现实世界的有希望的方向,用于开发更具表现力和灵活的类人机器人。
arXiv:2502.00724v2 宣告类型: replace-cross
摘要: 贝叶斯克拉默-拉奥下界(BCRB)是信号处理中的一项重要工具,用于评估任何估计问题的基本限制,并在贝叶斯框架内进行基准测试。然而,要计算BCRB,必须完全了解先验和测量分布。在本文中,我们提出了一种完全学习的贝叶斯克拉默-拉奥下界(LBCRB),该方法学习了先验和测量分布。具体地,我们建议了两种获得LBCRB的方法:后验方法和测量-先验方法。后验方法提供了一种简单的方法来获得LBCRB,而测量-先验方法使我们能够结合领域知识以提高样本复杂性和可解释性。为了实现这一点,我们引入了一种物理编码的得分神经网络,使我们能够轻松地将这种领域知识整合到神经网络中。我们从理论上研究了两种建议方法的学习误差,并通过数值验证了它们。我们在几个信号处理示例上展示了这两种方法,包括未知混叠和高斯噪声协方差矩阵的线性测量问题,频率估计,以及量化测量。此外,我们还在真实的海洋水下环境噪声中对频率估计的非线性信号处理问题进行了测试。
arXiv:2502.00666v2 公告类型: 代换-交叉
摘要: 通过人类反馈的强化学习(RLHF)已成为大型语言模型(LLM)对齐的关键技术。本文研究了在线RLHF的设置,并关注于提高样本效率。目前所有在线RLHF中的算法,无论是进行被动探索还是主动探索,都遭受了一个随着奖励函数规模指数增长的样本复杂性限制。这一基本限制阻碍了它们在偏好严重偏斜的情景下的有效性,例如那些有唯一正确答案的问题。为了解决这一问题,我们提出了自我探索的偏好激励在线偏好优化(SE-POPO)算法,这是首次实现了样本复杂性与奖励规模成多项式关系的在线RLHF算法,解决了Xie等人(2024)提出的一个开放问题。从理论上讲,我们证明了SE-POPO的样本复杂性优于现有探索算法。从实验上讲,我们系统性的评估证实了在RLHF的两个主要应用场景以及公共基准测试中,SE-POPO比探索性和非探索性基线更高效,标志着RLHF算法设计的一个重要进展。代码已发布在 https://github.com/MYC000801/SE-POPO。
arXiv:2502.00568v2 多模态融合类型:替换-交叉
摘要:新兴的研究表明,基于人工智能的数字病理学和转录组特征的多模态融合可以提高癌症诊断(分级/亚型分类)和预后(生存风险)的预测。然而,在实际的临床环境中,这样的直接融合联合决策是不切实际的,在这种环境中,组织病理学仍然是诊断的金标准,而转录组学测试在公共卫生保健系统中很少被要求。通过我们新颖的基于扩散的跨模态生成AI模型PathoGen,我们表明,从数字组织病理学合成的基因表达可以与极高的准确性(最新性能)、确定性(通过模式覆盖保证)和解释性(通过分布注意力图)一起准确预测癌症分级和患者生存风险。PathoGen的代码可通过GitHub(https://github.com/Samiran-Dey/PathoGen)供研究社区开放使用。
arXiv:2502.00351v2 宣告类型: replace-cross
摘要:社会事件检测(SED)是一项专注于识别特定现实世界事件的任务,具有跨各种领域的广泛应用。它是许多具有社交功能的移动应用的重要组成部分,包括像Twitter、Weibo和Facebook这样的主要平台。通过使社会事件的分析成为可能,SED提供了宝贵的企业洞见,帮助理解消费者偏好,并支持公共服务在应对紧急情况和灾害管理方面的处理。由于事件检测数据具有层次结构,传统在欧几里得空间中的方法往往难以捕捉到这些关系的复杂性。虽然在欧几里得空间和双曲空间中都已有的方法显示出了有前景的结果,但它们往往忽略了事件中的多级关系。为了解决这些限制,本文引入了一种新的框架,多级双曲图卷积聚合注意力(MOHGCAA),旨在提高SED的性能。实验结果在有监督和无监督设置下均表明了显著的改进。为了进一步验证所提框架的有效性和鲁棒性,我们在多个数据集上进行了广泛评估,证实了其在应对社会事件检测常见挑战方面的优越性。
arXiv:2502.00321v2 宣告类型: 交叉替换
摘要:点击率(CTR)预测是推荐系统、在线搜索和广告平台中的一项关键任务,准确捕捉用户对内容的真实兴趣对于性能至关重要。然而,现有方法严重依赖于ID嵌入,无法反映用户对如图像和标题等内容的真实偏好。这一限制在冷启动和长尾场景中尤为明显,传统方法在这种情况下难以提供有效结果。为了应对这些挑战,我们提出了一种新的多模态内容兴趣建模范式(MIM),它包含三个关键阶段:预训练、内容-兴趣感知监督微调(C-SFT)和内容-兴趣感知UBM(CiUBM)。预训练阶段将基础模型适应特定领域的数据,从而能够提取高质量的多模态嵌入。C-SFT阶段通过利用用户行为信号来弥合内容和用户兴趣之间的语义差距,引导嵌入与用户偏好对齐。最后,CiUBM阶段将多模态嵌入和基于ID的协同过滤信号融合到一个统一框架中。在阿里巴巴淘宝网——世界上最大的电子商务平台之一——进行的全面离线实验和在线A/B测试显示了MIM方法的有效性和效率。该方法已被成功部署到线上,实现了CTR +14.14%和RPM +4.12%的显著提升,展示了其在工业应用中的适用性和对平台性能的显著影响。为促进进一步研究,我们在https://pan.quark.cn/s/8fc8ec3e74f3上公开发布了代码和数据集。
arXiv:2501.18727v2 公告类型: replace-cross
摘要:语音启用技术的迅速普及,包括虚拟助手、视频会议平台和可穿戴设备,已经引起了重大的隐私担忧,特别是从音频数据中推断敏感情感信息的问题。现有的隐私保护方法往往在便捷性和安全性之间做出妥协,从而限制了它们在实际场景中的应用。本文介绍了一种以用户为中心的新颖方法,该方法利用熟悉的音频编辑技术,特别是音高和节奏操控,以保护情感隐私而不牺牲便捷性。通过分析Android和iOS平台上的流行音频编辑应用,我们确定了这些功能既广泛可用又易于使用。我们对其进行了严格评估,考虑了来自不同来源的对抗性攻击,包括深度神经网络(DNNs)、大型语言模型(LLMs)和可逆性测试。我们在三个不同的数据集上进行的实验表明,音高和节奏操控有效地混淆了情感数据。此外,我们探讨了轻量级、设备端实现的设计原则,以确保在各种设备和平台上具有广泛的适用性。