arXiv:2504.20471v1 类型: cross
摘要:因果效应估计在营销优化中得到了广泛的应用。提升模型框架结合受约束的优化算法在实践中很受欢迎。为了在在线环境中增强性能,该框架需要改进以应对时间数据集移位带来的复杂性。本文专注于捕捉随时间变化的用户行为和领域分布的数据集移位。我们提出了增量因果效应与代理知识蒸馏(ICE-PKD)框架来应对这一挑战。ICE-PKD框架包括两个组成部分:(i)一个使用反事实回归消除混杂偏差的多治疗提升网络;(ii)一个增量训练策略,该策略通过更新最新数据来适应时间数据集移位,并通过基于重放的知识蒸馏来保护泛化能力。我们还重新审视了提升模型的评价指标,并引入了一个新的指标,以便在多治疗场景中进行更精确的在线评估。在模拟数据集和在线数据集上的广泛实验表明,所提出的框架实现了更好的性能。ICE-PKD框架已在中国的网约车平台华小猪的营销系统中部署。
arXiv:2504.20452v1 类别: cross
摘要: 个性化新闻推荐系统经常难以有效捕捉用户的复杂偏好,因为它们主要依赖于浅层表示,如文章标题和摘要。为了解决这个问题,我们提出了一种名为PNR-LLM的新型方法,用于使用大型语言模型进行个性化新闻推荐。具体而言,PNR-LLM利用大型语言模型的生成能力来丰富新闻标题和摘要,从而提高推荐质量。PNR-LLM包含一个新颖的模块,即通过大型语言模型进行新闻丰富,该模块从文章中生成更深层次的语义信息和相关实体,将浅层内容转换为更丰富的表示。我们进一步提出了一种注意力机制来聚合丰富语义和实体级别数据,形成统一的用户和新闻嵌入,揭示更准确的用户-新闻匹配。在MIND数据集上的大量实验表明,PNR-LLM优于最先进的基线方法。此外,所提出的数据丰富模块具有模型的通用性,我们实验证明,将我们的模块应用于多个现有模型可以进一步提高其性能,验证了我们设计的优势。
arXiv:2504.20447v1 宣告类型: 交叉
摘要: 自动语音质量评估旨在通过计算模型定量描述人类对语音的主观感受,从而减少劳动密集型的手动评估需求。尽管基于深度学习的模型在预测平均意见得分(MOS)以评估合成语音方面取得了进展,但忽视了基本的听觉感知机制限制了与人类判断的一致性。为解决这一问题,我们提出了一种由听觉感知引导的MOS预测模型(APG-MOS),该模型将听觉建模与语义分析协同集成,以增强与人类判断的一致性。具体而言,我们首先设计了一个感知模块,基于生物学听觉机制,模拟听觉器官的功能,将声学信号编码为生物对齐的电化学表示。其次,我们提出了一种基于残差向量量化(RVQ)的语义失真建模方法,以在语义层面量化语音质量的降级。最后,我们设计了一种残差交叉注意架构,并结合分阶段学习策略,以实现电化学信号和语义表示的多模态融合。实验表明,APG-MOS在两个主要基准上表现出优越的性能。我们的代码和检查点将在发布后在公共代码库上提供。
arXiv:2504.20444v1 Announce Type: cross
摘要:我们研究了三种商用大语言模型(LLM):ChatGPT、Gemini和Claude的首因效应。我们通过重新利用Asch(1946年)使用人类受试者进行的经典实验来进行这项研究。这个实验非常简单,当给出两个描述完全相同的候选人时,如果一个描述是以积极形容词开头,随后是消极形容词,而另一个描述是以消极形容词开头,随后是积极形容词,那么哪一个更受偏好。我们在两个实验中测试了这一效应。在第一个实验中,我们将两个候选人同时放在同一个提示中提供给LLM们;在第二个实验中,我们将两个候选人分别提供给LLM们。我们用200对候选人进行了所有模型的测试。我们发现,在第一个实验中,ChatGPT更偏好以积极形容词开头的候选人,而Gemini两者偏好相当。Claude则通常不作选择。在第二个实验中,ChatGPT和Claude最有可能对两个候选人进行同等的排名。在他们没有给出同等评分的情况下,两者都更倾向于那些以消极形容词开头的候选人。而Gemini更有可能偏好以消极形容词开头的候选人。
arXiv:2504.20437v1 类型: cross
摘要: 大型语言模型(LLMs)在自然语言理解与生成方面取得了革命性进展,但在训练过程中面临显著的内存瓶颈。GaLore(梯度低秩投影)通过利用权重梯度的固有低秩结构,解决了这一问题,在不牺牲性能的情况下实现了显著的内存节省。近期的研究进一步从多个方面扩展了GaLore,包括低比特量化和高阶张量结构。然而,GaLore仍然存在一些挑战,如子空间更新所需的SVD计算开销以及与最先进的训练并行化策略(例如FSDP)的集成。在这篇文章中,我们提出了一个高效且可扩展的GaLore框架GaLore 2,该框架解决了这些挑战并整合了近期的进步。此外,我们通过使用多达5000亿个训练标记从头开始预训练Llama 7B,展示了GaLore 2的可扩展性,突显了其在实际预训练场景中的潜在影响。
arXiv:2504.20434v1 任务类型: 综合
摘要:在超级计算中,高效的代码生成对于充分利用高性能系统至关重要。我们提出了一种名为Agentic Retrieval-Augmented Code Synthesis (ARCS)的先进框架,用于准确、稳健和高效的代码生成、完成和翻译。ARCS将Retrieval-Augmented Generation (RAG)与Chain-of-Thought (CoT)推理相结合,系统地分解并迭代改进复杂的编程任务。基于代理的RAG机制检索相关代码片段,而实时执行反馈则驱动候选解决方案的合成。这一过程被形式化为状态-动作搜索树优化,平衡代码正确性和编辑效率。使用Geeks4Geeks和HumanEval基准测试评估表明,ARCS在翻译和生成质量上显著优于传统的提示方法。通过实现可扩展且精确的代码合成,ARCS为超级计算应用程序中的自动化和优化代码开发提供了变革性的潜力,从而提高计算资源的利用率。
arXiv:2504.20412v1 交叉公告类型
摘要:代码大型语言模型(LLMs)在众多软件工程任务中展示了令人印象深刻的性能。特别是在代码修复任务方面,它们展现了非凡的实用性。然而,用来评估代码LLM性能的常见基准往往局限于小规模设置。在这项工作中,我们基于kGym,该平台提供了用于系统级Linux内核漏洞的基准并提供了一个在Linux内核上运行实验的平台。
本文介绍了CrashFixer,这是第一个适用于Linux内核漏洞的基于LLM的软件修复代理。受内核开发人员典型工作流程的启发,我们确定了一位专家开发人员解决内核崩溃时所依赖的关键能力。利用这一点作为指导,我们重新审视了kGym平台,并指出了在Linux内核规模(50K文件和20M代码行数)上运行基于LLM的代理所需的关键系统改进。我们通过扩展kGym来实现这些变更,创建了一个改进的平台——称为kGymSuite,并将开源。最后,本文介绍了各种修复复杂内核漏洞策略的评估,并展示了在复杂系统如Linux内核中明确生成假设以尝试修复漏洞的价值。我们还对CrashFixer的能力进行了评估,针对仍存在的漏洞找到了至少两个被认为有可能解决报告漏洞的补丁建议。
arXiv:2504.20408v1 公告类型: 交叉
摘要:玻尔兹曼方程是流体动力学理论中的一个基础模型,它通过一个非线性的、高维的碰撞算子描述了粒子分布函数的演化过程。然而,在处理非弹性碰撞和高维速度域时,其数值解仍然具有较高的计算需求。在本文中,我们提出了一种结合傅里叶谱方法和深度学习的混合框架——Fourier神经谱网络(FourierSpecNet),以高效地近似傅里叶空间中的碰撞算子。FourierSpecNet实现了分辨率无关的学习,并支持零样本超分辨率,能够在无需重新训练的情况下,提供在未见过的分辨率下的准确预测。除了经验验证之外,我们还建立了相容性结果,表明随着离散化细化,训练后的算子趋向于谱解。我们在几个基准案例上对我们的方法进行了评估,包括麦克斯韦模型、硬球分子模型以及非弹性碰撞场景。结果表明,FourierSpecNet在计算成本显著降低的情况下,仍能提供竞争力的准确性。我们的方法提供了一种适用于玻尔兹曼方程弹性与非弹性域的稳健且可扩展的替代方案。
arXiv:2504.20405v1 交叉公告类型
摘要:虽然深度学习在肌肉骨骼成像方面表现出强大的性能,但现有工作主要集中在那些诊断不是临床挑战的病理上,从而对更难的问题关注不足,例如,在标准MRI上检测Bankart损伤(前下盂唇撕裂)。由于这些损伤的成像特征较为微妙,诊断它们通常依赖于侵入性的MRI关节造影(MRI关节造影)。本研究引入了ScopeMRI,这是首个公开可用的专家标注的数据集,用于肩部病理学,并提出了一个深度学习(DL)框架,用于在标准MRI和MRI关节造影上检测Bankart损伤。ScopeMRI 包括来自558名患者的586幅肩部MRI(335幅标准MRI,251幅MRI关节造影)。_ground truth_标签源自术中发现,这是诊断的黄金标准。分别使用卷积神经网络(CNN)和变压器训练标准MRI和MRI关节造影的独立DL模型。来自矢状面、轴面和冠状面的预测进行了融合以优化性能。模型在20%的保留测试集(117幅MRI:46幅MRI关节造影,71幅标准MRI)上进行了评估。标准MRI和MRI关节造影模型的AUC分别为0.91和0.93,敏感性分别为83%和94%,特异性分别为91%和86%。值得注意的是,非侵入性标准MRI上的模型性能与阅读MRI关节造影的放射科医生相当或超越。外部验证展示了模型在不同成像协议间的初步普适性。本研究证明,DL模型可以在标准MRI上实现放射科医生级别的诊断性能,减少对侵入性MRI关节造影的需求。通过发布ScopeMRI和用于训练和评估3D医学图像上深度学习模型的模块化代码库,我们旨在加速肌肉骨骼成像的研究,并支持新数据集的开发,解决临床挑战性的诊断任务。
arXiv:2504.20368v1 宣告类型:交叉学科
摘要:诊断推理涉及医生基于假设或已知的共享视角(全局模型)的局部(心理)模型,以通过证据解释患者观察,并应用于临床评估。但在某些(复杂)医学情况下,多个专家作为一个团队合作,通过利用不同的视角来优化健康评估和决策。这种共识驱动的推理反映了个别知识对患者更广泛视角的贡献。在这一点上,我们引入了用于多智能体系统的结构跟随框架(STRUC-MAS),该框架自动化了这些全局模型的学习,并将它们作为先验信念纳入多智能体系统(MAS)中的代理。我们通过一个具有亲社会MAS应用的急性肾损伤(AKI)预测案例演示了概念验证。在该案例中,我们发现,纳入全局结构使得多个代理在预测48小时前发生AKI方面表现更好(平均精度,AP)(结构跟随微调,SF-FT,AP=0.195;SF-FT检索增强生成,SF-FT-RAG,AP=0.194)比基线(非结构跟随微调,NSF-FT,AP=0.141;NSF-FT检索增强生成,NSF-FT-RAG,AP=0.180)在平衡的精确度加权-召回加权投票中的表现更好。值得注意的是,初始轮次对真阳性及假阴性案例报告较高召回率的SF-FT代理在初步判断的信心水平较低。但在明确互动后,它们对决定的信心增加了(表明强化信念)。相反,召回率最低的SF-FT代理对真阳性及假阴性案例的信心降低了(表明新的信念)。这种方法表明,在取得具有竞争力的分类和诊断推理性能之前,必须在MAS中学习和利用全局结构。