arXiv:2505.00887v2 通告类型: replace-cross
摘要:有效地建模时间信息并将其纳入涉及时间顺序事件的应用或模型中至关重要。现实世界的情景通常涉及多样且复杂的时序模式,这对时间编码方法提出了重大挑战。虽然之前的方法专注于捕捉时序模式,但许多方法依赖于特定的归纳偏置,如使用三角函数来建模周期性。这种专注于单一模式建模的做法使它们在处理现实世界时间模式的多样性和复杂性方面不够有效。在本文中,我们研究了如何改进现有的常用时间编码方法,并引入了可学习转换基通用时间编码(LeTE)。我们提出了使用深度函数学习技术参数化时间编码中的非线性变换,使其成为可学习的,并能够建模通用时序模式,包括多样化和复杂的时序动态。通过启用可学习的变换,LeTE将之前的方法作为特定情况包含在内,并能够无缝集成到广泛的任务中。通过跨不同领域的广泛实验,我们展示了LeTE的多样性和有效性。
arXiv:2504.20412v2 类型:替换交叉
摘要:代码大型语言模型(LLMs)在多种软件工程任务中展现出了令人印象深刻的性能。特别是,在代码修复任务中,它们表现出色。然而,用于评估代码LLMs性能的常用基准通常仅限于小规模设置。在本文中,我们基于kGym,它提供了一个系统级别Linux内核错误的基准,并提供了一个在Linux内核上运行实验的平台。本文引入了CrashFixer,这是第一个适用于Linux内核错误的基于LLM的软件修复代理。受到内核开发人员典型工作流程的启发,我们识别了专家开发人员在解决内核崩溃时利用的关键能力。以此为引导,我们重新审视了kGym平台,并确定了在Linux内核(50K文件和20M代码行)规模下实际运行基于LLM的代理所需的关键系统改进。我们通过扩展kGym来实现这些更改,创建了一个改进的平台,称为kGymSuite,并将其开源。最后,本文评估了针对此类复杂内核错误的各种修复策略,并展示了在复杂系统如Linux内核中,在尝试修复错误之前显式生成假设的价值。我们还评估了CrashFixer在仍待解决的错误上的能力,并发现至少有两份被认为有可能解决报告错误的修复建议。
arXiv:2504.16472v2 公告类型: replace-cross
摘要: 尽管在自动软件测试方面进行了数十年的研究和实践,但仍有一些基本概念定义不明确且探索不足,但却具有巨大的实际影响潜力。我们展示了这些概念在软件测试生成的背景下为大语言模型带来了新的挑战。具体而言,我们正式定义并研究了强化测试和捕获测试的性质。强化测试是指旨在防止将来回归的测试,而捕获测试是指捕获这种回归或由代码更改引入的新功能中的故障。强化测试可以在任何时候生成,并且当将来的回归被捕获时,可能会变成捕获测试。我们还定义并阐明了捕获“及时”(Just-in-Time, JiT)挑战,其中包括在新故障进入生产之前生成测试。我们证明,任何解决捕获JiT测试生成问题的方案也可以重新用于捕获遗留代码中的潜在故障。我们列出了强化测试、捕获测试和JiT测试的各种可能结果,并讨论了开放的研究问题、部署选项以及我们在Meta基于自动大语言模型的强化方面的初始结果。这篇文章是为了配合作者在2025年ACM国际软件工程基础会议(FSE)上的主旨演讲而撰写的。作者按字母顺序排列,对应的作者是Mark Harman。
arXiv:2504.12777v2 宣布类型: replace-cross
摘要:气候政策制定面临着深邃的不确定性、复杂的系统动力学以及多方利益冲突等重大挑战。气候模拟方法,如地球系统模型,已成为政策探索的重要工具。然而,它们通常用于评估潜在的政策,而不是直接合成这些政策。这个问题可以被倒过来优化政策路径,但传统的优化方法往往难以应对非线性动力学、不同类型的代理以及全面的不确定性量化。我们提出了一种框架,通过多智能体强化学习(MARL)增强气候模拟,以解决这些局限性。我们确定了气候模拟与政策合成中应用MARL接口的关键挑战,包括奖励定义、随着代理和状态空间增加的可扩展性、关联系统中的不确定性传播以及解决方案验证。此外,我们讨论了从MARL中获得的解决方案在政策制定者中的解释性和实用性挑战。我们的框架为更复杂的气候政策探索提供了基础,同时承认了重要的局限性和未来研究领域的重要方向。
arXiv:2504.10612v2 宣告类型: replace-cross
摘要: 最常用的生成模型通过匹配流或分数将噪声和数据分布映射在一起。然而,它们在处理部分观测和额外先验信息方面存在困难,而能量基于模型(EBMs)通过简单地添加相应的标量能量项就能优雅地处理这些问题。我们通过提出能量匹配框架来解决这一问题,该框架为基于流动的方法赋予了EBMs的灵活性。远离数据流形时,样本沿着无旋、最优输运路径从噪声转移到数据。当它们接近数据流形时,一个熵能量项引导系统进入玻尔兹曼平衡分布,明确地捕捉到了数据的潜在似然结构。我们用一个单一的时间独立标量场参数化这种动态,该场兼具强大的生成器和灵活的先验作用,用于有效的逆问题正则化。我们的方法在CIFAR-10和ImageNet生成方面在保真度上显著优于现有的EBMs,同时保留了基于流动的方法在远离数据流形处无模拟的训练。此外,我们利用方法的灵活性引入了一种相互作用能量,以支持多样模式的探索,这在受控蛋白质生成设定中得到了验证。我们的方法专注于学习一个标量势能——无需时间条件、辅助生成器或额外网络——这标志着与最近的EBM方法的重大 departure。我们认为,这种简化框架显著增强了EBMs的能力,并为它们在生成建模领域中的广泛应用铺平了道路。
arXiv:2504.04717v4 宣告类型:替换交叉
摘要:大型语言模型(LLMs)最近的进步已经彻底改变了它们处理单轮任务的能力,但在现实世界的应用中,需要复杂的多轮交互。本文综述了近期在评估和增强LLMs中多轮交互方面的进展。我们集中在特定任务场景上,从数学和编程等各个领域的指令遵循到角色扮演、医疗保健、教育,甚至是敌对的监狱逃脱设置中的复杂对话互动。系统地探讨了在长时间对话中保持上下文一致性、连贯性、公正性和响应性等方面的挑战。本文将当前的基准和数据集整理成反映多轮对话评估不断发展景观的综合性类别。此外,我们回顾了在多轮设置下的一系列改进方法,包括模型为中心的策略(上下文学习、监督微调、强化学习和新型架构),外部集成方法(增强记忆、检索方法和知识图谱),以及基于代理的协作交互技术。最后,我们讨论了开放性挑战,并提出了未来研究方向,以进一步提高LLMs中多轮交互的稳定性和有效性。相关资源和论文可在 https://github.com/yubol-cmu/Awesome-Multi-Turn-LLMs 获取。
arXiv:2503.17599v2 公告类型: replace-cross
摘要:大型语言模型(LLMs)在通用实践中展示了相当大的潜力。然而,现有的基准和评估框架主要依赖于考试式或简化的问答格式,缺乏与全科医生在实际临床工作中遇到的责任相一致的基于能力的结构。因此,LLMs在多大程度上能够可靠地履行全科医生(GPs)的职责仍然不确定。在本文中,我们提出了一种新的评估框架,以评估LLMs作为GPs的能力。基于此框架,我们引入了全科实践基准(GPBench),其数据由领域专家严格按照常规临床实践标准进行了细致注释。我们评估了十种最先进的LLM,并分析了它们的能力。我们的研究结果表明,当前的LLMs在没有人类监督的情况下部署在这些环境中还不具备条件,针对全科医生日常职责的具体优化是必不可少的。
arXiv:2503.11197v4 通知类型: 替换-交叉
摘要: 最近,强化学习(RL)已被证明极大地增强了大型语言模型(LLMs)的推理能力,并且基于RL的方法已被逐步应用到视觉多模态任务中。然而,在这些进展中,音频模态很大程度上被忽视了。因此,我们进行了一系列在音频理解与推理方面的RL探索,特别聚焦于音频问答(AQA)任务。我们利用群组相对策略优化(GRPO)算法对Qwen2-Audio-7B-Instruct进行了训练,并且我们的实验展示了在MMAU Test-mini基准上的卓越性能,准确率为64.5%。本技术报告的主要发现如下:1)GRPO算法可以有效地应用于大型音频语言模型(LALMs),即使模型只有8.2B参数;2)在仅使用38k后训练样本的情况下,RL显著优于监督微调(SFT),表明基于RL的方法可以在不依赖大数据集的情况下发挥作用;3)明确的推理过程对AQA任务尚未显示出显著的好处,如何高效利用深度思考仍然是进一步研究中的一个开放问题;4)LALMs在听觉语言推理方面仍然远远落后于人类,这表明基于RL的方法值得进一步探索。我们的项目可以在https://github.com/xiaomi-research/r1-aqa 和https://huggingface.co/mispeech/r1-aqa 找到。
arXiv:2503.10984v2 公告类型: replace-cross
摘要:先验的问题是众所周知的:它涉及识别规范以管理其先验信念的问题。我认为解决这个问题的关键在于考虑所谓的后验问题——识别直接管理其后验信念的规范的挑战,这些规范通过直时性要求的归一化间接影响先验规范。这种前瞻性的方法可以总结为:展望未来,回溯过去。尽管这个思想可以追溯到弗里德曼(1963年)、卡尔潘(1963年)和西蒙尼(1970年),但我认为它还没有得到足够的关注。在这篇文章中,我提出了对前瞻型贝叶斯主义的系统性辩护,回应了更多传统观点(无论是主观主义还是客观主义)提出的潜在反对意见。我还开发了一种特定的前瞻型贝叶斯主义方法——重视后验信念向真实值的收敛,并将其视为基本规范而非衍生规范。这种方法被称为收敛主义贝叶斯主义,被论证为统计学和机器学习中贝叶斯奥卡姆剃刀基础的关键。
arXiv:2503.10652v2 宣告类型: 交叉替换
摘要:消费者偏好调查研究在研究中发挥着关键作用,通过捕捉消费者偏好并指导政策决策。声明偏好(SP)调查帮助研究人员理解个体在假设的、可能的未来场景中的权衡行为。然而,传统方法成本高、耗时,并受到受访者疲劳和伦理限制的影响。大型语言模型(LLMs)展示了生成人类答复的显著能力,引发了它们在调查研究中的应用兴趣。本研究探讨了LLMs在能源相关SP调查中模拟消费者选择的应用,并探索了其与数据收集和分析流程的集成。设计了测试场景来评估几种LLMs(LLaMA 3.1、Mistral、GPT-3.5、DeepSeek-R1)在个体和聚合层次上的模拟性能,考虑了提示设计、上下文学习(ICL)、链式思考(CoT)推理、模型类型、与传统选择模型的集成以及潜在偏差。虽然LLMs在准确性上超过随机猜测,但其性能仍不足以用于实际的模拟用途。基于云的LLMs并不始终优于较小的本地模型。DeepSeek-R1获得最高的平均准确性(77%),在准确性、因素识别和选择分布对齐方面优于非推理LLMs。先前的SP选择是最有效的输入;更长的提示包含更多因素会降低准确性。混合逻辑模型可以支持LLM提示的进一步细化。具有推理能力的LLMs在数据分析方面具有潜力,可以通过指示因素的重要性,为统计模型提供定性补充。尽管存在局限性,预训练的LLMs提供了可扩展性,并且需要较少的历史数据。未来的工作应进一步优化提示,探索更深入的CoT推理,并研究微调技术。