arXiv:2502.06808v1 宣告类型: cross
摘要: 图域适应(GDA)解决了跨网络学习中的一个紧迫挑战,尤其是在现实世界图数据集中缺乏标记数据的情况下。最近的研究试图通过消除图之间的结构变化来学习域不变表示。在本文中,我们指出现有的方法忽略了对图节点属性的重要性,这是图域对齐的关键因素。具体来说,我们首先通过理论证明,除了两个域之间的图结构差异外,节点属性的差异也在GDA中发挥着至关重要的作用。此外,我们还实验证明了属性变化比拓扑变化更为显著,这进一步强调了节点属性对齐在GDA中的重要性。受这一发现的启发,我们开发了一种新颖的跨通道模块,用于在源图和目标图之间融合和对齐两种视图进行GDA。在多种基准上的实验结果验证了我们方法的有效性。
arXiv:2502.06807v1 类别: cross
摘要: 我们展示了将强化学习应用于大型语言模型 (LLMs) 显著提升了复杂编程和推理任务的表现。此外,我们将两款通用推理模型 - OpenAI o1 和较早版本的 o3 - 与一个特定领域的系统 o1-ioi 进行了对比,o1-ioi 使用了专门为参加 2024 年国际信息学奥林匹克 (IOI) 设计的手工设计的推理策略。我们在 2024 年 IOI 上现场与 o1-ioi 竞赛,并通过手工编写的测试时间策略,在第 49 个百分位取得了好成绩。在较为宽松的比赛限制下,o1-ioi 获得了金牌。然而,在评估后来的模型 o3 时,我们发现 o3 在没有手工设计的特定领域策略或宽松限制的情况下就能获得金牌。我们的研究发现,尽管专门的流水线如 o1-ioi 提供了稳健的改进,但扩展后的通用型 o3 模型在推理领域(如编程竞赛)中超过了这些结果,而无需依赖手工设计的推理启发式方法。值得注意的是,o3 在 2024 年 IOI 中获得了金牌,并且在 Codeforces 上达到了与顶尖人类选手相当的评级。总体而言,这些结果表明,与依赖于特定领域的技术相比,扩展通用型强化学习为推理领域的先进 AI 提供了一条稳健的道路。
arXiv:2502.06806v1 公告类型:交叉
摘要:许多商用大型语言模型(LLMs)往往是封闭源代码的,这限制了开发者仅能通过提示调整来使内容生成与特定应用对齐。尽管这些模型目前无法访问标记对数(token logits),但我们认为如果能够访问这些对数,将能够启用超出提示工程的更强大的适应技术。在本文中,我们提出了一种标记级别概率重塑框架,该框架在获得对数和少量任务特定数据的情况下,可以有效地引导黑盒LLM朝向特定应用的内容生成。我们的方法将下一标记预测视为监督分类问题。我们证明,将黑盒LLM与任务特定数据对齐可以表述为标签噪声修正问题,从而产生了“插件”模型——一种仅基于对数的概率重塑模型。我们提供了重新加权对数足以实现任务适应的理论依据。多个数据集、LLM和重新加权模型的广泛实验表明了我们方法的有效性,促进了在封闭源代码模型中更广泛的对数访问。
arXiv:2502.06803v1 交叉公告类型
摘要:情绪识别与生成已成为人工智能研究中的关键议题,在医疗保健、客户服务等领域增强人机交互方面发挥着重要作用。尽管已经对情绪识别和生成分别进行了多项综述,但其中许多工作要么碎片化,要么局限于特定的方法论,缺乏对不同模态近期发展和趋势的全面概述。在这篇综述中,我们提供了一个全面的回顾,旨在帮助刚开始探索情绪识别与生成的研究人员。我们介绍了面部、语音和文本等不同模态下情绪识别与生成的基本原理。本作品将近期的先进研究按不同的技术方法进行了分类,并解释了这些方法的理论基础和动机,为它们的应用提供更清晰的理解。此外,我们讨论了评估指标、比较分析以及当前的局限性,并阐明了领域内研究人员面临的挑战。最后,我们提出未来的研究方向以应对这些挑战,并鼓励进一步探索开发出稳健、有效且负责任的情绪识别与生成系统。
arXiv:2502.06802v1 交叉领域类型:
摘要:在 Roblox 平台上,由于用户生成的内容丰富且动态,因此创建有效的游戏推荐需要深入了解游戏内容。传统的推荐模型难以处理诸如游戏标题和描述等游戏文本特征的不一致和稀疏性。最近在大型语言模型(LLMs)方面的进展提供了增强推荐系统的可能性,通过分析游戏内的文本数据。本文解决两个挑战:生成高质量的结构化文本特征,无需大量的人工标注,并验证这些特征以确保它们能够提高推荐的相关性。我们提出了一个从游戏中提取文本,并使用 LLMs 推断游戏类型和游戏目标属性的方法。此外,我们还引入了一种基于 LLM 的重新排序机制来评估生成的文本特征的有效性,从而提高个性化和用户体验。除了推荐,我们的方法还支持基于用户参与度的完整性检测等应用,已在生产环境中部署。这个可扩展的框架展示了在游戏中文本理解对 Roblox 推荐质量改进的潜力,以及适应其独特的用户生成生态系统的能力。
arXiv:2502.06789v1 类别:交叉学科
摘要:多个场景需要优化非凸的黑盒函数,这些函数通常是难以评估的噪声函数且没有解析表达式,因此其梯度不可用。例如,机器学习模型的超参数调优问题。贝叶斯优化是一类具有前沿性能的方法,它在实际场景中解决了这些问题。它使用一个迭代过程,通过使用目标函数的拟似然代理模型(通常为高斯过程)来构建黑盒函数的后验预测分布。基于这一后验预测分布所提供的信息,贝叶斯优化计算了一个获取函数,该获取函数代表了对于目标函数的优化来说,在下一个迭代中评估该点的效用,对于输入空间中的每一个点都是如此。
本文是对信息理论获取函数的综述,这类获取函数的性能通常优于其他获取函数。还详细描述了信息理论的主要概念,使得读者能够了解为什么信息理论获取函数在贝叶斯优化中表现出色,以及在难以处理的情况下如何近似它们。我们还讨论了如何将信息理论获取函数适应于复杂优化场景,如多目标、受约束、非近视、多保真、并行和异步设置,并提供了进一步的研究方向。
arXiv:2502.07709v1 宣告类型: 新
摘要: 开放学习代理必须有效地在广阔的可能性空间中优先考虑目标,专注于那些能够最大化学习进展(LP)的目标。当通过在线强化学习训练的LLM代理在高维度和不断变化的目标空间中实现这种自足探索时,LP预测中的一个关键挑战是如何建模自身的熟练程度,这是一种元认知监控。传统的做法要么需要大量采样,要么依赖于脆弱的专家定义的目标分组。我们引入了MAGELLAN(元认知框架),它使LLM代理能够在线学习预测自身的熟练程度和LP。通过捕捉目标之间的语义关系,MAGELLAN能够通过泛化来实现样本高效的LP估计,并动态适应不断变化的目标空间。在一个交互式学习环境中,我们展示MAGELLAN能够提高LP预测效率和目标优先级,是唯一能让代理完全掌握一个大且不断变化的目标空间的方法。这些结果表明,通过增强LLM代理以具备LP预测的元认知能力,可以有效地将课程学习扩展到开放目标空间。
arXiv:2502.07663v1 通知类型: 新
摘要: 人工智能(AI)系统日益融入日常生活,协助用户执行各种任务,并在决策中提供指导。这种整合引入了AI驱动操控的风险,其中这些系统可能利用用户的认知偏差和情感脆弱性,引导他们走向有害的结果。通过一项包含233名参与者的随机对照试验,我们探讨了人们在金融(例如,购买)和情感(例如,冲突解决)决策背景下对这种操控的易感性。参与者与三种AI代理之一互动:中立代理(NA),优化用户利益但无明确影响,操控性代理(MA),设计以隐蔽方式影响信念和行为,或策略增强的操控性代理(SEMA),采用明确的心理策略以实现其隐藏目标。通过分析参与者的决策模式及其互动后的偏好评分变化,我们发现对AI驱动操控的显著易感性。特别是,在两个决策领域中,与操控性代理互动的参与者选择有害选项的比例显著更高(金融,MA:62.3%,SEMA:59.6%;情感,MA:42.3%,SEMA:41.5%),相比之下,NA组的比例分别为(金融,35.8%;情感,12.8%)。值得注意的是,我们的研究发现,即使是微妙的操控目标(MA)也能与采用明确心理策略(SEMA)一样有效地影响人类决策。通过揭示隐蔽的AI影响潜力,本研究突显了人类与AI互动中的一个重要漏洞,强调了需要在确保AI技术负责任部署和保护人类自主权方面制定伦理保障和监管框架的重要性。
arXiv:2502.07644v1 安全声明类型: 新颖
摘要: 为了管理在以太坊上运行的智能合约,已经开发了多种以太坊请求插件(ERC)标准,每个标准都有一套规则来引导智能合约的行为。违反ERC规则可能会造成严重的安全问题和经济损失,表明验证智能合约是否遵守ERC的重要性。目前这种验证的做法是手动审计每个单独的合约,使用专家开发的程序分析工具,或使用大型语言模型(LLMs),这一切都远远不能有效识别ERC规则的违反情况。本文介绍了SymGPT,这是一种结合了大型语言模型(LLMs)的自然语言理解和符号执行的正式保证的工具,用于自动验证智能合约是否遵守ERC规则。为了开发SymGPT,我们对三个广泛使用的ERC标准中的132个ERC规则进行了实证研究,检查了它们的内容、安全影响以及自然语言描述。基于这项研究,我们通过首先指示LLM将ERC规则翻译成定义的EBNF文法来设计SymGPT。然后,我们从形式化的规则中综合出约束条件,以表示可能发生违规的情况,并使用符号执行来检测这些情况。我们的评估显示,SymGPT在4000个实际合同中识别出了5783个ERC规则的违规行为,其中包括1375个有明确攻击路径的违规行为,证明了其有效性。此外,SymGPT优于六种自动化技术和一种安全专家审计服务,突显了它在当前智能合约分析方法中的优越性。
arXiv:2502.07527v1 宣布类型: 新
摘要:基础模型已经彻底改变了自然语言处理和人工智能,显著增强了机器对人类语言的理解和生成能力。受到这些基础模型成功的启发,研究者们开发了适用于各个科学领域的基础模型,包括小型分子、材料、蛋白质、DNA和RNA。然而,这些模型通常是在孤立状态下训练的,缺乏在不同科学领域之间整合的能力。认识到这些领域内的实体都可以表示为序列,共同构成了“自然界的语言”,我们介绍了一种基于序列的基础科学模型——Nature Language Model(简称NatureLM),旨在用于科学发现。NatureLM 经过跨多个科学领域的数据预训练,提供了一个统一、多功能的模型,能够实现多种应用,包括:(i) 使用文本指令生成和优化小分子、蛋白质、RNA和材料;(ii) 不同领域的生成/设计,例如蛋白质到分子和蛋白质到RNA的生成;以及(iii) 在SMILES到IUPAC转换和USPTO-50k的逆合成反应等任务上实现最先进的性能。NatureLM 提供了一种有前景的通用方法,适用于各种科学任务,包括药物发现(先导化合物生成/优化、ADMET优化、合成)、新型材料设计以及治疗性蛋白质或核苷酸的开发。我们开发了不同规模的NatureLM模型(1亿、8亿和46.7亿参数),并观察到随着模型规模的增加,性能有明显的提升。