图模型能够捕捉实体之间错综复杂的连接关系,其中节点和边代表着这些连接。节点表示学习的目标是将节点转换为低维嵌入,这些嵌入通常被用作下游任务的特征。因此,嵌入的质量对任务性能有显著影响。现有的节点表示学习方法涵盖了(半)监督、无监督和自监督范式。在图领域,(半)监督学习通常只基于类别标签优化模型,而忽略了其他丰富的图信号,这限制了模型的泛化能力。虽然自监督或无监督学习产生的表示能更好地捕捉底层图信号,但这些捕捉到的信号对下游目标任务的有效性可能会有所不同。为了弥合这一差距,我们引入了目标感知对比学习(Target-aware CL),其目标是通过自监督学习过程最大化目标任务与节点表示之间的互信息,从而提高目标任务性能。这通过一种采样函数 XGBoost 采样器 (XGSampler) 来实现,该函数用于为我们提出的目标感知对比损失 (XTCL) 采样合适的正样本。通过最小化 XTCL,目标感知 CL 增加了目标任务与节点表示之间的互信息,从而提高了模型的泛化能力。此外,XGSampler 通过显示采样合适的正样本的权重来增强每个信号的可解释性。我们通过实验表明,与最先进的模型相比,XTCL 在两个目标任务上显著提高了性能:节点分类和链接预测任务。
国际象棋长期以来一直是人工智能追求匹配人类智能的试验场,近年来,国际象棋人工智能系统已经超越了该游戏中最强大的棋手。然而,这些系统并非与人类一致;它们无法匹配所有人类合作伙伴的技能水平,也无法模拟超出棋子移动的人类行为。在本文中,我们介绍了 Allie,一个旨在弥合这种经典游戏中人工智能与人类智能之间差距的国际象棋 AI。Allie 训练于真实国际象棋游戏的日志序列,以模拟从低到高各个技能水平的人类国际象棋棋手的行为,包括非移动行为,如思考时间和认输。在离线评估中,我们发现 Allie 表现出类似人类的行为:它在人类国际象棋走棋预测和关键位置的“思考”方面优于现有技术水平。该模型学会在每个游戏状态可靠地分配奖励,这可以在推理中用作新型时间自适应蒙特卡洛树搜索 (MCTS) 过程中的奖励函数,其中搜索量取决于人类在相同位置的思考时间。自适应搜索使非凡的技能校准成为可能;在一个针对 Elo 等级从 1000 到 2600 的棋手的大规模在线评估中,我们的自适应搜索方法平均导致 49 Elo 的技能差距,大大优于无搜索和标准 MCTS 基线。面对大师级(2500 Elo)对手,Allie 采用自适应搜索表现出与大师相当的实力,同时只从人类学习。
本文研究了供应模式相关的故障率下的双源问题,这在管理停机时间关键资产的备件方面尤为重要。为了增强韧性,企业越来越多地采用双源策略,同时使用传统制造和增材制造技术。本文探讨了这些策略如何通过解决零件属性和故障率的变化来优化采购。一个重大挑战是这些方法生产的零件具有不同的故障特性,这会影响未来的需求。为了解决这个问题,我们提出了一种新的迭代启发式算法和几种强化学习技术,并结合了内生参数化学习 (EPL) 方法。这种 EPL 方法 - 与任何学习方法兼容 - 允许单个策略处理多个项目的各种输入参数。在一个程式化的设置中,我们最好的策略实现了 0.4% 的平均最优差距。在能源领域的案例研究中,我们的策略在 91.1% 的情况下优于基准,平均成本节省高达 22.6%。
最近的研究强调了大型语言模型在为儿童创建教育工具方面的潜力,但仍然存在重大挑战,即如何维护关键的儿童特定属性,例如语言细微差别、认知需求和安全标准。本文探讨了开发儿童特定语言模型的基础步骤,强调了高质量预训练数据的重要性。我们引入了一种新颖的用户为中心的数据收集管道,该管道涉及收集和验证专门为儿童撰写,有时甚至由儿童撰写的语料库。此外,我们提出了一种新的训练目标,分层掩蔽,该目标根据我们特定领域的儿童语言数据动态调整掩蔽概率,使模型能够优先考虑更适合儿童的词汇和概念。实验评估表明,我们的模型在理解低年级文本方面表现出色,通过避免刻板印象来保持安全性,并捕捉到儿童独特的偏好。此外,我们为儿童特定语言建模的未来研究和开发提供了可操作的见解。
基于文本的图像生成模型,例如 Stable Diffusion 和 DALL-E 3,在内容创作和出版工作流程中具有巨大潜力,使其成为近年来关注的焦点。尽管它们在生成多样化和生动的图像方面具有非凡的能力,但人们仍在努力防止生成有害内容,例如辱骂性、暴力或色情内容。为了评估现有模型的安全性,我们引入了一种名为“连锁越狱”(CoJ) 攻击的新型越狱方法,该方法通过逐步编辑过程来破坏图像生成模型。具体来说,对于无法通过单个提示绕过安全措施的恶意查询,我们有意将查询分解成多个子查询。然后提示图像生成模型根据这些子查询生成并迭代地编辑图像。为了评估我们的 CoJ 攻击方法的有效性,我们构建了一个全面的数据集 CoJ-Bench,涵盖九种安全场景、三种类型的编辑操作和三种编辑元素。对 GPT-4V、GPT-4o、Gemini 1.5 和 Gemini 1.5 Pro 提供的四种广泛使用的图像生成服务的实验表明,我们的 CoJ 攻击方法可以在超过 60% 的情况下成功绕过模型的安全措施,这明显优于其他越狱方法(即 14%)。此外,为了增强这些模型对我们 CoJ 攻击方法的安全性,我们还提出了一种有效的基于提示的方法,即“三思而后行提示”,它可以成功防御超过 95% 的 CoJ 攻击。我们发布了我们的数据集和代码,以促进人工智能安全研究。
用于软件工程的自主系统现在能够修复错误和开发功能。这些系统通常在 SWE-bench (Jimenez 等人,2024a) 上进行评估,该基准评估它们解决来自 GitHub 存储库的软件问题的能力。然而,SWE-bench 仅使用 Python 存储库,问题陈述主要以文本形式呈现,缺乏图像等视觉元素。这种有限的覆盖范围促使我们研究现有系统在未被代表的软件工程领域(例如,前端、游戏开发、DevOps)中的表现,这些领域使用不同的编程语言和范式。因此,我们提出了 SWE-bench 多模态 (SWE-bench M),以评估系统修复视觉、面向用户的 JavaScript 软件中的错误的能力。SWE-bench M 包含从用于网页界面设计、图表绘制、数据可视化、语法高亮和交互式地图的 17 个 JavaScript 库中收集的 617 个任务实例。每个 SWE-bench M 任务实例在其问题陈述或单元测试中至少包含一张图像。我们的分析发现,在 SWE-bench 上表现最好的系统在 SWE-bench M 上难以应对,这揭示了视觉问题解决和跨语言泛化方面的局限性。最后,我们证明了 SWE-agent 的灵活的语言无关特性使其能够在 SWE-bench M 上显著超越其他方案,解决了 12% 的任务实例,而第二好的系统仅解决了 6%。
机器学习中的群体公平是一个关键的研究领域,其重点是在由种族或性别等敏感属性定义的不同群体中实现公平的结果。联邦学习是一种分散的机器学习模型训练方法,它可以在多个设备或组织之间进行训练,而无需共享原始数据,由于客户端之间的数据分布不均,这会加剧公平性的需求,从而可能加剧偏差。联邦学习和群体公平的交叉点引起了极大的兴趣,有 47 项研究专门针对这个问题。然而,目前还没有专门的调查全面关注联邦学习中的群体公平。在本研究中,我们对该主题进行了深入的调查,探讨了关键挑战并回顾了该领域的相关工作。我们基于数据分区、位置和应用策略等关键标准创建了这些方法的新颖分类。此外,我们探讨了与该问题相关的更广泛的担忧,并调查了不同方法如何处理各种敏感群体及其交集的复杂性。最后,我们回顾了当前研究中常用的数据集和应用。最后,我们强调了未来研究的关键领域,强调需要更多方法来解决在联邦系统中实现群体公平的复杂性。
本文旨在解决对抗性逆向强化学习 (AIRL) 方法在随机环境中的局限性,在随机环境中,理论结果无法成立,性能会下降。为了解决这个问题,我们提出了一种新方法,该方法将动力学信息注入奖励塑造,并为随机环境中的诱导最优策略提供了理论保证。结合我们新颖的模型增强奖励,我们提出了一个新的模型增强 AIRL 框架,该框架将转移模型估计直接集成到奖励塑造中。此外,我们对我们方法的奖励误差界限和性能差异界限进行了全面的理论分析。MuJoCo 基准测试中的实验结果表明,与现有的基线相比,我们的方法可以在随机环境中实现卓越的性能,在确定性环境中实现具有竞争力的性能,并且样本效率显着提高。
近年来,人们付出了大量努力来解释机器学习系统。然而,一些机器学习方法本身就具有可解释性,因此并非完全的“黑盒”。这使得开发人员能够理解输出结果,而无需开发复杂且昂贵的可解释性技术。此外,可解释性应该根据问题的背景进行定制。在依赖于协同过滤的推荐系统中,推荐是基于相似用户的行为,因此解释应该说明哪些其他用户与当前用户相似。类似地,如果推荐系统基于序列预测,则解释还应该说明哪些输入时间步对结果影响最大。我们在 STAN(时空注意力网络,用于下一位置推荐)中展示了这种理念/范式,STAN 是一个基于协同过滤和序列预测的下一兴趣点推荐系统。我们还表明,解释有助于“调试”输出结果。
降低生成有害和有毒输出的可能性是将大型语言模型(LLM)与人类价值观对齐时的重要任务。现有方法主要依赖于训练外部奖励模型(即另一个语言模型)或使用自生成数据微调 LLM 来影响输出结果。在本文中,我们表明 LLM 能够在不使用额外奖励模型或重新训练的情况下进行自我解毒。我们提出了“自约束的自回归采样 (SASA)”,这是一种用于减少 LLM 毒性的轻量级控制解码算法。SASA 利用 LLM 的上下文表示来学习以解析形式表征有毒与无毒输出的线性子空间。在逐个词元地自动完成响应时,SASA 通过调整自回归采样策略,动态地跟踪当前输出的边距,从而将生成引导远离有毒子空间。在不同规模和性质的 LLM 上进行评估,包括 Llama-3.1-Instruct(8B)、Llama-2(7B)和 GPT2-L 模型,以及使用 RealToxicityPrompts、BOLD 和 AttaQ 基准,SASA 显着提高了相对于原始模型生成的句子的质量,并达到了与最先进的解毒技术的相当性能,仅使用 LLM 的内部表示就显着降低了毒性水平。