我们提出了一种名为COLLAGE的新框架,用于利用大型语言模型(LLM)和分层运动特定矢量量化变分自动编码器(VQ-VAE)来生成协作的代理-对象-代理交互。我们的模型通过将LLM的知识和推理能力融入生成扩散模型来解决该领域缺乏丰富数据集的问题。分层VQ-VAE架构在多个抽象级别捕获不同的运动特定特征,避免冗余概念并实现高效的多分辨率表示。我们引入了一个在潜在空间中运行的扩散模型,并结合LLM生成的运动规划提示来指导去噪过程,从而产生更具控制力和多样性的提示特定运动生成。在CORE-4D和InterHuman数据集上的实验结果表明,我们的方法在生成逼真且多样化的协作人-物-人交互方面非常有效,优于最先进的方法。我们的工作为在机器人技术、图形学和计算机视觉等各个领域对复杂交互进行建模开辟了新的可能性。
RecSys 挑战赛 2024 旨在通过解决新闻出版领域中设计有效且负责任的推荐系统的技术和规范挑战,推动新闻推荐技术的发展。本文介绍了该挑战赛,包括其目标、问题设置以及由丹麦新闻出版商 Ekstra Bladet 和 JP/Politikens Media Group ("Ekstra Bladet") 提供的数据集。该挑战赛探讨了新闻推荐的独特方面,例如基于用户行为建模用户偏好,考虑新闻议程对用户兴趣的影响,以及管理新闻项目的快速衰减。此外,该挑战赛还涵盖了规范复杂性,调查推荐系统对新闻流的影响及其与编辑价值观的契合度。我们总结了挑战赛的设置、数据集特征和评估指标。最后,我们宣布了获胜者并强调了他们的贡献。数据集可在以下地址获取:https://recsys.eb.dk。
本研究提出了一种创新的自动标注框架,旨在解决越南语等低资源语言的社交媒体文本词汇规范化难题。社交媒体数据丰富多样,但其语境中不断变化的语言形式使得人工标注费时费力。为了解决这些问题,我们提出了一个将半监督学习与弱监督技术相结合的框架。这种方法在最大限度地减少人工标注工作的同时,提高了训练数据集的质量并扩大了其规模。我们的框架自动标注原始数据,将非标准词汇转换为标准形式,从而提高训练数据的准确性和一致性。实验结果表明,我们的弱监督框架在越南语文本规范化方面非常有效,尤其是在使用预训练语言模型的情况下。该框架取得了令人印象深刻的 F1 分数(82.72%),并保持了高达 99.22% 的词汇完整性。此外,它还能够有效地处理各种条件下的无音调文本。该框架显著提高了自然语言规范化质量,并提高了各种 NLP 任务的准确性,平均准确率提高了 1-3%。
神经架构搜索 (NAS) 自动化神经网络设计,减少对人类专业知识的依赖。虽然 NAS 方法计算量大且特定于数据集,但辅助预测器减少了需要训练的模型,从而缩短了搜索时间。该策略用于生成满足多个计算约束的架构。近年来,可迁移 NAS 应运而生,将搜索过程从数据集依赖推广到任务依赖。在这个领域,DiffusionNAG 是一种最先进的方法。这种基于扩散的方法简化了计算,生成针对未见数据集的精度优化的架构,无需进一步适应。然而,DiffusionNAG 仅关注精度,忽略了模型复杂度、计算效率和推理延迟等其他关键目标——这些因素对于在资源受限的环境中部署模型至关重要。本文介绍了帕累托最优多目标神经架构生成器 (POMONAG),通过多目标扩散过程扩展了 DiffusionNAG。POMONAG 同时考虑了精度、参数数量、乘累加操作 (MAC) 和推理延迟。它集成了性能预测器模型来估计这些指标并引导扩散梯度。POMONAG 的优化通过扩展其训练元数据集、应用帕累托前沿过滤和细化嵌入以进行条件生成得到增强。这些增强使 POMONAG 能够生成帕累托最优架构,在性能和效率方面优于以前的最先进技术。结果在两个搜索空间(NASBench201 和 MobileNetV3)上得到验证,并在 15 个图像分类数据集上进行评估。
随着复杂的机器学习模型在高风险决策场景中不断得到应用,解释和理解它们的预测至关重要。事后解释方法通过识别输入 $\mathbf{x}$ 中相对于模型输出 $f(\mathbf{x})$ 的重要特征,提供了有用的见解。在本工作中,我们对一般机器学习模型的两个精确的特征重要性概念进行了形式化和研究:充分性和必要性。我们证明了,尽管这两种类型的解释直观且简单,但在提供模型认为重要的特征的完整图景方面可能存在不足。为此,我们提出了一种统一的重要性概念,通过探索沿着必要性-充分性轴的连续统一体来避免这些限制。我们证明,我们的统一概念与其他流行的特征重要性定义有着密切的联系,例如基于条件独立和博弈论量(如 Shapley 值)的定义。至关重要的是,我们证明了统一的视角如何让我们检测到仅通过之前的任何一种方法都可能遗漏的重要特征。
近年来,视觉语言模型 (VLMs) 的进展以及高质量多模态对齐数据的稀缺性,激发了众多关于合成 VLM 数据生成的探索。传统的 VLM 数据构建方法通常采用字幕和 OCR 领域专家组合,或更强大的 VLM API 和昂贵的人工标注。本文提出了 World to Code (W2C),一个精心策划的多模态数据构建管道,将最终的生成输出组织成 Python 代码格式。该管道利用 VLM 本身,通过不同的提示提取跨模态信息,并通过一致性过滤策略再次过滤生成的输出。实验表明,W2C 的高质量通过提高各种现有的视觉问答和视觉定位基准,涵盖不同的 VLMs。进一步的分析还表明,VLMs 的新代码解析能力比常用的详细字幕能力具有更好的跨模态等效性。我们的代码可在 https://github.com/foundation-multimodal-models/World2Code 获取。
流匹配 (FM) 是一类用于拟合连续归一化流 (CNF) 的训练算法。一种标准的 FM 方法,称为条件流匹配 (CFM),利用了 CNF 的边缘向量场可以通过对给定流路径的一端或两端指定的所谓条件向量场进行最小二乘回归来学习这一事实。我们表明,从参数估计的贝叶斯决策理论角度看待 CFM 训练为 CFM 算法的泛化打开了大门。我们提出了一种这样的扩展,通过引入一种基于定义给定我们所称的“流”的条件概率路径的 CFM 算法,流是连接噪声和观测数据对的潜在随机路径的实例。此外,我们提倡使用高斯过程 (GP) 对这些潜在流进行建模。GP 的独特分布特性,特别是 GP 的速度仍然是 GP 的事实,允许从由此产生的流增强条件概率路径中抽取样本,而无需模拟实际的流,因此保留了 CFM 训练的“无模拟”性质。我们表明,这种 CFM 的泛化可以显着降低估计的边缘向量场的方差,而计算成本适中,从而在常见指标下提高生成样本的质量。此外,我们表明,在流上采用 GP 允许灵活地链接多个相关的训练数据点(例如,时间序列)并合并额外的先验信息。我们通过模拟和应用于两个手写图像数据集来实证验证我们的主张。
理解连续治疗与个体结果之间的剂量-反应关系对于决策制定至关重要,尤其是在个性化药物剂量和个性化医疗干预等领域。在这些高风险环境中,点估计往往不足,突出了不确定性量化以支持明智决策的必要性。一致性预测是一种用于不确定性量化的无分布且与模型无关的方法,在连续治疗或剂量-反应模型中的应用有限。为了弥合这一差距,我们提出了一种新方法,将因果剂量-反应问题构建为协变量偏移,利用加权一致性预测。通过结合倾向性估计、一致性预测系统和似然比,我们为生成剂量-反应模型的预测区间提供了一种实用解决方案。此外,我们的方法通过在加权一致性预测中应用核函数作为权重来近似每个治疗值的局部覆盖率。最后,我们使用一个新的合成基准数据集来证明协变量偏移假设在为剂量-反应模型实现鲁棒预测区间方面的意义。
时间序列预测通常需要处理具有不断变化的趋势和季节性模式的非平稳数据。为了解决非平稳性问题,可逆实例归一化最近被提出,以减轻趋势对某些统计量(例如均值和方差)的影响。虽然它们证明了预测精度有所提高,但它们仅限于表达基本趋势,无法处理季节性模式。为了解决这一限制,本文提出了一种新的实例归一化解决方案,称为频率自适应归一化(FAN),它扩展了实例归一化,可以处理动态趋势和季节性模式。具体来说,我们使用傅里叶变换来识别覆盖大多数非平稳因素的实例级主要频率成分。此外,这些频率成分在输入和输出之间的差异被明确地建模为一个简单的 MLP 模型的预测任务。FAN 是一种与模型无关的方法,可以应用于任意预测主干。我们将 FAN 实例化为四个广泛使用的预测模型作为主干,并评估它们在八个基准数据集上的预测性能改进。FAN 表现出显著的性能提升,在 MSE 上取得了 7.76% ~ 37.90% 的平均改进。
从人类反馈中进行强化学习 (RLHF) 已成为微调大型语言模型 (LLM) 的主要方法。然而,由于奖励黑客攻击和极端多目标优化(即多个和/或有时相互冲突的目标之间的权衡)的挑战,RLHF 在多任务学习 (MTL) 中存在局限性。目前,将 RLHF 应用于 MTL 需要仔细调整奖励模型和数据组合的权重。这通常通过人类直觉完成,并且不具有通用性。在这项工作中,我们介绍了一种新的训练后范式,我们称之为约束生成式策略优化 (CGPO)。CGPO 的核心是混合裁判 (MoJ),它结合了具有分层的成本效益约束策略优化,可以以原则性的方式识别 RLHF 中的完美融合。它展示了具有理论保证的强大实证结果,不需要大量的超参数调整,并且可以在常见的训练后管道中即插即用。总之,这可以检测和缓解奖励黑客攻击行为,同时在极大量目标中达到帕累托最优。
我们的实证评估表明,CGPO 在包括通用聊天、STEM 问题、指令遵循和编码在内的各种任务中明显优于标准 RLHF 算法,例如 PPO 和 DPO。具体而言,CGPO 在 AlpacaEval-2(通用聊天)中显示出 7.4% 的改进,在 Arena-Hard(STEM 和推理)中显示出 12.5% 的改进,以及在数学和编码等其他领域中始终如一的改进。值得注意的是,PPO 虽然被广泛使用,但在流行的编码基准测试中容易受到严重奖励黑客攻击的影响,而 CGPO 成功地解决了这个问题。RLHF 的这一突破不仅解决了奖励黑客攻击和极端多目标优化挑战,而且还推动了将通用 LLM 与各种应用对齐的最新技术发展。