近年来,深度强化学习(RL)取得了显著进展。然而,即使对于专家来说,寻找合适的超参数配置和奖励函数仍然具有挑战性,性能严重依赖于这些设计选择。此外,大多数强化学习研究都在已知的基准测试中进行,这些基准测试中已经存在关于这些选择的知识。然而,新的实际应用往往会提出复杂的任务,对于这些任务,没有关于良好超参数和奖励函数的先验知识,因此需要从头开始推导。先前的工作已经检查了自动调整超参数或奖励函数。我们通过实验证明,强化学习算法的超参数配置和奖励函数通常是相互依赖的,这意味着如果没有其他方面的适当值,两者都不能得到充分优化。然后,我们提出了一种超参数和奖励函数联合优化的的方法。此外,我们将方差惩罚作为优化目标,以提高学习策略的稳定性。我们使用近端策略优化和软演员评论家在四个环境中进行了大量的实验。我们的结果表明,在半数环境中,联合优化比基线性能有了显著提高,在其他环境中也取得了具有竞争力的性能,而计算成本仅略微增加。这表明联合优化应该是最佳实践。
科学技术日益需要有效的机制来确保黑盒机器学习算法的可靠、可控性能。这些性能保证理想情况下应该以输入为条件成立——也就是说,无论输入是什么,性能保证都应该至少近似地成立。然而,除了种族和性别等程式化的离散分组之外,正确的条件概念可能难以定义。例如,在图像分割等问题中,我们希望不确定性能够反映测试样本的内在难度,但这可能难以通过条件事件来捕捉。基于 Gibbs 等人[2023]的最新工作,我们提出了一种通过适应测试样本的难度来实现统计风险(损失函数的期望值)近似条件控制的方法。我们的框架超越了基于用户提供的条件事件的传统条件风险控制,转向了对用于条件的适当函数类的算法化、数据驱动的确定。我们将此框架应用于各种回归和分割任务,实现了对模型性能的更细粒度控制,并证明了通过持续监控和调整这些参数,我们可以实现比传统风险控制方法更高的精度。
近年来,大型视觉语言模型 (LVLMs) 取得了快速进展并表现出色,但仍存在幻觉问题,即 LVLMs 倾向于生成与相应视觉输入不一致的响应。为了评估 LVLMs 中幻觉的程度,以往的工作提出了一系列包含不同类型任务和评估指标的基准。然而,我们发现现有幻觉基准的质量参差不齐,一些基准存在问题,例如重复测试结果不一致以及与人工评估不符。为此,我们提出了一种幻觉基准质量度量框架 (HQM),该框架利用各种指标分别评估现有幻觉基准的可靠性和有效性。具体而言,对于可靠性,我们探讨了重测信度和平行形式信度,而对于有效性,我们考察了效标关联效度和幻觉类型的覆盖范围。此外,根据我们的质量度量结果,我们构建了一个用于 LVLMs 的高质量幻觉基准 (HQH),该基准在我们的 HQM 框架下展现出优越的可靠性和有效性。我们对超过 10 个具有代表性的 LVLMs(包括 GPT-4o 和 Gemini-1.5-Pro)进行了广泛的评估,对现有模型中的幻觉问题进行了深入分析。我们的基准已公开发布在 https://github.com/HQHBench/HQHBench。
尽管大型语言模型(LLM)取得了显著进展,但在复杂的约束条件下,它们仍然缺乏精细的可控性,而这对于提升其响应质量和用户体验至关重要。虽然条件监督微调 (SFT) 能够潜在地改善 LLM 的可控性,但为了满足约束条件而策划新的 SFT 数据通常依赖于人工专家或专有 LLM,这既费时又费钱。为了弥合这一差距,我们提出了一种基于规则的数据循环利用方法 (RuleR),这是一种无需人工/LLM 的数据增强方法,它将多个约束条件整合到原始 SFT 数据中。RuleR 并非从头创建新的响应,而是将语言或格式规则整合到原始指令中,并修改响应以满足规则定义的约束条件。在“循环利用”的数据上进行训练,巩固了 LLM 生成受约束输出的能力。大量的实验表明,RuleR 在提高 LLM 可控性的同时,保持了一般的指令遵循性能。RuleR 的代码已发布在 https://github.com/tianyi-lab/RuleR。
这项工作研究了预训练大型语言模型 (LLM) 在指令其将低资源语言文本翻译成高资源语言(作为自动化机器翻译流程的一部分)时的上下文学习能力。我们进行了一系列将南方克丘亚语翻译成西班牙语的实验,并检查了从受限的数字化教学材料(字典和语法课程)和平行语料库中检索到的各种上下文的信息量。使用模型输出的自动和人工评估,我们进行了消融研究,操纵了 (1) 上下文类型(词素翻译、语法描述和语料库示例),(2) 检索方法(自动与手动),以及 (3) 模型类型。我们的结果表明,即使是相对较小的 LLM,在提供足够数量的相关语言信息时,也能够利用提示上下文进行零样本低资源翻译。然而,上下文类型、检索方法、模型类型和特定语言因素的可变影响突出了将最好的 LLM 用作世界上 7000 多种语言及其使用者翻译系统的局限性。
交织文本和图像生成一直是一个引人入胜的研究方向,其中模型需要以任意顺序生成图像和文本片段。尽管交织生成取得了进展,但其评估的进展仍然远远落后。现有的评估基准不支持任意交织的图像和文本作为输入和输出,并且它们只涵盖有限的领域和用例。此外,目前的工作主要使用基于相似性的度量,这在评估开放式场景中的质量方面存在不足。为此,我们引入了 InterleavedBench,这是第一个精心策划的用于评估交织文本和图像生成的基准。InterleavedBench 具有丰富的任务,涵盖了各种现实世界的用例。此外,我们提出了 InterleavedEval,这是一种强大的无参考度量,由 GPT-4o 提供支持,可以提供准确且可解释的评估。我们仔细定义了 InterleavedEval 的五个重要评估方面,包括文本质量、感知质量、图像连贯性、文本图像连贯性和帮助性,以确保全面细致的评估。通过大量的实验和严格的人工评估,我们表明我们的基准和度量可以有效地评估现有模型,并且与人工判断具有很强的相关性,超过了以前的基于参考的度量。我们还提供了大量发现和见解,以促进未来交织生成及其评估的研究。
大型语言模型 (LLM) 在复杂问答 (QA) 场景中的性能提升一直是研究的重点。最近的研究尝试通过将分步规划与外部检索相结合来增强LLM的性能。虽然这种方法对GPT-3.5等高级模型有效,但较小的LLM在分解复杂问题方面面临挑战,需要进行监督式微调。以前的工作依赖于人工标注和来自教师LLM的知识蒸馏,这既费时又不够准确。在本文中,我们提出了一种新颖的框架,通过使用来自知识图谱 (KG) 的规划数据来增强LLM的规划能力。使用此数据微调的LLM具有改进的规划能力,使其能够更好地处理涉及检索的复杂QA任务。在多个数据集(包括我们新提出的基准)上的评估结果突出了我们框架的有效性和KG衍生规划数据的优势。
深度学习推荐模型(DLRM)因其在处理大规模推荐任务方面的有效性而在推荐系统中越来越受欢迎。然而,DLRM的嵌入层由于其对内存容量和内存带宽的密集需求而成为性能瓶颈。本文提出了一种名为UpDLRM的模型,它利用真实的内存内处理(PIM)硬件UPMEM DPU来提高内存带宽并降低推荐延迟。DPU内存的并行特性可以为嵌入查找中大量不规则的内存访问提供高聚合带宽,从而具有降低推理延迟的巨大潜力。为了充分利用DPU内存带宽,我们进一步研究了嵌入表划分问题,以实现良好的工作负载平衡和高效的数据缓存。使用真实世界数据集的评估结果表明,与仅CPU和CPU-GPU混合方案相比,UpDLRM实现了更低的DLRM推理时间。
大型语言模型(LLM)的快速发展使得超级对齐(人类作为超强模型的弱监督者)成为一个至关重要的问题。近期研究初步探索了利用弱模型监督强模型的方法,并发现弱监督下的强学生模型在对齐目标上能够持续超越弱教师模型,从而产生了一种弱到强的泛化现象。然而,我们关注到,在这种看似有前景的现象背后,是否存在一种弱到强的欺骗问题:强模型通过在弱模型已知的领域表现出良好的对齐性,而在弱模型未知的领域产生失调行为来欺骗弱模型。我们初步探索了这种安全问题在一个具体而现实的多目标对齐案例中,其中一些对齐目标可能相互冲突(例如,有用性与无害性)。我们旨在探究,在这种情况下,强模型是否可能会故意在已知但弱模型未知的一个对齐维度上犯错,以换取另一个维度上的更高奖励。通过在奖励建模和偏好优化场景中的大量实验,我们发现:(1)弱到强的欺骗现象在所有设置中都存在。(2)随着弱模型和强模型能力差距的增大,欺骗行为会加剧。(3)使用中间模型进行引导可以在一定程度上减轻欺骗行为,但其有效性仍然有限。我们的工作强调了迫切需要更加关注超级对齐的真实可靠性。
最近,通过重建和生成创建的3D资产已达到手工制作资产的质量,突显了其替代潜力。然而,由于这些资产始终需要转换为网格才能用于3D行业应用,而当前网格提取方法生成的网格远不如艺术家创建的网格(AM,即人工创建的网格),因此这种潜力很大程度上尚未实现。具体来说,目前的网格提取方法依赖于密集的面,而忽略了几何特征,导致效率低下、后期处理复杂以及表示质量较低。为了解决这些问题,我们引入了MeshAnything模型,该模型将网格提取视为一个生成问题,生成与指定形状一致的AM。通过将任何3D表示中的3D资产转换为AM,MeshAnything可以与各种3D资产制作方法集成,从而增强其在3D行业的应用。MeshAnything的架构包括一个矢量量化变分自编码器(VQ-VAE)和一个形状条件解码器专用Transformer。我们首先使用VQ-VAE学习网格词汇表,然后在这个词汇表上训练形状条件解码器专用Transformer,用于形状条件的自回归网格生成。我们广泛的实验表明,我们的方法生成的AM面数减少了数百倍,显著提高了存储、渲染和模拟效率,同时实现了与先前方法相当的精度。