arXiv 论文列表

作者: Zeyi Sun, Tong Wu, Pan Zhang, Yuhang Zang, Xiaoyi Dong, Yuanjun Xiong, Dahua Lin, Jiaqi Wang

近年来，多视角扩散模型在 3D 内容创作方面取得了显著进展。然而，与 2D 扩散模型相比，图像质量和提示遵循能力仍然存在显著差距。一个关键的瓶颈是高质量 3D 对象（包含详细标题）的稀缺性。为了解决这一挑战，我们提出了 Bootstrap3D，一个能够自动生成任意数量的多视角图像以辅助训练多视角扩散模型的新颖框架。具体而言，我们引入了一个数据生成管道，该管道采用 (1) 2D 和视频扩散模型根据构建的文本提示生成多视角图像，以及 (2) 我们微调的 3D 感知 MV-LLaVA 来过滤高质量数据并重写不准确的标题。利用这个管道，我们生成了 100 万张高质量合成多视角图像，这些图像具有密集的描述性标题，以解决高质量 3D 数据的短缺问题。此外，我们提出了一种训练时间步长重新安排 (TTR) 策略，该策略利用去噪过程来学习多视角一致性，同时保持原始 2D 扩散先验。大量的实验表明，Bootstrap3D 可以生成高质量的多视角图像，这些图像具有优异的美学质量、图像-文本对齐和保持的视图一致性。

发布时间: 10/4/2024

查看原文

PromptWizard：面向任务的提示优化框架

作者: Eshaan Agarwal, Joykirat Singh, Vivek Dani, Raghav Magazine, Tanuja Ganu, Akshay Nambi

大型语言模型（LLMs）已在各个领域改变了人工智能，其中提示在引导模型输出方面至关重要。然而，手动提示工程既费时又特定于领域，因此需要自动化的解决方案。我们介绍了 PromptWizard，这是一个新颖的、完全自动化的离散提示优化框架，它利用了一种自进化、自适应机制。通过反馈驱动的批评和综合过程，PromptWizard 在探索和利用之间取得了有效的平衡，迭代地完善提示指令和上下文示例，以生成人类可读的、特定于任务的提示。这种引导方法系统地提高了提示质量，从而在 45 个任务中取得了优越的性能。即使在训练数据有限、LLM 规模较小以及各种 LLM 架构的情况下，PromptWizard 也表现出色。此外，我们的成本分析表明，API 调用、令牌使用和总体成本大幅减少，这证明了 PromptWizard 的效率、可扩展性和相对于现有提示优化策略的优势。

发布时间: 10/4/2024

查看原文

LDMol：具有结构信息潜在空间的文本到分子扩散模型

作者: Jinho Chang, Jong Chul Ye

随着扩散模型成为生成模型的先锋，许多研究人员提出了利用条件扩散模型进行分子生成的技术。然而，分子不可避免的离散性使得扩散模型难以将原始数据与自然语言等高度复杂的条件联系起来。为了解决这个问题，我们提出了一种名为 LDMol 的新型潜在扩散模型，用于文本条件下的分子生成。LDMol 包含一个分子自编码器，它可以生成可学习且结构信息丰富的特征空间，以及一个自然语言条件的潜在扩散模型。特别是，认识到多个 SMILES 符号可以表示同一个分子，我们采用了一种对比学习策略来提取能够识别分子结构独特特征的特征空间。LDMol 在文本到分子生成基准测试中优于现有基线，表明扩散模型在选择合适的潜在域的情况下，可能在文本数据生成方面优于自回归模型。此外，我们还表明 LDMol 可以应用于下游任务，例如分子到文本检索和文本引导的分子编辑，证明了它作为扩散模型的多功能性。

发布时间: 10/4/2024

查看原文

基于随机过程的序列评估

作者: Tianhao Zhang, Zhexiao Lin, Zhecheng Sheng, Chen Jiang, Dongyeop Kang

生成模型在自然语言处理 (NLP) 中获得了显著的突出地位，尤其是在处理对长文本序列进行建模和评估的复杂任务方面。这项任务对于推进各种下游应用至关重要，例如文本生成和机器翻译。最近利用随机过程来捕获序列内在动态的方法在生成模型方面展现出优异的性能。然而，从文本数据集中准确编码时间和结构依赖关系，以及利用这种编码信息进行序列评估，仍然是一个开放的研究领域。在本文中，我们提出了一种学习长文本序列随机动态的新方法，利用基于负对数似然的编码器，其性能优于对比学习方法。我们还介绍了一种基于似然的长文本评估指标，用于衡量序列一致性，可应用于下游任务，如人机区分。我们的编码器有效地保留了序列一致性，并在域外数据集上表现出稳健性。此外，所提出的评估指标全面地捕获了时间和结构信息。理论分析证明了我们的指标在序列评估中的优越性，实验结果突出了其灵活性以及在各种任务中的出色性能，展示了其在各种 NLP 应用中的实用性。

发布时间: 10/4/2024

查看原文

Rényi 神经过程

作者: Xuesong Wang, He Zhao, Edwin V. Bonilla

神经过程（NPs）是一种深度概率模型，通过对一组上下文点进行条件化来表示随机过程。尽管它们在复杂分布的置信度估计方面具有明显的优势，但 NPs 在条件先验模型和后验模型之间强制参数耦合，从而有可能引入错误指定的先验分布。我们在此重新审视 NP 目标，并提出 Rényi 神经过程 (RNP) 以通过优化实现更好边际似然的替代后验来改善先验错误指定的影响。更具体地说，通过用模型后验和真实后验之间的 Rényi 散度替换标准 KL 散度，我们在关于后验的散度梯度中将密度比率 $\frac{p}{q}$ 乘以 (1-$\alpha$) 的幂。这个超参数 $\alpha$ 使我们能够抑制错误指定先验对后验更新的影响，这已被证明可以有效地避免过度平滑的预测并提高后验模型的表达能力。我们广泛的实验表明，在采用变分推理或最大似然估计目标的最先进的 NP 族模型上，对数似然始终得到改善。我们验证了我们的方法在回归和图像修复任务等多个基准上的有效性，并在底层先验模型错误指定的现实世界回归问题中展示了 RNP 的显著性能提升。

发布时间: 10/4/2024

查看原文

指令微调与指令损失

作者: Zhengyan Shi, Adam X. Yang, Bin Wu, Laurence Aitchison, Emine Yilmaz, Aldo Lipani

指令微调在塑造语言模型 (LM) 输出以符合预期风格方面发挥着至关重要的作用。在本研究中，我们提出了一种简单而有效的方法，即指令建模 (IM)，它通过将损失函数应用于指令和提示部分，而不是仅应用于输出部分，来训练语言模型。通过在 21 个不同基准上的实验，我们发现，在许多情况下，IM 可以有效地提高语言模型在 NLP 任务（例如 MMLU、TruthfulQA 和 HumanEval）和开放式生成基准（例如 MT-Bench 和 AlpacaEval）上的性能。值得注意的是，在最有利的情况下，IM 将模型在 AlpacaEval 1.0 上的性能提升了 100% 以上。我们确定了影响 IM 有效性的两个关键因素：(1) 训练数据中指令长度与输出长度的比例；(2) 训练样本数量。我们观察到，当在包含较长指令和较短输出的数据集上进行训练，或在使用少量训练样本进行指令微调的表层对齐假设 (SAH) 下，IM 特别有利。进一步的分析证实了我们的假设，即我们的改进可归因于减少对指令微调数据集的过度拟合。值得注意的是，我们并没有将 IM 作为当前微调流程的替代方案。相反，我们的工作旨在为指令微调语言模型提供实用的指导，特别是在资源匮乏的情况下。

发布时间: 10/4/2024

查看原文

基于协同表示的神经超图扩散用于边依赖节点分类

作者: Yijia Zheng, Marcel Worring

超图被广泛用于表示现实世界应用中复杂的更高阶关系。大多数超图学习研究集中在节点级或边级任务上。最近提出的边依赖节点分类（ENC）是一个具有实际意义但更具挑战性的任务。在 ENC 中，一个节点可以在不同的超边上具有不同的标签，这需要对节点-边对进行建模，而不是单个节点或超边。现有的解决该任务的方法基于消息传递，并将边内和节点内结构中的交互建模为多输入单输出函数。这带来了三个局限性：（1）非自适应表示大小，（2）非自适应消息，以及（3）节点或边之间缺乏直接交互。为了解决这些局限性，我们提出了 CoNHD，一种新的 ENC 解决方案，它将边内和节点内交互建模为多输入多输出函数。具体来说，我们将这些交互表示为节点-边联合表示上的超图扩散过程。我们进一步开发了该扩散过程的神经网络实现，该实现可以适应特定的 ENC 数据集。大量实验表明了所提出的 CoNHD 方法的有效性和效率。

发布时间: 10/4/2024

查看原文

基于图混合的图稀疏化

作者: Guibin Zhang, Xiangguo Sun, Yanwei Yue, Chonghe Jiang, Kun Wang, Tianlong Chen, Shirui Pan

图神经网络 (GNN) 在各种图学习任务中展现出优异的性能，但在应用于大规模图时面临着巨大的计算挑战。缓解这些挑战的一种有效方法是图稀疏化，它涉及移除不必要的边以减少计算开销。然而，以前的图稀疏化方法通常依赖于单一的全局稀疏化设置和统一的剪枝标准，无法为每个节点的复杂局部上下文提供定制的稀疏化方案。在本文中，我们引入了混合图 (MoG)，利用混合专家 (MoE) 的概念，为每个节点动态选择定制的剪枝解决方案。具体来说，MoG 包含多个稀疏化专家，每个专家都具有独特的稀疏化水平和剪枝标准，并为每个节点选择合适的专家。随后，MoG 对不同专家在 Grassmann 流形上生成的稀疏图进行混合，以推导出最佳的稀疏图。MoG 的一个显著特性是其完全局部的性质，因为它取决于每个节点的具体情况。对四个大型 OGB 数据集和两个超像素数据集进行了广泛的实验，配备了五个 GNN 主干，结果表明 MoG (I) 在更高的稀疏化水平 ($8.67\%\sim 50.85\%$) 下识别子图，性能与稠密图相当或更好，(II) 在 GNN 推理中实现了 $1.47-2.62\times$ 的加速，性能下降微不足道，以及 (III) 提升了“顶尖学生” GNN 的性能 ($1.02\%\uparrow$ 在 RevGNN+\textsc{ogbn-proteins} 上和 $1.74\%\uparrow$ 在 DeeperGCN+\textsc{ogbg-ppa} 上)。

发布时间: 10/4/2024

查看原文

大型语言、图像、视频和音频基础模型中幻觉现象的全面综述

作者: Pranab Sahoo, Prabhash Meharia, Akash Ghosh, Sriparna Saha, Vinija Jain, Aman Chadha

大型基础模型（FMs）在语言、图像、音频和视频领域取得了快速发展，在各种任务中展现出非凡的能力。然而，基础模型的激增也带来了一个关键挑战：产生幻觉输出的可能性，尤其是在高风险应用中。基础模型产生幻觉内容的倾向可以说是其在现实世界场景中广泛应用的最大障碍，尤其是在可靠性和准确性至关重要的领域。这篇综述文章全面概述了旨在识别和缓解基础模型中幻觉问题的最新发展，涵盖了文本、图像、视频和音频模式。通过综合各种模式中检测和缓解幻觉的最新进展，本文旨在为研究人员、开发人员和从业人员提供有价值的见解。本质上，它建立了一个清晰的框架，涵盖了针对多模态基础模型中幻觉的定义、分类和检测策略，为该关键领域的未来研究奠定了基础。

发布时间: 10/4/2024

查看原文

ScenicNL：从自然语言生成概率场景程序

作者: Karim Elmaaroufi, Devan Shanker, Ana Cismaru, Marcell Vazquez-Chanlatte, Alberto Sangiovanni-Vincentelli, Matei Zaharia, Sanjit A. Seshia

针对网络物理系统（CPS），包括机器人和自动驾驶汽车，大规模部署一直受到在罕见事件中发生的致命错误的阻碍。为了复制车辆碰撞等罕见事件，许多公司创建了日志系统并聘请了碰撞重建专家，以在模拟中精心重现这些宝贵的事件。然而，在这些方法中，"如果"问题不容易被提出和解答。我们提出了ScenarioNL，这是一个从自然语言创建场景程序的 AI 系统。具体来说，我们从警方事故报告中生成这些程序。报告通常包含关于事件确切细节的不确定性，我们通过概率编程语言（PPL） Scenic 来表示。通过使用 Scenic，我们可以清楚简洁地表示 CPS 行为、属性和交互的不确定性和变化。我们证明了常见的提示技术与最好的大型语言模型 (LLM) 无法推理关于概率场景程序并为 Scenic 等低资源语言生成代码。我们的系统由多个 LLM 组成，这些 LLM 与多种提示策略、编译器和模拟器链接在一起。我们在过去五年中从加州公开的自动驾驶汽车碰撞报告中评估了我们的系统，并分享了关于如何生成语义上有意义且语法上正确的代码的见解。

发布时间: 10/4/2024

查看原文