arXiv 论文列表

作者: Pouyan Navard, Amin Karimi Monsefi, Mengxi Zhou, Wei-Lun Chao, Alper Yilmaz, Rajiv Ramnath

扩散模型的最新进展显著提高了文本到图像 (T2I) 生成，但它们往往难以在细粒度精度和高级控制之间取得平衡。像 ControlNet 和 T2I-Adapter 这样的方法擅长遵循经验丰富的艺术家的草图，但往往过于僵硬，会复制新手用户草图中无意的缺陷。同时，粗粒度方法，如基于草图的抽象框架，提供了更易于访问的输入处理，但缺乏详细、专业用途所需的精确控制。为了解决这些局限性，我们提出了 KnobGen，这是一个双路径框架，通过无缝适应不同水平的草图复杂度和用户技能，使基于草图的图像生成民主化。KnobGen 使用粗粒度控制器 (CGC) 模块用于高级语义，并使用细粒度控制器 (FGC) 模块用于详细细化。这两个模块的相对强度可以通过我们的旋钮推理机制进行调整，以符合用户的特定需求。这些机制确保 KnobGen 可以灵活地从新手草图和经验丰富的艺术家绘制的草图中生成图像。这在保持对最终输出的控制的同时，也保留了图像的自然外观，正如 MultiGen-20M 数据集和新收集的草图数据集所证明的那样。

发布时间: 10/3/2024

查看原文

用于非理想测量CT通用增强成像基础模型

作者: Yuxin Liu, Rongjun Ge, Yuting He, Zhan Wu, Chenyu You, Shuo Li, Yang Chen

非理想测量计算机断层扫描（NICT）以牺牲最佳成像标准来换取 CT 成像的新优势，正在扩展 CT 图像的临床应用范围。然而，随着成像标准的降低，图像质量也随之降低，极大地限制了临床的可接受性。虽然大量研究表明深度学习在特定场景下可用于 NICT 增强，但其高数据成本和有限的泛化能力已成为巨大障碍。最近关于基础模型的研究为构建通用 NICT 增强模型带来了新机遇——以最小的数据成本弥合图像质量下降。然而，由于收集大型预训练数据集和数据变异兼容性方面的挑战，尚未取得成功。在本文中，我们提出了一种多尺度集成 Transformer 放大器 (TAMP)，这是首个用于通用 NICT 增强的成像基础模型。它已在包含 360 万对 NICT-ICT 图像的大规模物理驱动仿真数据集上进行预训练，能够直接泛化到各种非理想设置和身体部位的 NICT 增强任务。通过少量数据的自适应，它可以在现实世界特定场景中进一步实现专业性能。我们广泛的实验表明，所提出的 TAMP 在促进 NICT 的探索和应用以及服务于更广泛的医疗场景方面具有巨大潜力。

发布时间: 10/3/2024

查看原文

基于大语言模型的口语语法评估

作者: Sunil Kumar Kopparapu, Chitralekha Bhat, Ashish Panda

口语评估 (SLA) 系统仅限于通过分析朗读和自发口语表达分别评估说话者的发音和口语流利度。语言语法或词汇的评估被委托给书面语言评估 (WLA) 系统。大多数 WLA 系统提供来自精心策划的有限大小句子数据库的一组句子，从而可以预测测试问题并进行自我训练。在本文中，我们提出了一种新颖的端到端 SLA 系统，用于评估来自口语表达的语言语法，从而使 WLA 系统变得多余；此外，我们通过使用大型语言模型 (LLM) 来引入测试中的变化，使评估在很大程度上不可教。我们进一步证明，具有自定义构建语言模型的混合自动语音识别 (ASR) 在口语语法评估方面优于最先进的 ASR 引擎。

发布时间: 10/3/2024

查看原文

异质零和团队博弈中事前均衡的计算

作者: Naming Liu, Mingzhi Wang, Xihuai Wang, Weinan Zhang, Yaodong Yang, Youzhi Zhang, Bo An, Ying Wen

在两队零和博弈中，各队内部的代理人协作以对抗对方队伍，其事前均衡被认为是队伍在协调方面所能达成的最佳结果。许多现有的关于事前均衡解的研究都致力于基于策略空间响应预言 (PSRO) 将事前均衡求解的范围扩展到大型团队博弈。然而，最突出方法 Team PSRO 构建的联合团队策略空间在队友扮演不同角色的异质团队博弈中无法覆盖整个团队策略空间。这种不足的策略表达能力导致 Team PSRO 陷入次优事前均衡，其可利用性显著提高，并且永远无法收敛到全局事前均衡。为了在不引入额外计算复杂度的情况下找到全局事前均衡，我们首先为队友参数化异质策略，并证明按顺序优化异质队友的策略可以保证团队奖励的单调改进。我们进一步提出了异质-PSRO (H-PSRO)，一种针对异质团队博弈的新框架，它将顺序相关机制集成到 PSRO 框架中，并成为第一个针对异质团队博弈的 PSRO 框架。我们证明 H-PSRO 在异质团队博弈中比 Team PSRO 具有更低的可利用性。在经验上，H-PSRO 在非异质基线无法解决的矩阵异质博弈中实现了收敛。进一步的实验表明，H-PSRO 在异质团队博弈和同质设置中都优于非异质基线。

发布时间: 10/3/2024

查看原文

OpenMathInstruct-2：利用海量开源指令数据加速数学领域的 AI 发展

作者: Shubham Toshniwal, Wei Du, Ivan Moshkov, Branislav Kisacanin, Alexan Ayrapetyan, Igor Gitman

大型语言模型（LLM）在数学推理方面取得了显著进展，但由于缺乏对训练数据的访问，大多数最先进的数学推理 LLM 已经成为**闭源**。这种缺乏数据访问限制了研究人员理解不同数据合成和利用选择的影响。为了创建用于数学推理的优质微调（SFT）数据集，我们使用最近发布的\texttt{Llama3.1}模型系列对数据合成进行了仔细的消融实验。我们的实验表明：（a）解决方案格式很重要，过于冗长的解决方案对 SFT 性能有害，（b）由强教师生成的**数据**优于由弱学生模型生成的**策略内**数据，（c）SFT 对低质量解决方案具有鲁棒性，允许进行不精确的数据过滤，以及（d）问题多样性对于实现数据扩展增益至关重要。基于这些见解，我们创建了 OpenMathInstruct-2 数据集，该数据集包含 1400 万个问题-解决方案对（约 60 万个独特问题），使其规模几乎是以前最大的开源数学推理数据集的八倍。使用 OpenMathInstruct-2 微调 \texttt{Llama-3.1-8B-Base} 在 MATH 上的表现优于 \texttt{Llama3.1-8B-Instruct}，绝对提升了 15.9%（51.9% $\rightarrow$ 67.8%）。最后，为了加速开源工作，我们以商业许可证发布了代码、微调模型和 OpenMathInstruct-2 数据集。

发布时间: 10/3/2024

查看原文

集成解码：通过隐式自一致性提升事实性

作者: Yi Cheng, Xiao Liang, Yeyun Gong, Wen Xiao, Song Wang, Yuji Zhang, Wenjun Hou, Kaishuai Xu, Wenge Liu, Wenjie Li, Jian Jiao, Qi Chen, Peng Cheng, Wayne Xiong

基于自一致性的方法通过反复采样多个输出并选择最一致的输出作为最终响应，在提高大型语言模型的真实性方面被证明非常有效。然而，现有的方法通常对任务格式有严格的限制，很大程度上限制了它们的适用性。在本文中，我们提出了整合解码 (ID)，以释放自一致性在开放式生成任务中的潜力。ID 通过构建一组输入来运作，每个输入都以先前采样的响应为前缀，然后同时处理它们，下一个标记在每个解码步骤中通过聚合所有对应预测来选择。本质上，这种简单的方法隐式地将自一致性纳入解码目标。广泛的评估表明，ID 在各种语言模型上始终如一地提高了真实性，在 TruthfulQA (+11.2%)、Biographies (+15.4%) 和 LongFact (+8.5%) 基准测试中取得了显著的改进。随着采样响应数量的增加，性能提升逐渐放大，表明 ID 随着重复采样的扩展潜力。

发布时间: 10/3/2024

查看原文

边缘保持扩散模型噪声

作者: Jente Vandersanden, Sascha Holl, Xingchang Huang, Gurprit Singh

经典的生成扩散模型学习各向同性高斯去噪过程，对所有空间区域进行统一处理，从而忽略了数据中潜在的宝贵结构信息。受图像处理中各向异性扩散的长期研究成果启发，我们提出了一种新的边缘保持扩散模型，它是去噪扩散概率模型 (DDPM) 的推广。具体来说，我们引入了一种边缘感知噪声调度器，它在边缘保持和各向同性高斯噪声之间变化。我们证明了我们的模型的生成过程更快地收敛于更接近目标分布的结果。我们展示了它能够更好地学习数据集中的低频到中频，这在表示形状和结构信息方面起着至关重要的作用。我们的边缘保持扩散过程在无条件图像生成方面始终优于最先进的基线。对于由形状先验引导的生成任务（例如笔划到图像的生成）而言，它也更加稳健。我们展示了定性和定量结果，表明这两种任务的改进（FID 分数）始终高达 30%。

发布时间: 10/3/2024

查看原文

洞察 AI 之眼：基于注视的响应奖励实现大型语言模型的人类对齐

作者: Angela Lopez-Cardona, Carlos Segura, Alexandros Karatzoglou, Sergi Abadal, Ioannis Arapakis

自然语言处理 (NLP) 的进步导致了大型语言模型 (LLM) 的出现，如 GPT、Llama、Claude 和 Gemini，它们在各种任务中表现出色，但需要大量的微调才能使其输出符合人类的期望。实现这种对齐的一种广泛使用的方法是来自人类反馈的强化学习 (RLHF)，尽管它取得了成功，但在准确建模人类偏好方面仍然面临挑战。在本文中，我们介绍了 GazeReward，这是一个将隐式反馈——特别是眼动追踪 (ET) 数据——整合到奖励模型 (RM) 中的新框架。此外，我们还探讨了基于 ET 的特征如何提供对用户偏好的洞察。通过消融研究，我们用不同的集成方法、LLM 和 ET 生成模型测试了我们的框架，证明了我们的方法显著提高了 RM 在已建立的人类偏好数据集上的准确性。这项工作推进了关于优化人工智能与人类价值观对齐的持续讨论，探索了认知数据在塑造未来 NLP 研究中的潜力。

发布时间: 10/3/2024

查看原文

TiVaT：基于联合轴向注意力的时序预测模型，融合了先导滞后动态

作者: Junwoo Ha, Hyukjae Kwon, Sungsoo Kim, Kisu Lee, Ha Young Kim

多元时间序列（MTS）预测在各种现实世界应用中发挥着至关重要的作用，但同时捕捉时间和变量间依赖关系仍然是一个挑战。传统的通道依赖（CD）模型分别处理这些依赖关系，限制了它们对复杂交互（如先导-滞后动力学）的建模能力。为了解决这些限制，我们提出了TiVaT（时间可变Transformer），这是一种新颖的架构，通过其联合轴（JA）注意机制将时间和变量依赖关系集成在一起。TiVaT通过整合距离感知时间可变（DTV）采样进一步增强了捕捉复杂变量-时间依赖关系（包括异步交互）的能力，该采样通过学习的二维映射减少噪声并提高精度，该映射侧重于关键交互。TiVaT有效地模拟了时间和变量依赖关系，在各种数据集上始终如一地提供强大的性能。值得注意的是，它擅长捕捉多元时间序列中的复杂模式，使其能够超越或与最先进的方法保持竞争。这将TiVaT定位为MTS预测的新基准，特别是在处理以复杂和具有挑战性的依赖关系为特征的数据集时。

发布时间: 10/3/2024

查看原文

InstaTrans：面向非英语指令数据集的指令感知翻译框架

作者: Yungi Kim, Chanjun Park

由于尾部现象的存在，为非英语语言生成高质量指令数据集是一个挑战，这些现象限制了对较少观察到的数据的性能。为了缓解这个问题，我们提出将现有的高质量英语指令数据集翻译为解决方案，强调需要完整且指令感知的翻译以保持这些数据集的固有属性。我们声称，使用以这种方式翻译的数据集微调大型语言模型 (LLM) 可以提高它们在目标语言中的性能。为此，我们引入了一种新的针对指令数据集的翻译框架，名为 InstaTrans (INSTruction-Aware TRANSlation)。通过大量的实验，我们证明了 InstaTrans 在翻译的完整性和指令感知性方面优于其他竞争对手，突出了其以相对较低的成本扩展多种语言 LLM 可访问性的潜力。此外，我们已经验证了使用 InstaTrans 翻译的数据集微调 LLM 可以有效地提高它们在目标语言中的性能。

发布时间: 10/3/2024

查看原文