arXiv:2501.09766v3 宣告类型: replace-cross
摘要: 将外部工具与大型语言模型(LLMs)结合使用是一种增强其能力的有前景的方法,尤其是在处理复杂任务方面。通过实际模拟合成工具使用数据是一种有效的方法。然而,我们的调查发现:(1) 随着合成数据的增加,训练收益显著下降。模型难以从更多的合成数据中受益,主要是由于潜在的数据多样性问题,导致在复杂场景中表现不佳。此外,我们发现:(2) 这一挑战主要表现为模型输出与真实响应之间的轻微差异(称为缺陷),例如需要从上下文中进行复杂推理来解决的参数值错误。为此,我们提出了一种迭代强化微调策略,旨在缓解这些挑战。该策略包括:(1) 通过蒙特卡洛树搜索路径探索增强合成数据的多样性。(2) 逐步识别与缺陷相关的数据,构建细粒度的偏好对以定位缺陷,然后应用偏好优化来优化这些缺陷。我们的实验表明,使用我们方法训练的模型相较于基线模型实现了约12%的性能提升,优于更大的开源和闭源模型。
arXiv:2501.05510v2 通知类型: replace-cross
摘要: 时间意识,即根据问题提出时的时间戳进行动态推理的能力,是离线和在线视频LLM之间的重要区别。与依赖完整视频进行静态、事后分析的离线模型不同,在线模型会逐步处理视频流,并根据问题提出的时间戳动态调整其响应。尽管时间意识的重要性不容忽视,但在现有基准测试中仍未得到充分评估。为填补这一空白,我们提出了OVO-Bench(Online-VideO-Benchmark),这是一个新颖的视频基准,强调时间戳对于高级在线视频理解能力基准测试的重要性。OVO-Bench 在三个不同的场景下评估视频LLM根据特定时间戳推理和响应事件的能力:(1)反向追踪:回溯到过去事件以回答问题。(2)实时理解:理解和回应当前时间戳下发生的事件。(3)向前主动响应:延迟响应,直到有足够的未来信息以准确回答问题为止。OVO-Bench 包含 12 项任务,包括 644 个独特视频和大约 2,800 个人工精心编写的细粒度元注释,具有准确的时间戳。我们结合了自动生成管道和人工编辑。凭借这些高质量样本,我们进一步开发了一个评估管道,系统地查询视频LLM沿视频时间轴的响应。对九种视频LLM的评估显示,尽管在传统基准测试上取得了进步,当前模型在在线视频理解方面仍然存在困难,并与人类代理之间存在显著差距。我们希望OVO-Bench 能够推动视频LLM的发展,并激发在线视频推理的未来研究。我们提供了基准和代码,可以在 https://github.com/JoeLeelyf/OVO-Bench 访问。
arXiv:2501.04765v2 宣告类型: replace-cross
摘要:扩散模型已经成为视觉生成的主流方法。然而,这些模型通常面临样本效率低和高训练成本的问题。因此,社区迅速采用了高效微调、推理和个性化的方法。然而,最初训练这些模型仍然非常昂贵。虽然最近提出了多种方法来提高训练效率,包括遮蔽、蒸馏和架构修改,但每种方法都存在权衡:它们在提高性能的同时增加了计算成本,反之亦然。相比之下,本工作旨在通过一种运输机制同时提高训练效率和生成性能。该机制将随机选定的早期层的令牌传输到模型的更深层。我们的方法不仅限于常见的基于Transformer的模型——它还可以应用于状态空间模型,并且无需架构修改或额外参数即可实现这一目标。最后,我们证明TREAD减少了计算成本,并同时提升了模型在标准ImageNet-256基准上的生成性能。这两个好处导致在40万次训练迭代时相比DiT的速度提升了14倍,在700万次训练迭代时相比DiT的最佳基准性能提升了37倍。此外,在引导和非引导设置下,我们分别实现了竞争力的FID分数为2.09和3.93,而无需架构更改,就提高了DiT的性能。
arXiv:2501.02471v2 通告类型: replace-cross
摘要:以英语文本为主要训练数据的大语言模型(LLMs)在中文语境中往往存在偏见和不准确的问题。在如传统中医(TCM)这样的领域,文化层面上的细微差异和临床细微差别至关重要,而缺乏特定领域的数据,如类风湿性关节炎(RA)的情况进一步加剧了这一问题。为了解决这些问题,本文介绍了Hengqin-RA-v1,这是第一个专门为TCM设计的大语言模型,重点关注RA的诊断和治疗。我们还介绍了HQ-GCM-RA-C1,这是一个综合性的RA特定数据集,从古代中医文献、古典文本和现代临床研究中精心整理而来。这个数据集使Hengqin-RA-v1能够提供准确且文化背景丰富的回应,有效地弥补了通用模型留下的空白。广泛的实验表明,Hengqin-RA-v1在某些情况下甚至超越了TCM从业者在诊断准确性方面的表现,超过了当前最先进的模型。
arXiv:2501.01409v2 宣告类型: 替换-交叉
摘要:图像生成器的涌现能力已导致了许多具有重大影响的零样本或少量样本应用。受此成功启发,我们调查视频生成器是否也表现出3D意识。我们使用结构从运动作为3D意识任务来测试视频生成器(例如我们案例中的OpenSora)的中间特征是否能够支持相机姿态估计。令人惊讶的是,最初的测试结果显示,这两个任务之间只存在弱相关性。深入研究发现,尽管视频生成器生成了合理的视频帧,但这些帧本身并不是真正3D一致的。相反,我们提出共同训练这两个任务,利用光度生成和3D意识错误。具体而言,我们发现最新的视频生成网络和相机姿态估计网络(即DUSt3R [79])具有共同的结构,并提出了一种统一这两个网络的架构。提出的统一模型,命名为\nameMethod,不仅生成高质量的相机姿态估计,还能生成3D一致的视频。总之,我们提出了第一个既3D一致、又能生成逼真视频帧、并且可能适用于其他3D意识任务的统一视频生成器。
arXiv:2412.20104v4 通告类型: replace-cross
摘要: 在VR/AR和人体动画中,合成现实的人体-物体交互动作是一个关键问题。不同于通常研究的只涉及单个个体或手与一个物体交互的场景,我们关注的是包含任意数量的人、手和物体的更通用的多体体系结构。这种复杂性带来了在同步动作时由于不同身体间的高相关性和相互影响所带来的重大挑战。为了解决这些挑战,我们引入了SyncDiff,这是一种使用同步运动扩散策略的多体交互合成的新方法。SyncDiff采用单一的扩散模型来捕捉多体动作的联合分布。为了提高动作的真实性,我们提出了一种基于频域的动作分解方案。此外,我们引入了一组新的对齐得分,以强调不同身体动作之间的同步。SyncDiff通过显式的同步策略联合优化数据样本似然性和对齐似然性。在四个具有不同多体配置的数据集上的广泛实验表明,SyncDiff在现有最先进的动作合成方法中表现更优。
arXiv:2412.17411v2 通告类型: replace-cross
摘要:不确定性校准对于各种机器学习应用至关重要,但仍然极具挑战性。许多模型会表现出幻觉现象——即自信但不准确的响应——这是由于信心的误校准所致。在这里,我们证明了在深度学习中常见的随机初始化做法,尽管通常被认为是一种标准技术,实际上却是一个潜在的原因,导致未经训练的网络拥有过高的信心。我们的方法受到发育神经科学的启发,通过在预训练网络时使用随机噪声和标签来简单地解决这个问题,从而减少过高的信心,并将初始信心水平拉近随机猜测的水平。这确保了在后续数据训练过程中达到最优校准,使信心与准确性保持一致,无需额外的预处理或后处理步骤。预校准的网络在识别“未知数据”方面表现出色,对外分布输入显示较低的信心,从而解决了信心校准问题。
arXiv:2412.16822v2 宣告类型: replace-cross
摘要:扩散变压器(DiTs)已在图像生成质量方面达到了最先进的(SOTA)水平,但它们存在高延迟和内存低效的问题,这使得它们难以部署在资源受限的设备上。一个主要的效率瓶颈在于现有DiTs在图像的所有区域上都应用了相同数量的计算。然而,并不是所有图像片段都很重要,某些局部区域需要更多的计算,例如物体。为了解决这个问题,我们提出了DiffCR,这是一种带有可微压缩比的动态DiT推理框架,它可以自动学习在每一层和每个时间步长内为每个图像片段动态路由计算,从而提高DiT的效率。具体来说,DiffCR集成了以下三个特征:(1)基于图像片段的路由方案,其中每个DiT层包括一个路由器,该路由器与模型权重共同微调以预测图像片段的重要性得分。这样一来,不重要的图像片段可以绕过整个层的计算;(2)逐层可微分的比率机制,其中不同的DiT层从零初始化自动学习不同的压缩比率,导致冗余层具有较高的压缩比率,而其他层则保持较低的压缩度或完全不压缩;(3)逐步长可微分的比率机制,其中每个去噪步骤学习其自己的压缩比率。生成结果模式在噪声较大的步骤中显示出更高的比率,在图像变得更为清晰时则显示出较低的比率。在文本到图像和修补任务上的广泛实验表明,DiffCR能够有效地捕捉图像片段、层和时间步长维度上的动态性,相较于之前的成果,它在生成质量和效率之间取得了更优异的权衡。该项目网站可访问 https://www.haoranyou.com/diffcr。
arXiv:2412.15239v2 宣告类型: replace-cross
摘要:理解消费者何时以及为何参与故事对于内容创作者和平台来说至关重要。虽然现有理论表明,受众对未来会发生什么的信念应在参与决策中发挥重要作用,但实证工作主要集中在开发直接从实际内容中提取特征的技术上,而不是捕捉前瞻性信念,因为缺乏一种系统的方法来建模这种信念在无结构叙事数据中的方式。为补充现有的特征提取技术,本文介绍了一种新的框架,利用大型语言模型来建模受众对未来故事如何展开的前瞻性信念。我们的方法为每个故事生成多个可能的续篇,并使用现有的内容分析技术提取与期望、不确定性和惊喜相关的特征。将我们的方法应用于超过30,000个章节,我们展示了我们的框架通过提高现有特征工程技术的边际解释力平均提高了31%。结果表明,不同类型的参与——继续阅读、评论和投票——由当前和预期的内容特征的各自独特组合驱动。我们的框架为研究和探索受众前瞻性信念如何塑造他们对叙事媒体的参与提供了新途径,这对内容导向行业的营销策略具有重要意义。
arXiv:2412.07776v2 宣布类型: replace-cross
摘要:我们提出了一种名为 DiTFlow 的方法,它可以将参考视频的运动传递到新合成的视频中,专门设计用于扩散变压器(DiT)。我们首先使用预训练的 DiT 处理参考视频以分析跨帧注意力图并提取一种称为注意力运动流(AMF)的像素级运动信号。我们以优化为基础,无需训练地指导潜在去噪过程,通过使用我们的 AMF 损失优化潜在变量,从而生成再现参考视频运动的视频。我们还将我们的优化策略应用于变换器位置嵌入,使我们在零样本运动传输方面获得了提升。我们在多个指标和人类评估方面对 DiTFlow 进行了评估,并在所有近期发表的方法中表现出色。