LLM2D

arXiv 论文列表

作者: Xinyi Liu, Tianyi Zhang, Matthew Johnson-Roberson, Weiming Zhi
近年来,许多机器人环境表示方法都集中在逼真重建上。本文特别关注从逼真的高斯 Splatting 模型生成图像序列,这些序列与用户输入的语言指令相匹配。我们提出了一种新颖的框架 SplaTraj,它将逼真环境表示中的图像生成公式化为一个连续时间轨迹优化问题。成本的设计使得遵循轨迹姿态的相机能够平滑地遍历环境,并以摄影的方式渲染指定的空间信息。这是通过使用语言嵌入查询逼真表示来隔离与用户指定输入相对应的区域来实现的。然后将这些区域投影到相机随着时间的推移而移动的视图中,并构建成本。然后,我们可以应用基于梯度的优化,并通过渲染进行微分,以优化定义成本的轨迹。生成的轨迹会移动到摄影角度以查看每个指定的物体。我们在各种环境和指令上对我们的方法进行了实证评估,并展示了生成图像序列的质量。
发布时间: 10/10/2024
查看原文
作者: Jerven Bolleman, Vincent Emonet, Adrian Altenhoff, Amos Bairoch, Marie-Claude Blatter, Alan Bridge, Severine Duvaud, Elisabeth Gasteiger, Dmitry Kuznetsov, Sebastien Moretti, Pierre-Andre Michel, Anne Morgat, Marco Pagni, Nicole Redaschi, Monique Zahn-Zabal, Tarcisio Mendes de Farias, Ana Claudia Sima
**背景:**在过去的几十年中,许多生命科学资源使用相同的框架构建数据,并使用相同的查询语言使这些数据可访问,以促进互操作性。知识图谱因其以通用图形格式表示数据的优势,在生物信息学中得到了越来越多的应用。例如,yummydata.org 目录了超过 60 个可通过 SPARQL(一种技术查询语言)访问的知识图谱。虽然 SPARQL 允许跨物理分布的知识图谱进行强大的、表达能力强的查询,但对于大多数用户来说,制定这样的查询仍然是一个挑战。因此,为了指导用户检索相关数据,许多这些资源提供了代表性的示例。如果提供了足够多的示例,并在不同资源之间以通用、机器可读且标准化的格式发布,这些示例也可以成为机器学习的重要信息来源。 **发现:**我们介绍了一个大型的、由人工编写的自然语言问题及其对应 SPARQL 查询的集合,这些查询是在瑞士生物信息学研究所 (SIB) 的多个研究小组中,历经数年收集的,涵盖了多个联合生物信息学知识图谱 (KG)。该集合包含 1000 多个示例问题和查询,其中包括 65 个联合查询。我们提出了一种方法,以基于现有标准,使用最少的元数据来统一表示示例。此外,我们还介绍了一组广泛的开源应用程序,包括查询图可视化和智能查询编辑器,KG维护者可以轻松地重复使用这些应用程序,他们采用了我们提出的方法。 **结论:**我们鼓励社区采用和扩展我们提出的方法,以实现更丰富的 KG 元数据和改进的语义网服务。
发布时间: 10/10/2024
查看原文
作者: Moritz Feuerpfeil, Marco Cipriano, Gerard de Melo
可扩展矢量图形 (SVG) 是网络和设计行业中一种流行的格式。然而,尽管生成式模型取得了巨大进步,但由于 SVG 数据的离散性和复杂性,它仍然没有得到充分探索。我们介绍了 GRIMOIRE,一个文本引导的 SVG 生成模型,它由两个模块组成:一个视觉形状量化器 (VSQ) 学习通过将光栅图像重建为矢量形状来将光栅图像映射到离散代码本,以及一个自回归变换器 (ART) 对形状标记、位置和文本描述的联合概率分布进行建模,使我们能够从自然语言生成矢量图形。与需要从 SVG 数据直接监督的现有模型不同,GRIMOIRE 只使用光栅图像监督来学习形状图像块,这使得矢量生成式建模能够使用更多数据。我们通过在 MNIST 上对封闭填充形状和在图标和字体数据上对轮廓笔划拟合 GRIMOIRE 来证明我们方法的有效性,在生成质量方面超过了以前基于图像监督的方法,并在灵活性方面超越了基于矢量监督的方法。
发布时间: 10/10/2024
查看原文
训练大型深度神经网络需要大量资源。本研究探讨了李雅普诺夫指数是否可以通过帮助选择超参数来加速这一过程。为了研究这一点,我使用隐藏层具有不同激活函数的神经网络制定了一个优化问题。通过用不同的随机种子初始化模型权重,我在对这些模型权重执行传统的梯度下降时计算了李雅普诺夫指数。研究结果表明,学习率的变化会导致模型权重的混沌变化。我还表明,具有更负李雅普诺夫指数的激活函数表现出更好的收敛特性。此外,该研究还表明,李雅普诺夫指数可用于选择深度神经网络的有效初始模型权重,从而潜在地增强优化过程。
发布时间: 10/10/2024
查看原文
作者: Cabrel Teguemne Fokam, Khaleelulla Khan Nazeer, Lukas K\"onig, David Kappel, Anand Subramoney
随着深度学习模型规模的不断扩大,人们迫切需要更有效的替代方案来替代标准误差反向传播算法,以更好地利用异步、并行和分布式计算。反向传播的一个主要缺点是算法的前向阶段(计算全局损失)和后向阶段(将损失反向传播到所有层以计算用于更新网络参数的梯度)之间相互依赖。为了解决这个问题,我们提出了一种方法,通过异步地从多个线程更新模型各层来并行化 SGD 更新。此外,由于我们观察到前向传递通常比后向传递快得多,因此我们使用单独的线程进行前向和后向传递计算,这使得我们可以使用比通常的 1:1 比例更高的前向到后向线程比例,从而减少参数的整体陈旧性。因此,我们的方法使用单独的线程进行损失(前向)和梯度(后向)计算,并以分布式方式对参数进行逐层部分更新,来执行异步随机梯度下降。我们证明了这种方法在运行速度比 Hogwild! 提高高达 2.97 倍(在多个设备上进行局部分区异步并行 SGD 扩展)的同时,可以获得接近最先进的结果。我们使用基于随机微分方程和漂移扩散过程的新理论框架,通过将异步参数更新建模为随机过程,从理论上证明了该算法的收敛性。
发布时间: 10/10/2024
查看原文
作者: Bowen Jin, Jinsung Yoon, Jiawei Han, Sercan O. Arik
检索增强生成(RAG)赋予大型语言模型(LLM)利用外部知识来源的能力。LLM 处理更长输入序列的能力不断提升,为提供更多检索信息开辟了途径,从而有可能提高生成输出的质量。可以合理地假设,更大的检索集将包含更多相关信息(更高的召回率),这可能会导致性能提升。然而,我们的实证结果表明,对于许多长上下文 LLM 而言,生成输出的质量最初会先提高,但随后会随着检索段落的数量增加而下降。本文对这种现象进行了研究,确定了检索到的“硬负样本”的有害影响是造成这种情况的关键因素。为了减轻这种影响并增强基于长上下文 LLM 的 RAG 的鲁棒性,我们提出了无训练和基于训练的方法。我们首先展示了检索重排序作为一种简单而强大的无训练优化方法的有效性。此外,我们探索了基于训练的方法,特别是 RAG 特定的隐式 LLM 微调和面向 RAG 的带有中间推理的微调,证明了它们在显著提高性能方面的能力。最后,我们对这些基于训练方法的设计选择进行了系统分析,包括数据分布、检索器选择和训练上下文长度。
发布时间: 10/10/2024
查看原文
作者: Xudong Xie, Liang Yin, Hao Yan, Yang Liu, Jing Ding, Minghui Liao, Yuliang Liu, Wei Chen, Xiang Bai
文档理解是一项具有挑战性的任务,需要处理和理解大量的文本和视觉信息。近年来,大型语言模型(LLM)的进展显著提高了这项任务的性能。然而,现有的方法通常只关注纯文本或有限数量的文档图像,难以处理包含交织文本和图像的长篇 PDF 文档,尤其是在学术论文中。在本文中,我们介绍了 PDF-WuKong,这是一种多模态大型语言模型(MLLM),旨在增强长篇 PDF 文档的多模态问答(QA)。PDF-WuKong 结合了一个稀疏采样器,它对文本和图像表示进行操作,显著提高了 MLLM 的效率和能力。稀疏采样器与 MLLM 的图像编码器集成,并选择与用户查询最相关的段落或图表供语言模型处理。为了有效地训练和评估我们的模型,我们构建了 PaperPDF 数据集,该数据集包含来自 arXiv 的大量学术论文,并提出了多种策略来自动生成 100 万个 QA 对及其对应的证据来源。实验结果表明,在长篇多模态 PDF 理解任务中,我们的方法优于其他模型,并在 F1 上比专有产品平均高出 8.6%。我们的代码和数据集将在 https://github.com/yh-hust/PDF-Wukong 发布。
发布时间: 10/10/2024
查看原文
作者: Tao Ren, Zishi Zhang, Jinyang Jiang, Guanghao Li, Zeliang Zhang, Mingqian Feng, Yijie Peng
由于反向传播的局限性,基于扰动的梯度计算方法近年来得到了关注,这种方法仅需正向传播,也称为查询。传统的正向学习在每个数据点上消耗大量的查询来通过蒙特卡罗采样进行精确的梯度估计,这阻碍了这些算法的可扩展性。然而,并非所有数据点都值得进行等量的查询来进行梯度估计。本文从一个新颖的角度研究了提高正向学习效率的问题:如何在最小成本下降低梯度估计方差?为此,我们提出在训练过程中为每个批次中的每个数据分配最佳的查询数量,以在估计精度和计算效率之间取得良好的平衡。具体来说,通过简化的代理目标和重新参数化技术,我们推导出了一种具有最少参数的新型即插即用查询分配器。理论结果验证了其最优性。我们对在各种数据集上微调视觉Transformer进行了广泛的实验,并将分配器进一步部署到两个黑盒应用中:基础模型的提示调优和多模态对齐。所有结果表明,我们提出的分配器显着提高了正向学习算法的可扩展性,为实际应用铺平了道路。
发布时间: 10/10/2024
查看原文
音频-视觉说话人跟踪旨在利用多传感器平台捕获的信号来确定场景中人类目标的位置,其准确性和鲁棒性可以通过多模态融合方法得到提升。近年来,一些融合方法被提出以模拟多种模态之间的相关性。然而,对于说话人跟踪问题,音频和视觉信号之间的跨模态交互尚未得到充分利用。为此,我们在这项工作中提出了一种具有深度音频-视觉融合模型的新型说话人跟踪网络(STNet)。我们设计了一种视觉引导的声学测量方法,以在统一的定位空间中融合异构线索,该方法利用相机模型的视觉观察来构建增强的声学地图。对于特征融合,采用跨模态注意力模块来联合建模多模态上下文和交互。音频和视觉特征之间的相关信息在融合模型中进一步交互。此外,基于 STNet 的跟踪器通过一个质量感知模块应用于多说话人情况,该模块评估多模态观察的可信度,以在复杂场景中实现鲁棒跟踪。在 AV16.3 和 CAV3D 数据集上的实验表明,所提出的基于 STNet 的跟踪器优于单模态方法和最先进的音频-视觉说话人跟踪器。
发布时间: 10/10/2024
查看原文
作者: Yifei Xing, Xiangyuan Lan, Ruiping Wang, Dongmei Jiang, Wenjun Huang, Qingfang Zheng, Yaowei Wang
基于Mamba的架构因其出色的性能和亚二次部署速度,已成为深度学习模型的一个很有前景的新方向。然而,现有的Mamba多模态大型语言模型(MLLM)在提取视觉特征方面存在不足,导致视觉和文本潜变量之间的跨模态对齐不平衡,从而对多模态任务的性能产生负面影响。在这项工作中,我们提出了赋能结构和层次对齐的多模态Mamba(EMMA),它使MLLM能够提取细粒度的视觉信息。具体来说,我们提出了一个像素级对齐模块,以自回归的方式优化空间图像级特征以及文本标记的学习和处理,从而实现图像级的结构对齐。此外,为了防止跨模型对齐过程中视觉信息的退化,我们提出了一个多尺度特征融合(MFF)模块,将来自中间层的多种尺度视觉特征进行组合,从而实现特征级的层次对齐。我们在各种多模态基准上进行了广泛的实验。我们的模型比其他基于Mamba的MLLM具有更低的延迟,并且在推理过程中比类似规模的基于Transformer的MLLM快近四倍。由于更好的跨模态对齐,我们的模型表现出更低的幻觉程度和对视觉细节的增强敏感性,这在各种多模态基准上表现出优越的性能。代码将提供。
发布时间: 10/10/2024
查看原文