arXiv 论文列表

阿拉伯语-Nougat：用于阿拉伯语光学字符识别和Markdown提取的视觉Transformer微调

作者: Mohamed Rashad

我们提出了Arabic-Nougat，一套用于将阿拉伯语书籍页面转换为结构化Markdown文本的光学字符识别（OCR）模型。基于Meta的Nougat架构，Arabic-Nougat包含三个专用模型：arabic-small-nougat、arabic-base-nougat和arabic-large-nougat。这些模型在一个合成数据集arabic-img2md上进行了微调，该数据集包含13700对阿拉伯语书籍页面及其Markdown表示。主要贡献包括专为高效分词而设计的Aranizer-PBE-86k分词器，以及使用torch.bfloat16精度和Flash Attention 2进行优化训练和推理。我们的模型达到了最先进的性能，其中arabic-large-nougat实现了最高的Markdown结构准确率和最低的字符错误率。此外，我们发布了一个大型数据集，其中包含使用我们性能最佳的模型从8500多本书中提取的11亿个阿拉伯语标记，为阿拉伯语OCR研究提供了宝贵的资源。所有模型、数据集和代码都是开源的，可在https://github.com/MohamedAliRashad/arabic-nougat获取。

发布时间: 11/28/2024

查看原文

SVGDreamer++：提升文本引导SVG生成的可编辑性和多样性

作者: Ximing Xing, Qian Yu, Chuang Wang, Haitao Zhou, Jing Zhang, Dong Xu

近期，文本引导的可缩放矢量图形 (SVG) 合成在图标设计和素描等领域展现出巨大的潜力。然而，现有文本转SVG方法生成的SVG往往缺乏可编辑性，并在视觉质量和多样性方面存在不足。本文提出一种新颖的文本引导矢量图形合成方法来解决这些局限性。为了提高输出SVG的多样性，我们提出了一种基于矢量粒子的分数蒸馏 (VPSD) 方法。VPSD 解决了现有方法中过度饱和的问题，并增强了样本多样性。通过加入预训练的奖励模型来重新加权矢量粒子，从而提高了美感并加快了收敛速度。此外，我们设计了一种新颖的自适应矢量基元控制策略，允许动态调整基元的数量，从而增强图形细节的呈现。大量的实验验证了该方法的有效性，证明其在可编辑性、视觉质量和多样性方面优于基线方法。我们还展示了我们的新方法支持多达六种不同的矢量样式，能够生成适用于风格化矢量设计和海报设计的高质量矢量素材。

发布时间: 11/28/2024

查看原文

STAR：定制化架构的合成

作者: Armin W. Thomas, Rom Parnichkun, Alexander Amini, Stefano Massaroli, Michael Poli

模型架构的迭代改进是深度学习的基础：Transformer 最初实现了模型的扩展，而最近在模型混合方面的进展推动了质量效率的界限。然而，优化架构仍然具有挑战性且成本高昂。当前的自动化或手动方法都存在不足，这主要是因为搜索空间设计方面的进展有限，以及由此产生的模式和启发式方法过于简单。在这项工作中，我们提出了一种新的定制架构合成方法 (STAR)。我们的方法结合了一种基于线性变输入系统理论的新型搜索空间，支持将分层数值编码为架构基因组。STAR 基因组通过无梯度进化算法自动优化和重组，以优化多个模型质量和效率指标。利用 STAR，我们优化了大量新架构，利用了不同的计算单元和互连模式，在自回归语言建模的质量、参数大小和推理缓存方面，优于高度优化的 Transformer 和条纹混合模型。

发布时间: 11/28/2024

查看原文

DapPep：用于泛T细胞受体-抗原结合亲和力预测的领域自适应肽无关学习

作者: Jiangbin Zheng, Qianhui Xu, Ruichen Xia, Stan Z. Li

识别与抗原肽相互作用的T细胞受体(TCR)为疫苗和免疫疗法的开发提供了技术基础。新兴的深度学习方法擅长从已知的TCR中学习抗原结合模式，但在处理新的或稀疏表示的抗原时却难以奏效。然而，针对未见抗原或外源肽的结合特异性至关重要。我们引入了一种领域自适应的肽不可知学习框架DapPep，用于通用TCR-抗原结合亲和力预测，以应对这一挑战。轻量级的自注意力架构将预训练的蛋白质语言模型与内部循环自监督机制相结合，从而实现稳健的TCR-肽表征。在各种基准上的大量实验表明，DapPep始终优于现有工具，展现出强大的泛化能力，尤其是在数据稀缺的环境和未见肽方面。此外，DapPep在具有挑战性的临床任务中也证明了其有效性，例如在肿瘤新抗原疗法中对反应性T细胞进行分选以及识别3D结构中的关键位置。

发布时间: 11/28/2024

查看原文

泛蛋白质设计学习赋能低资源酶设计中的任务自适应泛化

作者: Jiangbin Zheng, Ge Wang, Han Zhang, Stan Z. Li

计算蛋白质设计（CPD）为生物工程带来了变革性的潜力，但当前专注于通用结构域的深度CPD模型在特定功能的设计方面举步维艰。这项工作引入了一种针对功能设计任务的新型CPD范式，特别是针对酶——一种经常缺乏特定应用效率的关键蛋白质类别。为了解决结构数据稀缺的问题，我们提出了CrossDesign，一个利用预训练蛋白质语言模型（PPLM）的领域自适应框架。通过将蛋白质结构与序列对齐，CrossDesign将预训练知识转移到结构模型，克服了结构数据有限的局限性。该框架在其编码器-解码器架构中结合了自回归（AR）和非自回归（NAR）状态，并将其应用于酶数据集和全蛋白质。实验结果突出了CrossDesign优越的性能和鲁棒性，尤其是在处理域外酶时。此外，该模型在针对大规模突变数据进行测试时的适应性预测表现出色，展现了其稳定性。

发布时间: 11/28/2024

查看原文

人工智能法官系统工程

作者: Jiahuei Lin (Justina), Dayi Lin, Sky Zhang, Ahmed E. Hassan

AI评判系统旨在自动评估基于基础模型的软件（即FMware）。由于FMware固有的动态性和随机性，AI评判系统开发需要独特的工程生命周期，并带来新的挑战。本文基于我们在开发FMware AI评判系统的工业经验，讨论了这些挑战。这些挑战导致了大量的耗时、成本和不准确的判断。我们提出一个框架来应对这些挑战，目标是提高高质量AI评判系统开发的效率。最后，我们通过一个关于评判提交信息生成FMware的案例研究来评估我们的框架。使用我们框架开发的AI评判系统做出的判断准确率比未采用我们框架开发的AI评判系统高出6.2%，并且显著减少了开发工作量。

发布时间: 11/28/2024

查看原文

$H^3$融合：高效、安全、可靠的预训练大语言模型融合

作者: Selim Furkan Tekin, Fatih Ilhan, Tiansheng Huang, Sihao Hu, Zachary Yahn, Ling Liu

基于指令的数据集对预训练大型语言模型 (LLM) 的对齐至关重要，这对于创建反映人类偏好的微调模型至关重要。最近涌现出越来越多的基于对齐的微调算法和基准，推动了对预训练LLM有效对齐的努力，以确保开源和闭源LLM都能给出有用、无害和诚实的答案。本文通过开发一种名为 $H^3$Fusion 的对齐融合方法来解决这个问题，该方法具有三个独特的特点。首先，$H^3$Fusion 整合多个单独对齐的LLM，以创建一个最终的微调对齐模型，其能力超越单个模型，通过促进有用、无害、诚实的融合来实现强大的对齐。其次，$H^3$Fusion 分两步利用专家混合 (MoE) 方法。我们首先在对齐融合过程中冻结每个单独模型的多头注意力权重，同时调整 FFN 层。然后，我们根据输入指令的类型将对齐的模型权重与专家路由器合并，并动态选择最适合生成输出响应的专家子集。最后，我们通过引入门控损失和正则化项来提高生成的 $H^3$Fusion 模型的性能。前者惩罚专家路由器的选择错误，后者在微调过程中调节专家权重的漂移，并通过引导专家上的激活来动态调整生成的模型的融合行为。在三个基准数据集上的大量评估表明，从两个方面来看，$H^3$Fusion 更有用、危害更小且更诚实：它比每个单独对齐的模型提高了 11.37%，并且与最先进的LLM集成方法相比，它提供了更强的鲁棒性，提高了 13.77%。代码可在 github.com/sftekin/h3fusion 获取。

发布时间: 11/28/2024

查看原文

基于生成性潜在先验的自监督单目内窥镜深度和姿态估计

作者: Ziang Xu, Bin Li, Yang Hu, Chenyu Zhang, James East, Sharib Ali, Jens Rittscher

精确的内窥镜三维建图能够对胃肠道内的病灶进行定量、全面的特征描述，这需要可靠的深度和位姿估计。然而，内窥镜系统是单目系统，现有的依赖于合成数据集或复杂模型的方法往往缺乏在具有挑战性的内窥镜条件下的泛化能力。我们提出了一种鲁棒的自我监督单目深度和位姿估计框架，该框架结合了生成性潜在库和变分自动编码器（VAE）。生成性潜在库利用来自自然图像的大量深度场景来调节深度网络，通过潜在特征先验增强深度预测的真实性和鲁棒性。对于位姿估计，我们将其重新表述为一个VAE框架，将位姿转换视为潜在变量，以规范化尺度、稳定z轴突出性和提高x-y轴灵敏度。这种双重细化流程能够实现精确的深度和位姿预测，有效地解决了胃肠道的复杂纹理和光照问题。在SimCol和EndoSLAM数据集上的大量评估证实了我们的框架在内窥镜深度和位姿估计方面优于已发表的自我监督方法。

发布时间: 11/28/2024

查看原文

用于三维形状重组的几何点注意力Transformer

作者: Jiahan Li, Chaoran Cheng, Jianzhu Ma, Ge Liu

形状组装，其目标是将分离的部件重新组装成完整的物体，近年来受到了广泛关注。现有方法主要依赖于网络来预测各个部件的姿态，但往往无法有效捕捉部件之间及其姿态的几何相互作用。本文提出了一种名为几何点注意力变换器（GPAT）的网络，专门用于解决几何关系推理的挑战。在几何点注意力模块中，我们整合了全局形状信息和局部成对几何特征，以及表示为每个部件的旋转和平移向量的姿态。为了实现迭代更新和动态推理，我们引入了一种几何循环方案，其中每个预测都被送入下一轮迭代进行细化。我们在语义和几何组装任务上对我们的模型进行了评估，结果表明，它在绝对姿态估计方面优于以往的方法，实现了精确的姿态预测和较高的对齐精度。

发布时间: 11/28/2024

查看原文

DreamCache：基于特征缓存的免微调轻量级个性化图像生成

作者: Emanuele Aiello, Umberto Michieli, Diego Valsesia, Mete Ozay, Enrico Magli

个性化图像生成需要能够捕捉参考对象核心特征的文本到图像生成模型，以便在不同的语境下进行可控生成。现有的方法面临着训练要求复杂、推理成本高、灵活性有限或这些问题的组合等挑战。本文介绍了 DreamCache，这是一种用于高效高质量个性化图像生成的可扩展方法。通过缓存预训练扩散去噪器子集层和单个时间步长的少量参考图像特征，DreamCache 能够通过轻量级的训练调节适配器动态调节生成的图像特征。DreamCache 达到了最先进的图像和文本对齐效果，使用的额外参数数量减少了一个数量级，并且比现有模型更有效率和更通用。

发布时间: 11/28/2024

查看原文