LLM2D

arXiv 论文列表

作者: Dongliang Zhou, Haijun Zhang, Kai Yang, Linlin Liu, Han Yan, Xiaofei Xu, Zhao Zhang, Shuicheng Yan
arXiv:2502.06827v1 交叉类型 摘要:近年来,时尚兼容性学习领域吸引了学术界和工业界的极大关注。许多研究致力于时尚兼容性预测、搭配服装推荐、基于人工智能(AI)的兼容性服装设计及相关主题的研究。特别是,基于AI的兼容性服装设计可以通过合成兼容的服装项或搭配来提高设计师的设计体验或提高推荐的效力。然而,以往用于搭配服装合成的生成模型大多集中在上下装服装项目的图像到图像转换上。在本文中,我们提出了一种新颖的服装生成框架——OutfitGAN,旨在在给定一件现有的时尚单品和目标合成单品的参考遮罩的情况下,合成一系列互补单品以组成完整的搭配。OutfitGAN 包含一个语义对齐模块,该模块负责描述现有时尚单品与合成单品之间的映射对应关系,以提高合成图像的质量;以及一个搭配分类模块,用于提高合成搭配的兼容性。为了评估我们提出的模型的性能,我们构建了一个包含20,000套时尚搭配的大规模数据集。在该数据集上的大量实验结果表明,我们的OutfitGAN能够生成逼真的搭配,并在相似性、真实性和兼容性测量方面优于现有最先进的方法。
发布时间: 2/12/2025
查看原文
作者: Maximilian F. Theisen, Gabrie M. H. Meesters, Artur M. Schweidtmann
arXiv:2502.06826v1 宣告类型:交叉 摘要:数据驱动的软传感器通过实时估计通常难以测量的过程参数(例如粘度或产品浓度)来帮助过程操作。目前,软传感器需要为每个工厂分别开发。利用迁移学习,基于机器学习的软传感器可以在不同工厂和应用中重用并微调。然而,在实践中,转移数据驱动的软传感器模型通常是不可行的,因为标准软传感器模型固定输入结构禁止了在传感器信息在所有工厂不一致时的转移。我们提出了一种感知拓扑的图神经网络方法,用于跨多个工厂转移软传感器模型。在我们的方法中,工厂被建模为图:单元操作是节点,流是边,传感器嵌入为属性。我们的方法在迁移学习方面带来了两大优势:首先,我们不仅包括传感器数据,还包含关于工厂拓扑的关键信息。其次,图神经网络算法在传感器输入方面具有灵活性。这使得我们可以用不同的传感器网络建模来自不同工厂的数据。我们在具有不同过程拓扑的氨合成循环中测试了我们建模方法的迁移学习能力。我们构建了一个预测产品中氨浓度的软传感器。在对一个过程的数据进行训练后,我们成功地将软传感器模型转移到了一个以前未见过的不同拓扑的过程。我们的方法有望将数据驱动的软传感器扩展到利用多个工厂的数据的案例中。
发布时间: 2/12/2025
查看原文
作者: Simbarashe Aldrin Ngorima, Albert Helberg, Marelie H. Davel
arXiv:2502.06824v1 交叉类型: cross 摘要: 车载通信系统由于高移动性和快速变化的环境,面临巨大挑战,这会影响信号传播的信道。为了应对这些挑战,已经建议使用基于神经网络(NN)的信道估计算法。这些方法主要是在高信噪比(SNR)条件下进行训练,假设在较低噪声条件下训练神经网络可以实现良好的泛化。本研究探讨了使用混合SNR数据集训练基于NN的信道估计器与仅使用高SNR数据集训练相比的效果,正如在许多相关工作中所见。本研究中评估的估计算法包括一种使用卷积层和自注意力机制的架构;一种使用时序卷积网络和数据导引帮助估计的方法;两种结合经典方法和多层感知器的方法;以及当前最先进的模型,该模型结合了长短期记忆网络、数据导引辅助和时间平均方法作为后处理。我们的结果显示,仅使用高SNR数据进行训练并不总是最优的选择,训练数据集中的SNR范围应该被视为一个可以通过调整以获得更好性能的超参数。这通过在混合SNR数据集上训练时某些模型在低SNR条件下的更好表现得到了说明,而这些模型相对于仅在高SNR数据上进行训练时表现更佳。
发布时间: 2/12/2025
查看原文
作者: Zhekai Du, Yinjie Min, Jingjing Li, Ke Lu, Changliang Zou, Liuhua Peng, Tingjin Chu, Mingming Gong
arXiv:2502.06820v1 宣告类型: cross 摘要: 低秩适应(LoRA)已成为将预训练的大型语言模型适应下游任务的一种流行方法。然而,简单的低秩分解形式可能会限制假设空间。为了解决这一局限性,我们引入了基于逆离散余弦变换(iDCT)和可选择的学习组件位置的频率域参数高效微调方法,名为位置感知余弦适应(LoCA)。我们首先对预训练大型模型的频率域和低秩分解在微调中的理论差异进行了全面比较。我们的分析表明,通过仔细选择频率成分进行频率域近似,可以超越基于传统的低秩方法的表达能力。此外,我们证明iDCT相比于逆离散傅里叶变换(iDFT)提供了更高效的实现方式,可以在保持与最优基于iDFT的适应相当的表达能力的同时,更好地选择和调整频率成分。通过在DCT频谱上的可学习系数的离散位置估计梯度,LoCA在训练过程中动态选择最有信息量的频率成分。在各种语言和视觉微调任务上的实验表明,LoCA在保持与基于低秩方法相当的计算可行性的同时,提供了增强的参数效率。
发布时间: 2/12/2025
查看原文
作者: Zhengyuan Shi, Chengyu Ma, Ziyang Zheng, Lingfeng Zhou, Hongyang Pan, Wentao Jiang, Fan Yang, Xiaoyan Yang, Zhufei Chu, Qiang Xu
arXiv:2502.06816v1 类别: cross 摘要: 用于后映射(PM)网表的表示学习是电子设计自动化(EDA)中的一个关键挑战,受到现代电路设计多样化和复杂性的驱动。现有方法专注于中间表示,如与门逆图(AIGs),这限制了它们在后综合阶段的应用。我们提出了DeepCell,这是一种多视图表示学习框架,它将PM网表和AIGs的结构性和功能性见解结合在一起,学习丰富的、可泛化的嵌入。其核心在于DeepCell采用了一种新颖的掩码电路建模(MCM)机制,该机制使用预训练的AIG编码器以自监督的方式细化PM网表的表示。DeepCell在PM网表表示上设置了一个新的基准,在预测准确性和重构保真度方面超越了现有方法。为了验证其有效性,我们在功能性的工程变更指令(ECO)中应用了DeepCell,显著降低了补丁生成的成本和运行时间,同时提高了补丁的质量。
发布时间: 2/12/2025
查看原文
作者: Chen Jin, Ryutaro Tanno, Amrutha Saseendran, Tom Diethe, Philip Teare
arXiv:2502.06814v1 类型: cross 摘要: 我们介绍了一种简单的监督微调(SFT)方法Lavender,该方法通过利用先进的图像生成模型(如Stable Diffusion)来增强高级视觉语言模型(VLM)的性能。具体来说,Lavender在SFT期间将VLM变压器中的文本-视觉注意力与Stable Diffusion中使用的等效注意力对齐,而不是对独立的编码器进行适应。这种对齐丰富了模型的视觉理解,显著提升了分布内外任务的性能。Lavender只需要0.13百万个训练样本,相当于典型大规模SFT数据集的2.5%,在标准硬件(8个GPU)上一天内即可完成微调。它始终可以提高最先进的开源多模态LLM(例如Llama-3.2-11B,MiniCPM-Llama3-v2.5)的表现,实现高达30%的提升,并在具有挑战性的分布外医学问答任务上实现68%的提升。通过省去大量监督即可高效地将图像生成器的视觉专长转移过来,Lavender提供了一种可扩展的解决方案,以实现更准确的视觉语言系统。所有代码、训练数据和模型都将共享在https://astrazeneca.github.io/vlm/。
发布时间: 2/12/2025
查看原文
arXiv:2502.06813v1 类别: cross 摘要:尽管大型语言模型在许多任务上表现出色,但在需要复杂推理和规划的任务上往往表现不佳。现有的方法,如思维链提示和树搜索技术,尽管显示出前景,但受限于它们对预定义启发式方法和计算成本高昂的探索策略的依赖。我们提出了一种策略导向的树搜索(PGTS)框架,该框架将强化学习与结构化的树探索相结合,以高效地导航推理路径。我们的关键创新在于一个学习得到的策略,该策略动态决定扩展、分枝、回溯或终止探索,从而消除了手动启发式方法或穷举搜索的需要。在数学推理、逻辑推理和规划基准测试中的实验表明,PGTS在推理性能上取得了优越的表现,并且相比现有方法显著降低了计算成本。这些结果确立了PGTS作为使用大规模语言模型解决复杂推理任务的一种可扩展且有效的解决方案。
发布时间: 2/12/2025
查看原文
作者: Avihay Chriqui, Inbal Yahav, Dov Teeni, Ahmed Abbasi
arXiv:2502.06811v1 交叉发布类型: cross 摘要:注意,或者在其他信息项之间优先选择某些信息项,是任何学习过程中的关键要素,无论是对人类还是机器。鉴于人类在某些学习任务上仍优于机器,通过使机器的注意机制与人类的注意机制相匹配来增强机器性能似乎是合情合理的——然而,关于这一主题的研究很少且效果有限。本文提出了一种新的方法来解决这一差距,名为人类-机器注意学习(HuMAL)。该方法依赖于由人类标注的数据,以反映他们在特定任务中自我感知的注意力。我们使用 Yelp 上的评论数据进行情感分析任务和 myPersonality 上的数据进行人格类型分类任务,评估了几种将此类人类注意力数据集成到机器学习(ML)算法中的替代策略。最佳的 HuMAL 策略显著提高了微调变压器模型(BERT、GPT-2 和 XLNET)的任务性能,特别是在不平衡或稀疏标签数据的挑战性条件下,优势尤为显著。这项研究促进了将人类注意力整合到 ML 模型中的策略的理解,并突显了利用人类认知来增强现实世界应用中 ML 的潜力。
发布时间: 2/12/2025
查看原文
arXiv:2502.06810v1 交叉公告类型 摘要:本文提出了一种 minimalist 三层模型,用于人工意识,重点在于自我意识的涌现。该模型包含认知整合层、模式预测层和本能响应层,并与访问导向和模式整合的内存系统相互作用。与大脑复制方法不同,我们旨在仅通过基本要素实现最小的自我意识。自我意识来源于层间的交互和动态自我建模,而无需初始的明确自我编程。我们详细描述了每个组件的结构、功能和实现策略,探讨了技术可行性。该研究为人工系统中意识涌现提供了新的视角,可能对人类意识的理解和适应型人工智能的发展产生影响。最后,我们讨论了伦理考虑和未来的研究方向。
发布时间: 2/12/2025
查看原文
作者: Muhammad Umair Haider, Hammad Rizwan, Hassan Sajjad, Peizhong Ju, A. B. Siddique
arXiv:2502.06809v1 宣告类型: cross 摘要:解释和控制大型语言模型(LLMs)的内部机制对于提高其可信度和实用性至关重要。近年来,努力主要集中在通过建立神经元和语义概念之间的离散映射来识别和操作神经元上。然而,这种映射难以处理LLMs中存在的固有的多义性,其中单个神经元编码多个不同的概念。这使得精确控制变得棘手,并且使下游干预复杂化。通过对多个文本分类数据集中的编码器和解码器基大型语言模型进行深入分析,我们发现虽然单个神经元编码多个概念,但它们在概念之间的激活程度以独特的、类似高斯的模式变化。基于这一洞见,我们引入了NeuronLens,这是一种新型的范围基解释与操作框架,可以提供神经元激活分布的更精细视图,以在神经元内部定位概念归因。广泛的实证评估表明,NeuronLens大幅减少了无意中的干扰,同时保持了对目标概念进行精确操作的能力,优于现有方法。
发布时间: 2/12/2025
查看原文