LLM2D

arXiv 论文列表

作者: Ming Yuan, Sichao Wang, Chuang Zhang, Lei He, Qing Xu, Jianqiang Wang
arXiv:2503.23993v1 交叉公告类型:深度填充 摘要:深度完成任务是自主驾驶中的一个关键问题,涉及从稀疏深度图和RGB图像生成密集深度图。现有的大多数方法在获得初始密集深度图后,使用空间传播网络逐迭代地细化深度图。在本文中,我们提出了DenseFormer,这是一种新颖的方法,将扩散模型集成到深度完成任务中。通过引入扩散模型的去噪机制,DenseFormer通过多次迭代逐级细化初始随机深度分布,生成密集深度图。我们提出了一种特征提取模块,利用特征金字塔结构和多层可变形注意力机制,有效地从稀疏深度图和RGB图像中提取和整合特征,这些特征作为扩散过程的引导条件。此外,本文还提出了一种深度细化模块,该模块对由扩散过程生成的密集深度结果进行多步迭代细化,利用多尺度信息丰富的图像特征和稀疏深度输入,进一步提高预测深度图的准确性。在KITTI室外场景数据集上的广泛实验表明,DenseFormer优于经典的深度完成方法。
发布时间: 4/1/2025
查看原文
作者: Aditya Pathak, Rachit Gandhi, Vaibhav Uttam, Devansh, Yashwanth Nakka, Aaryan Raj Jindal, Pratyush Ghosh, Arnav Ramamoorthy, Shreyash Verma, Aditya Mittal, Aashna Ased, Chirag Khatri, Jagat Sesh Challa, Dhruv Kumar
arXiv:2503.23989v1 宣布类型: 交叉 摘要:自 GPT-3 和 ChatGPT 的发布造成大型语言模型(LLM)技术的中断以来,LLM 在编程相关任务中展现了显著的潜力。尽管代码生成仍然是一个热门的研究领域,但使用 LLM 进行代码评估仍然没有一个明确的解决方案。在本文中,我们专注于基于 LLM 的代码评估,并试图填补现有的空白。我们提出了多智能体的全新方法,使用针对问题陈述的特定问题评分表,认为这些方法在逻辑评估方面优于现有使用通用问题评分表的方法。为了解决缺乏合适的评估数据集的问题,我们引入了两个数据集:一个包含来自热门数据结构和算法实践网站的 150 份学生提交的数据结构和算法数据集,以及一个对象导向编程数据集,该数据集包含来自本科计算机科学课程的 80 份学生提交。除了使用标准的评估指标(Spearman 相关系数,科恩 Kappa),我们还提出了一种新的指标称为宽容度(Leniency),该指标量化了评估标准相对于专家评估的严格程度。我们全面的分析表明,特定问题的评分表在教育环境中显著增强了代码的逻辑评估,提供了更符合教学目标的反馈,而不仅仅是语法正确性。
发布时间: 4/1/2025
查看原文
作者: Elayne Lemos, Rodrigo Oliveira, Jairson Rodrigues, Rosalvo F. Oliveira Neto
arXiv:2503.23988v1 类别: cross 摘要:科技公司在云中部署机器学习模型的数量持续增长。当这些模型涉及深度学习(DL)技术时,硬件要求更高,云提供商的成本可能成为障碍。我们通过在三大主要云平台(AWS、Google Cloud、Azure)上使用GECToR模型(一种用于语法错误修正的DL解决方案)进行实验,探索了部署DL模型的方法。我们通过7种执行环境进行了10次实验,评估了每个云提供商的实时延迟、硬件使用和成本。我们发现,虽然GPU在性能上表现出色,但平均成本比无GPU解决方案高300%。我们的分析还表明,处理器缓存大小对于实现成本效益的CPU部署至关重要,与GPU相比,可以实现超过50%的成本降低。本研究展示了在不使用GPU的情况下,基于云的DL推理解决方案的可行性和经济性,这将惠及资源受限的用户,如初创公司。
发布时间: 4/1/2025
查看原文
作者: Mike Winer, Boris Hanin
arXiv:2503.23982v1 声明类型:交叉 摘要:神经网络是其输入和参数的复杂函数。深度学习理论的许多先前工作分析了在网络参数随机初始化的情况下固定输入集(例如,训练数据集)的网络输出的分布。本文的目的与此相反:我们将随机初始化的多层感知器(MLP)视为其输入上的哈密顿量。对于典型的网络参数实现,我们研究由该哈密顿量诱导的能量景观的性质,重点是无限宽度极限下的近全局最小值的结构。具体地,我们使用复制技巧进行精确的解析计算,给出给定能量下的熵(空间体积的对数)。我们还推导出了描述从由随机MLP诱导的吉布斯分布抽样独立同分布输入之间的重叠的鞍点方程。对于线性激活函数,我们精确地解出了这些鞍点方程。但我们还通过对各种深度和激活函数(包括tanh、sin、ReLU以及形状非线性)的鞍点方程进行数值求解,来研究这些MLP的能量景观。我们发现,即使在无限宽度下,这些能量景观也表现出丰富的行为。例如,对于sin这种非线性函数,我们发现随机MLP的能量景观表现出完整的复制对称破坏,而浅层的tanh和ReLU网络或深层的形状MLP则是复制对称的。
发布时间: 4/1/2025
查看原文
作者: Jes\'us Garc\'ia Fern\'andez, Nasir Ahmad, Marcel van Gerven
arXiv:2503.23972v1 宣布类型: cross 摘要:近期强化学习(RL)的进步在任务性能方面取得了显著的改进。然而,在RL框架中训练神经网络通常需要结合反向传播,这限制了它们在资源受限环境中的应用或在使用非可微神经网络时的应用。虽然像奖励调制突触学习(RMHL)这样的基于噪声的替代方法已经被提出,但它们的性能仍然有限,特别是在需要随时间进行回顾性信用分配的延迟奖励场景中。在这里,我们推导出一种新的基于噪声的学习规则,以解决这些挑战。我们的方法结合了方向导数理论和类似Hebbian的更新,以在RL中实现高效、无梯度的学习。它使用了具有噪声的随机神经元,这些神经元可以近似梯度,并且通过全局奖励信号产生局部突触更新。借鉴神经科学的概念,我们的方法使用奖励预测误差作为优化目标,以生成更有利的行为,并引入了一个资格迹来在延迟奖励环境中促进时间信用分配。其表达式仅依赖局部信息,使其兼容于使用类神经形态硬件的实现。实验验证表明,我们的方法在RMHL上表现显著优于之,并且在基于反向传播的基线方法中具有竞争力,突显了基于噪声、生物启发式学习在低功耗和实时应用中的潜力。
发布时间: 4/1/2025
查看原文
arXiv:2503.23956v1 类型: cross 摘要: 近年来,在大规模视觉语言模型(LVLMs)方面的最新进展引起了广泛关注,这主要是因为它们在推理方面表现出色,通用化能力也很强。然而,处理大量的视觉令牌和生成长上下文输出会导致巨大的计算开销,从而对关键值(KV)缓存产生巨大的需求。为了解决这一关键瓶颈,我们提出了AirCache,一种新的KV缓存压缩方法,旨在加速LVLMs推理。本研究系统性地探讨了LVLMs注意力机制中视觉令牌和文本令牌之间的相关性。我们的实证分析揭示了缓存中视觉令牌中存在的大量冗余,在这些令牌被战略性地消除时,可以保持模型性能的同时显著加速上下文生成。受这些发现的启发,我们引入了一个精英观察窗,用于评估KV缓存中视觉组件的重要性,着重于稳定跨模态相关性建模,并增强多视角一致性。此外,我们还开发了一种适应性的按层预算分配策略,利用令牌重要性分布的强度和偏斜,与均匀分配相比展现了更优的效率。在多个LVLMs和基准测试上的全面评估表明,我们的方法在仅保留视觉KV缓存的10%的情况下,可以达到与完整缓存相当的性能,从而在不同批次大小和输入提示长度的情况下降低了29%到66%的解码延迟。值得注意的是,随着缓存保留率的下降,我们的方法相比现有方法显示出越来越大的性能优势。
发布时间: 4/1/2025
查看原文
作者: Adri\'an S\'anchez-Momp\'o, Ioannis Mavromatis, Peizheng Li, Konstantinos Katsaros, Aftab Khan
arXiv:2503.23934v1 宣告类型:交叉 摘要:本研究对现实世界 MLOps 管道中辨别性 AI 和生成性 AI 模型的能耗进行了实证探讨。对于辨别性模型,我们研究了训练和推理中各种架构和超参数,并识别出能效最佳的实践方法。对于生成性 AI,主要评估了大型语言模型 (LLMs) 在不同模型规模和服务请求变化下的能耗情况。本研究采用基于软件的能耗测量,以确保在多种配置、模型和数据集上都能轻松复现。我们分析了多个模型和硬件配置,以发现各种指标之间的关联,识别出对能耗有显著影响的关键因素。结果表明,对于辨别性模型,优化架构、超参数和硬件可以显著降低能耗,同时不影响性能。对于 LLMs,能耗效率取决于模型大小、推理复杂度和请求处理能力之间的平衡,因为即使在利用率较低时,较大模型也不一定消耗更多能量。此分析为设计绿色和可持续的 ML 操作提供了实用指南,强调在保持性能的前提下减少能耗和碳足迹。本文可作为准确估算不同类型 AI 模型总能耗的标准。
发布时间: 4/1/2025
查看原文
作者: Zhichao Liao, Xiaokun Liu, Wenyu Qin, Qingyu Li, Qiulin Wang, Pengfei Wan, Di Zhang, Long Zeng, Pingfa Feng
arXiv:2503.23907v1 交叉公告类型:cross 摘要:图像美学评估(IAA)是一个长期存在且具有挑战性的研究任务。然而,其子集——人类图像美学评估(HIAA)却鲜有研究,尽管HIAA在社交媒体、AI工作流以及相关领域中被广泛应用。为解决这一研究缺口,我们的工作率先提出了一种专门针对HIAA的整体实施框架。具体来说,我们引入了HumanBeauty,这是首个专门用于HIAA的数据集,包含108,000张高质量的人像图片,并附有手动标注。为了实现全面而精细的HIAA,50,000张人像图片通过严谨的编选过程手动收集,并利用我们开创性的12维美学标准进行标注,而剩余的58,000张具有总体美学标签的人像图片则系统性地从公共数据集中筛选出来。基于HumanBeauty数据库,我们提出了HumanAesExpert,这是一个强大的视觉语言模型,用于评估人像的美学。我们创新性地设计了一个专家头,以整合美学子维度的人类知识,同时结合语言建模(LM)和回归头的使用。这种方法使我们的模型在整体和精细的HIAA方面表现出色。此外,我们引入了一个MetaVoter,它可以汇总三个头的评分,以有效平衡每个头的能力,从而提高评估精度。广泛实验表明,我们的HumanAesExpert模型在HIAA方面的性能远优于其他最先进的模型。我们的数据集、模型和代码已公开发布,以推进HIAA社区的发展。项目网页:https://humanaesexpert.github.io/HumanAesExpert/
发布时间: 4/1/2025
查看原文
作者: Yufei Wang, Lanqing Guo, Zhihao Li, Jiaxing Huang, Pichao Wang, Bihan Wen, Jian Wang
arXiv:2503.23897v1 声明类型: cross 摘要: 文本引导的图像编辑是一项使用户通过自然语言描述修改图像的重要任务。近年来,扩散模型和校正流的发展显著提高了编辑质量,主要依赖反演技术从输入图像中提取结构化的噪声。然而,反演中的不准确性会导致错误传播,引起意外的修改并损害保真度。此外,即使反演完美,文本提示与图像特征之间的纠缠往往会导致在仅想进行局部修改时出现全局变化。为了解决这些挑战,我们提出了一种基于VAR(视觉自回归建模)的文本引导图像编辑框架,该框架消除了显式反演的需要,同时确保精确和受控的修改。我们的方法引入了一种缓存机制,该机制存储了原始图像中的标记索引和概率分布,捕获了源提示与图像之间的关系。使用此缓存,我们设计了一种适应性的细粒度掩蔽策略,能够动态识别并约束修改到相关区域,防止意外更改。标记重组方法进一步细化了编辑过程,增强了多样性和控制性。我们的框架在无需训练的情况下运行,并实现了高保真编辑和更快的推理速度,处理1K分辨率图像只需1.2秒。大量实验表明,与现有的基于扩散和校正流的方法相比,我们的方法在定量指标和视觉质量上均表现相当甚至更优。代码将公开发布。
发布时间: 4/1/2025
查看原文
作者: Yuqiao Tan, Shizhu He, Huanxuan Liao, Jun Zhao, Kang Liu
arXiv:2503.23895v1 交叉类型:cross 摘要:检索增强生成(RAG)通过从外部来源检索相关文档并将它们纳入上下文中,增强了大语言模型(LLMs)。尽管这通过提供事实性文本来提高可靠性,但随着上下文长度的增加,它显著增加了推断成本,并引入了RAG幻觉的挑战性问题,主要原因是LLMs中缺少相应的参数化知识。一种有效的解决方案是在测试时增强LLMs的知识。参数化RAG(PRAG)通过将文档嵌入到LLMs参数中来进行测试时的知识增强,从而通过离线训练有效减少了推断成本。然而,其高训练和存储成本,以及有限的泛化能力,显著限制了其实际应用。为解决这些挑战,我们提出了一种新型的Dynamic Parametric RAG(DyPRAG),该框架利用轻量级参数转换器模型来高效地将文档转换为参数化知识。DyPRAG不仅减少了推断、训练和存储成本,还能动态生成参数化知识,无缝增强LLMs的知识,并以插件式方式在测试时解决知识冲突。在多个数据集上的广泛实验表明,DyPRAG的有效性和泛化能力,提供了强大的且实际可行的RAG范式,该范式能够实现更优秀的知识融合,并减轻了现实应用中的RAG幻觉问题。我们的代码可在https://github.com/Trae1ounG/DyPRAG获取。
发布时间: 4/1/2025
查看原文