LLM2D

arXiv 论文列表

作者: Haoyuan Li, Mathias Funk, Jindong Wang, Aaqib Saeed
arXiv:2504.03783v2 宣告类型: replace-cross 摘要:联邦主动学习(FAL)已发展成为一种有希望的框架,可在保持数据隐私的情况下利用分布式客户端大量未标记的数据。然而,现实世界的应用仍然受到高昂的标注成本和沟通密集型采样过程的限制,特别是在跨孤岛设置中,当客户端拥有大量本地数据集时。本文探讨了关键问题:在最小化标注员努力的情况下,如何降低循环式人类在环学习中的通信成本?现有的FAL方法通常依赖于迭代的标注过程,将主动采样与联邦更新分离,导致多次昂贵的通信和标注轮次。对此,我们提出了一种双阶段FAL框架FAST,该框架在初步阶段利用基础模型进行弱标注,随后在专注于最具不确定性的样本的改进阶段进行改进。通过利用基础模型的知识表示,并将改进步骤整合到紧凑的工作流程中,FAST显著减少了循环式主动采样带来的开销。在医疗和自然图像 Benchmarks 上的广泛实验表明,在受限制的 5% 标注预算下,FAST 在通信轮次减少了八倍的同时,平均性能优于现有 FAL 方法 4.36%。
发布时间: 4/11/2025
查看原文
作者: Junkai Zhang, Bin Li, Shoujun Zhou, Yue Du
arXiv:2504.03135v2 宣告类型: replace-cross 摘要: 医学视觉问答(Med-VQA)利用医学图像回答临床问题,有助于诊断。设计MedVQA系统在临床诊断辅助和提高诊断准确性方面具有深远的重要性。在此基础上,层次化医学视觉问答通过将医学问题组织成层次结构,并针对不同层级进行特定预测,来处理细微差别。近年来,许多研究提出了层次化MedVQA任务并建立了相应的数据集,但仍然存在几个问题:(1) 不完美的层次化建模导致不同层级的问题难以区分,造成层次间的语义碎片化。(2) 在基于Transformer的跨模态自注意力融合方法中过分依赖隐式学习,这在医学场景中遮蔽了重要的局部语义关联。为了解决这些问题,本研究提出了一种HiCA-VQA方法,包括两个模块:层次化提示和层次化答案解码器。层次化提示模块预先将层次化的文本提示与图像特征对齐,以指导模型根据问题类型关注特定的图像区域,而层次化解码器对不同层级的问题进行单独预测,以提高各粒度的准确性。该框架还包含一个跨注意力融合模块,其中图像作为查询,文本作为键值对。在Rad-Restruct基准测试上的实验表明,HiCA-VQA框架在回答层次化细粒度问题方面优于现有最先进的方法。本研究为层次化视觉问答系统提供了有效的途径,推进了医学图像理解。
发布时间: 4/11/2025
查看原文
作者: Ludvig Ericson, Jos\'e Pedro, Patric Jensfelt
arXiv:2504.01980v2 Announce Type: replace-cross 摘要:移动机器人自主探索受两个竞争目标的驱动:覆盖率,以彻底地观察环境;路径长度,以尽可能短的路径完成观察。虽然在不知道未知信息的情况下难以评估最佳行动方案,但未知信息可以通过模型、地图或常识来理解。然而,先前的研究表明,通过此类先验知识提高信息增益的估计会导致贪婪行为,最终导致回溯,从而降低覆盖率。事实上,任何信息增益最大化都会表现出这种行为,即使没有先验知识也会如此。任务完成时获得的信息是恒定的,无法最大化。因此,将其作为优化目标是不合适的。相反,信息增益是一个决策标准,用于确定哪些候选状态仍应考虑进行探索。任务因此变为使用最短的总路径达到完成状态。由于确定最短路径通常不可行,因此有必要依赖启发式方法或估计来识别能最小化总路径长度的候选状态。为了解决这个问题,我们提出了一种启发式方法,通过偏好距离机器人较近但与其他候选状态较远的候选状态来减少回溯行为。我们通过模拟评估了所提启发式方法与基于信息增益的方法和前沿探索方法的性能,并展示了在有和无环境先验知识的情况下,我们的方法显著减少了总路径长度。
发布时间: 4/11/2025
查看原文
作者: Meng Yuan, Yutian Xiao, Wei Chen, Chu Zhao, Deqing Wang, Fuzhen Zhuang
arXiv:2504.01541v2 宣告类型: 替换-交叉 摘要:扩散模型(DMs)已经成为深度生成模型的新一代佼佼者。为了深入了解扩散模型在推荐系统中的局限性,我们研究了图像和物品之间的基本结构差异。由此可知,物品经常表现出独特的各向异性结构和方向性结构,而在图像中这些结构较少见。然而,传统的前向扩散过程持续地添加各向同性的高斯噪声,使得各向异性信号退化为噪声,从而削弱了推荐系统中的语义有意义的表示。 受到双曲空间进展的启发,我们提出了一种新的 \textit{\textbf{H}双曲} \textit{\textbf{D}扩散} \textit{\textbf{R}推荐} \textit{\textbf{M}模型}(命名为HDRM)。与基于欧几里得空间的现有方向性扩散方法不同,双曲空间的固有非欧几何结构使其特别适合处理各向异性扩散过程。特别是,我们首先提出了概念,以在几何上基于双曲空间中表征潜在的方向性扩散过程。随后,我们提出了一种特别针对用户和物品的新型双曲潜在扩散过程。利用双曲空间的自然几何特性,我们在空间上施加结构限制,以增强双曲扩散传播,从而确保用户-物品图的固有拓扑结构得到保留。在三个基准数据集上的广泛实验表明了HDRM的有效性。
发布时间: 4/11/2025
查看原文
arXiv:2504.00469v2 通知类型: replace-cross 摘要:运动模拟算法(MCAs)将模拟车辆的运动编码为运动模拟器可以再现的运动,以在机器的能力范围内提供逼真的驾驶体验。本文介绍了一种基于序列机器人运动模拟器的新型学习导向型MCAs。该方法基于可微预测控制框架,在充分利用非线性模型预测控制(NMPC)的优势(特别是非线性约束处理和精确的运动学建模)的同时,结合了机器学习的计算效率。通过将计算负担转移到离线训练中,新的算法能够在高控制率下实现实时操作,从而克服了基于NMPC的运动模拟的关键挑战。所提出的MCAs结合了一个非线性关节空间动力学模型以及一个训练有素的策略网络,该网络旨在模仿NMPC的行为,同时考虑关节加速度、速度和位置限制。在多种运动模拟场景的仿真实验中,所提出的算法在RMSE和与参考信号的相关系数方面与最先进的基于NMPC的替代方案具有可比的运动模拟质量。然而,所提出的算法比NMPC基线平均快了400倍。此外,该算法成功地推广到了未见过的操作条件,包括在不同车辆上的运动模拟场景以及实时物理仿真。
发布时间: 4/11/2025
查看原文
作者: Jakub Adamczyk, Jakub Poziemski, Pawel Siedlecki
arXiv:2503.24305v3 通告类型: 替换-交叉 摘要:小分子在生物医药、环境和农化领域中扮演着关键角色,每个领域都有独特的物理化学需求和成功标准。虽然生物医药研究得益于丰富的数据集和已建立的基准,但农化数据仍然稀缺,尤其是在物种特异性毒性方面。本文着重于ApisTox,这是最全面的蜜蜂(Apis mellifera)实验验证化学毒性数据集,蜜蜂是一种生态上至关重要的传粉者。我们使用一系列多元的机器学习方法来评估ApisTox,包括分子指纹、图内核和图神经网络,以及预训练模型。与MoleculeNet基准上的医药数据集的比较分析表明,ApisTox代表了一个独特的化学空间。在非医药数据集上的性能下降表明,当前仅在生物医药数据上训练的最先进的算法存在有限的泛化能力。我们的研究强调了需要更多多样化的数据集,并且需要针对农化领域进行专门模型开发的重要性。
发布时间: 4/11/2025
查看原文
作者: Yahya Aalaila, Gerrit Gro{\ss}mann, Sumantrak Mukherjee, Jonas Wahl, Sebastian Vollmer
arXiv:2503.23820v3 宣告类型: replace-cross 摘要:因果推理是人类认知和决策的核心,常被视为因果学习的“圣杯”,其应用从解析机器学习模型到促进算法公平性不一而足。尽管因果推理在因果模型明确的情况下已被广泛研究,但在现实世界中,因果建模往往因模型和参数不确定性、观测噪声以及混沌行为而受到阻碍。在这些不确定条件下因果推理分析的可靠性仍鲜有探讨。在本文中,我们探讨了在结构因果模型框架内的因果推理限制。具体而言,我们通过实证研究了因果推理中的因果反事实序列估计,并指出在这种情况下其变得越来越不可靠的情况。我们发现,如模型不确定性低或混沌动力学等现实假设,可能导致预测与真实因果反事实轨迹之间产生反常结果,包括显著偏差。本工作提醒我们在混沌和不确定性特征明显的情况下应用因果推理时应保持谨慎。此外,它还提出了某些系统是否可能对回答关于其行为的因果反事实问题存在根本性的限制这一问题。
发布时间: 4/11/2025
查看原文
作者: Jiashun Suo, Xiaojian Liao, Limin Xiao, Li Ruan, Jinquan Wang, Xiao Su, Zhisheng Huo
arXiv:2503.02354v2 宣布类型: replace-cross 摘要:大型语言模型如GPT-4资源密集,但最近的研究表明,更小的专业专家模型在特定任务上可以超越单一的大模型。协作专家(CoE)方法结合了多个专家模型,提高了生成结果的准确性,并为精确关键的应用程序(如自动电路板质量检查)提供了巨大潜力。然而,部署CoE服务系统因其涉及大量专家而导致内存容量挑战,从而导致频繁在不同内存和存储层切换专家时产生显著的性能开销。 我们提出了CoServe,一种在有限内存的异构CPU和GPU上的高效CoE模型服务系统。CoServe通过利用CoE推理中的专家依赖关系减少了不必要的专家切换。CoServe引入了依赖感知请求调度器和依赖感知专家管理以提高推理效率。此外,它还引入了一个离线配置文件,以自动在各种处理器和设备上找到最佳资源分配。在实际智能制造业负载中,CoServe的吞吐量相比最先进的系统提高了4.5到12倍。
发布时间: 4/11/2025
查看原文
作者: Lijie Liu, Tianxiang Ma, Bingchuan Li, Zhuowei Chen, Jiawei Liu, Gen Li, Siyu Zhou, Qian He, Xinglong Wu
arXiv:2502.11079v2 宣布类型: replace-cross 摘要:基础模型在视频生成方面的持续发展正在演变出各种应用,而主题一致的视频生成仍处于探索阶段。我们将此称为“主题到视频”,该过程从参考图像中提取主题元素,并根据文本指令生成主题一致的视频。我们认为,主题到视频的核心在于平衡文本和图像的双模态提示,从而深刻而同步地对齐文本和视觉内容。为此,我们提出了Phantom,这是一个统一的视频生成框架,支持单主题和多主题参考。基于现有的文本到视频和图像到视频架构,我们重新设计了联合文本-图像注入模型,并通过文本-图像-视频三元组数据驱动其学习跨模态对齐。所提出的方法实现了高保真的主题一致视频生成,同时解决了图像内容泄露和多主题混淆的问题。评价结果显示,我们的方法在与其他先进的闭源商用解决方案相比时表现更优。特别是,我们在人类生成中强调主题一致性,涵盖了现有的ID保持视频生成,同时提供了增强的优势。
发布时间: 4/11/2025
查看原文
作者: Ruiqi Wang, Jiyu Guo, Cuiyun Gao, Guodong Fan, Chun Yong Chong, Xin Xia
arXiv:2502.06193v2 评估类型: replace-cross 摘要:最近,大型语言模型(LLMs)被部署到软件工程(SE)任务,如代码生成等,显著推动了SE任务的自动化。然而,评估LLM生成的代码和文本的质量仍然是一个挑战。常用的Pass@k指标需要进行大量的单元测试和配置环境,劳动成本高,并且不适合评估LLM生成的文本。传统的像BLEU这样的度量标准只测量词法相似性而不能测量语义相似性也受到了质疑。为了解决这些问题,一种新的趋势是使用LLM进行自动化评估,被称为LLM-as-a-judge。LLM-as-a-judge方法被认为可以在不需要高质量参考答案的情况下更接近人类评估。然而,它们在SE任务中的精准人类对齐仍然没有被探索。在本文中,我们实证探索了LLM-as-a-judge方法在评估SE任务中的应用,重点关注它们与人类判断的一致性。我们选择了七个利用通用大语言模型的LLM-as-a-judge方法,以及两种专门针对评估进行微调的大语言模型。在对三个最近的SE数据集进行代码翻译、代码生成和代码摘要任务的LLM响应生成和人工评分后,我们然后要求这些方法对每个响应进行评估。最后,我们将这些方法生成的评分与人类评估进行比较。结果显示,基于输出的方法在代码翻译任务中与人类评分的皮尔逊相关系数达到81.32,在代码生成任务中达到68.51,接近于人类评估,显著优于ChrF++,这是性能最好的传统度量标准之一,分别为34.23和64.92。基于输出的方法促使LLM直接输出判断,显示出更均衡的评分分布,更符合人类评分模式。最后,我们提供...
发布时间: 4/11/2025
查看原文