LLM2D

arXiv 论文列表

arXiv:2502.01684v1 类型: cross 摘要: 图表示学习已经成为了节点分类和链路预测等任务的基石,但现有的自我监督学习(SSL)方法面临着计算效率低下、依赖对比目标、表示崩溃等挑战。现有方法往往依赖于特征重建、负样本采样或复杂的解码器,这引入了训练负担并阻碍了泛化能力。此外,当前解决这些限制的技术未能考虑到节点嵌入在没有标记节点的情况下对特定预测的贡献。为了应对这些限制,我们提出了一种新型的联合嵌入预测框架,用于图SSL,该框架去除了对比目标和负样本采样,同时保留了语义和结构信息。此外,我们引入了一个意识语义的目标项,该项结合了从高斯混合模型(GMMs)中获得的伪标签,通过评估潜在特征的贡献增强节点的可区分性。广泛的实验表明,我们的框架在基准测试中优于现有的图SSL方法,实现了更高的性能,而无需对比损失或复杂的解码器。关键创新包括:(1) 一种非对比、视图不变的联合嵌入预测架构;(2) 利用子图之间的单一上下文和多个目标关系;(3) 以高斯混合模型(GMM)为基础的伪标签评分,以捕捉语义贡献。该工作通过提供一种计算高效、抗表示崩溃的范式,将图SSL推进了一步,该范式结合了空间和语义图特征以支持下游任务。我们的论文代码可以在 https://github.com/Deceptrax123/JPEB-GSSL 找到。
发布时间: 2/5/2025
查看原文
作者: Peiwen Yuan, Shaoxiong Feng, Yiwei Li, Xinglin Wang, Yueqi Zhang, Jiayi Shi, Chuyi Tan, Boyuan Pan, Yao Hu, Kan Li
arXiv:2502.01683v1 交叉类型: 摘要:大规模语言模型(LLMs)的快速发展导致了模型供应和应用需求的激增。为了促进两者之间的有效匹配,可靠的、通用且高效的基准生成器广为需求。然而,人类注释者受到效率的限制,当前的LLM基准生成器不仅缺乏普遍适用性,还难以确保可靠性,因为缺乏一个全面的评估框架来进行验证和优化。为填补这一空白,我们首先提出了一种自动且无偏的评估框架,该框架围绕四个维度和十个标准结构化。在这一框架下,我们仔细分析了直接提示LLMs作为通用基准生成器的优势和劣势。为了提高可靠性,我们引入了一系列方法来解决识别到的劣势,并将其整合为BenchMaker。在多个LLMs和任务上的实验结果表明,BenchMaker在所有指标上的性能优于或可与人工注释的基准相媲美,突显了其普遍适用性和可靠性。更重要的是,它在12个LLMs上提供了一致的评价结果(与MMLU-Pro相比,皮尔逊相关系数为0.967),同时每样本只需0.005和0.38分钟。
发布时间: 2/5/2025
查看原文
arXiv:2502.01680v1 交叉公告类型: 摘要:出行需求预测对于优化交通规划、资源配置和基础设施发展至关重要,确保高效的移动性和经济可持续性。本文介绍了一种神经符号人工智能(神经符号AI)框架,该框架将基于决策树(DT)的符号规则与神经网络(NNs)结合,利用符号推理的可解释性和神经学习的预测能力来预测出行需求。该框架利用来自多种来源的数据,包括地理空间、经济和移动性数据集,构建了一个综合的特征集。决策树被用来提取可解释的如果-那么规则,这些规则捕捉到关键模式,然后将这些规则作为额外特征整合到神经网络中,以增强其预测能力。实验结果显示,增强后的数据集,结合了符号规则,无论是在平均绝对误差(MAE)、\(R^2\) 和通用通勤部分(CPC)等多个评估指标上,都始终优于单独的数据集。在较低方差阈值(例如0.0001)下选择的规则显示出了更强的有效性,能够捕捉到细微的关系,减少预测误差,并与观察到的通勤者模式一致。通过将符号和神经学习范式结合,这种神经符号方法同时实现了可解释性和准确性。
发布时间: 2/5/2025
查看原文
作者: Yihe Wang, Nan Huang, Nadia Mammone, Marco Cecchi, Xiang Zhang
arXiv:2502.01678v1 类别: cross 摘要: 电生理图(EEG)提供了一种无创、高度可访问且成本效益高的解决方案,用于阿尔茨海默病(AD)的检测。然而,现有的方法,无论是基于手动特征提取还是深度学习,都面临两大挑战:缺乏大规模数据集来实现稳健的特征学习和评估,以及由于个体间差异而导致的检测性能不佳。为应对这些挑战,我们编制了一个包含813个主体的EEG-AD语料库,据我们所知,这是世界上最大的基于EEG的AD数据集。利用这一独特数据集,我们提出了LEAD,这是第一个基于EEG的AD检测的大规模基础模型。我们的方法从数据选择和预处理一直到自我监督对比预训练、微调以及关键设置如独立于个体的评估和按个体级别进行的多数投票,涵盖了整个检测管道。我们在11个EEG数据集上预先训练了模型,并在5个AD数据集上进行了统一微调。我们自我监督的预训练设计包括样本级别和个体级别对比,以提取有用的通用EEG特征。在5个通道对齐的数据集上进行了微调。主编码器结合了时间嵌入和通道嵌入,以捕获跨时间和空间维度的特征。我们的方法显示了出色的AD检测性能,与目前最先进的方法相比,在样本级别和个体级别分别实现了F1分数高达9.86%和9.31%的增长。我们的模型结果强烈证实了对比预训练和通道对齐的统一微调在应对个体间差异方面的有效性。源代码可在 https://github.com/DL4mHealth/LEAD。
发布时间: 2/5/2025
查看原文
作者: Yunke Wang, Yanxi Li, Chang Xu
arXiv:2502.01677v1 交叉类型:公告 摘 要:AI扩展长期以来一直与扩展规模(Scaling Up)相关,即构建更大更强大的模型。然而,随着在不同应用领域对效率、适应性和协作需求的增长,需要有更广泛的观点。本文立场论文提出了一个综合的AI扩展框架,涵盖了扩展规模、缩小规模(Scaling Down)和横向扩展(Scaling Out)。文章认为,虽然模型的扩展规模面临固有的瓶颈,但AI扩展的未来方向在于缩小规模和横向扩展。这些范式解决了诸如减少碳足迹、确保公平访问和增强跨域协作等关键的技术和社会挑战。我们探讨了在医疗保健、智能制造和内容创作等领域的变革性应用,展示了如何通过AI扩展实现效率、个性化和全球互联的突破。此外,我们还强调了一些关键挑战,包括平衡模型复杂性与可解释性、管理资源约束以及促进伦理发展。通过综合这些方法,我们提出了一种统一的路线图,重新定义了AI研究与应用的未来,为通往通用人工智能(AGI)的进步铺平了道路。
发布时间: 2/5/2025
查看原文
arXiv:2502.01675v1 宣告类型: cross 摘要: 随着数字技术的进步,通信网络面临着处理由智能设备生成的大量数据的挑战。自动驾驶汽车、智能传感器和物联网系统需要新的范式。本论文通过将语义通信与生成模型结合,以优化图像压缩和边缘网络资源分配来应对这些挑战。不同于以位为中心的系统,语义通信优先传输能够传达意义的具体有意义的数据,而不是获得原始数据的忠实表示。这种通信基础设施可以显著提高带宽效率并减少延迟。本研究工作的核心是利用生成对抗网络和去噪扩散概率模型设计语义保持的图像压缩方案。这些模型通过仅编码语义相关特征来进行图像压缩,从而能够在最小传输的情况下实现高质量的重构。此外,还提出了一种以目标为导向的边缘网络优化框架,利用信息瓶颈原理和随机优化动态分配资源并提高效率。通过将语义通信融入边缘网络,这种方法在计算效率和通信效果之间取得平衡,使其适用于实时应用。本论文使用经典的和语义评价指标将语义感知模型与传统图像压缩技术进行了比较。结果表明,结合生成人工智能和语义通信有可能创造出更高效的语义目标导向通信网络,以满足现代数据驱动应用程序的需求。
发布时间: 2/5/2025
查看原文
作者: Arpita Vats, Rahul Raja, Mrinal Mathur, Vinija Jain, Aman Chadha
arXiv:2502.01673v1 交叉类型公告 摘要:印地语的语言多样性和复杂性为自然语言处理(NLP)任务,尤其是在问答(QA)领域,带来了独特的挑战。为了应对这些挑战,本文探讨了状态空间模型(SSMs)的应用,以构建适合印地语的高效且语境敏感的问答系统。由于SSMs能够建模序列数据中的长期依赖和短期依赖,它们特别适合处理印度语言特有的丰富形态、复杂的句法以及上下文细微差别。我们评估了多种SSM架构在代表各种印地语的多元数据集上的性能,并进行了它们性能的比较分析。实验结果表明,这些模型能够有效地捕捉语言上的细微差异,从而显著提高问题解释、上下文对齐和答案生成的效果。这项工作是SSMs首次应用于印地语的问答任务,为该领域的未来研究奠定了基础基准。我们还提出了现有SSM框架的改进,以便更好地适应印度语言中常见的低资源环境和多语言场景。
发布时间: 2/5/2025
查看原文
作者: Manqing Liu, Andrew L. Beam
arXiv:2502.01672v1 Announce Type: cross 摘要:我们提出了双重稳健蒙特卡洛树搜索(DR-MCTS),这是一种将双重稳健(DR)离策评估整合入蒙特卡洛树搜索(MCTS)中的新算法,以提高复杂环境中的样本效率和决策质量。我们的方法引入了一种混合估计器,将MCTS滚动策略与DR估计相结合,在特定条件下提供了无偏性和方差减小的理论保证。在井字棋和部分可观测的VirtualHome环境中,DR-MCTS的性能优于标准MCTS。在井字棋中,DR-MCTS的胜率达到了88%,而标准MCTS仅为10%。在复合VirtualHome任务中,DR-MCTS的成功率为20.7%,而标准MCTS为10.3%。我们的缩放分析显示,DR-MCTS在样本效率方面表现更好,特别是在使用较小的模型时优于标准MCTS,但仍能与较大的语言模型竞争。这些结果突显了DR-MCTS在样本效率至关重要的复杂现实场景中进行高效决策的潜力。
发布时间: 2/5/2025
查看原文
作者: Ian Schneider, Hui Xu, Stephan Benecke, David Patterson, Keguo Huang, Parthasarathy Ranganathan, Cooper Elsworth
arXiv:2502.01671v1 声明类型: cross 摘要: 专用硬件加速器有助于人工智能(AI)的快速进步,其效率影响了AI的环境可持续性。本研究首次发布了一篇全面的AI加速器生命周期评估(LCA)研究报告,包括了AI加速器的制造排放的首次发布。 我们的分析涵盖了五种张量处理单元(TPU)在硬件生命周期的所有阶段,从原材料开采、制造、处理,到开发、部署和运行AI模型期间的能源消耗。使用第一方数据,它提供了迄今为止最全面的AI硬件环境影响评估。我们包括了详细的生命评估描述,旨在作为教程、指南和灵感,其他计算机工程师可以参照这些描述执行类似的LCA,帮助我们更好地理解我们芯片和AI的环境影响。 本研究的一个副产品是新提出的一个度量标准——计算碳强度(CCI),它有助于评估AI硬件的可持续性以及训练和推理的碳足迹估计。研究显示,从TPU v4i到TPU v6e,CCI提高了3倍。 此外,虽然本文的重点在于硬件,但软件的进步也在利用和放大这些收益。
发布时间: 2/5/2025
查看原文
作者: Chenlu Ding, Jiancan Wu, Yancheng Yuan, Junfeng Fang, Cunchun Li, Xiang Wang, Xiangnan He
arXiv:2502.01669v1 宣告类型: cross 摘要: 在在线数字广告领域,转化率(CVR)预测在成本每次转化(CPA)模型下发挥着关键作用,该模型仅在用户完成特定操作(如购买)后对广告商进行收费。CVR预测中的主要挑战是延迟反馈问题——转化可能在初始用户互动后数小时甚至数周后发生。这种延迟使模型训练复杂化,因为近期数据可能不完整,导致偏差和性能下降。尽管现有方法试图解决这一问题,但它们往往难以适应用户行为的演变,并依赖于辅助模型,这引入了计算效率低下和模型不一致的风险。在本文中,我们提出了一种增强的因果影响函数框架,用于延迟反馈建模(IF-DFM)。IF-DFM利用因果影响函数来估计新获得和延迟转化数据对模型参数的影响,从而在不需要完全重新训练的情况下实现高效的参数更新。此外,我们还提出了一种可扩展的算法,通过将逆海森矩阵-向量乘积重新表述为优化问题,高效地计算参数更新,从而在计算效率和效果之间取得平衡。在基准数据集上的广泛实验表明,IF-DFM 一致地超越了最先进的方法,显著提高了预测精度和模型适应性。
发布时间: 2/5/2025
查看原文