arXiv:2502.06885v1 Announce Type: 交叉
摘要:本文提出了一种在深度方向上逐步适应神经网络架构的新算法。特别地,我们尝试以一种数学上严格的方式来解决以下问题:i) 在训练过程中何时添加新的容量(层)?ii) 如何初始化新的容量?我们方法的核心包括两个关键成分:i) 引入一个“形状泛函”,其依赖于神经网络拓扑结构,并需最小化该泛函;ii) 引入与神经网络拓扑结构相关的形状泛函的拓扑导数。通过最优控制视角,我们证明在某些条件下网络拓扑导数存在,并推导出了其闭式表达式。特别是,我们首次探索了来自拓扑优化框架的拓扑导数与最优控制理论中的哈密顿量之间的联系。此外,我们展示了形状泛函的最优性条件导致了深层神经架构适应的特征值问题。因此,我们的方法确定了训练阶段需要插入新层的最敏感位置以及相应参数初始化方法。我们还展示了从最优传输视角出发,我们的层插入策略可以被视作在$p$-Wasserstein空间内最大化拓扑导数的解决方案,其中$p>=1$。在各种回归和分类问题上,利用完全连接网络、卷积神经网络和视觉变换器的数值研究证明,我们提出的方法可以优于临时基线网络和其他架构适应策略。此外,我们还展示了拓扑导数在领域如迁移学习中的其他应用。
arXiv:2502.06884v1 Announce Type: cross
摘要:大型语言和跨模态模型(LLMs/VLMs)在越来越多的安全关键型应用中被使用,但它们不透明的决策过程使得风险评估和可靠性变得复杂。不确定性量化(UQ)有助于评估预测的信心并在不确定性高时使模型采取回避措施。保守的预测区间(CP),一种领先的UQ方法,提供了统计保证,但依赖于静态阈值,这不能适应任务的复杂性和不断变化的数据分布,导致在准确率、覆盖率和信息性方面产生了次优权衡。为了解决这个问题,我们提出了一种可学习的保守预测方法,将强化学习(RL)与CP结合,以动态优化保守预测阈值。通过将CP阈值视为适应性的动作,我们的方法可以在多个目标间取得平衡,同时减小预测集的大小并维持可靠的覆盖率。在多种LLM/VLM基准测试中进行的广泛评估表明,我们的方法优于最少含糊类分类器(LAC)和自适应预测集(APS),能够将准确率提高多达3.2%,将幻觉检测的AUROC提升22.19%,将不确定性指导的选择性生成(AUARC)提高21.17%,并将校准误差减少70%-85%。这些改进在多个模型和数据集上保持一致,且始终达到90%的覆盖率目标,从而将我们的方法确立为在安全关键型应用中实现可靠决策的更有效、更灵活的解决方案。代码可在以下地址获得:{https://github.com/sinatayebati/vlm-uncertainty}
arXiv:2502.06882v1 声明类型: cross
摘要:大型语言模型(LLMs)在法律智能方面取得了显著进展,但在实现交互式法律场景方面的进步受到了情景数据稀缺的阻碍。本文介绍了一种多代理法律模拟驱动程序(MASER),通过模拟交互式法律场景来大规模生成合成数据。利用实际的法律案例来源,MASER 确保了参与者之间的法律属性一致性,并引入了一种监督机制来使参与者的角色和行为保持一致,并解决分散注意力的问题。此外,构建了一个多阶段交互式法律评价(MILE)基准,以评估 LLMs 在动态法律场景中的性能。广泛的实验证明了我们框架的有效性。
arXiv:2502.06876v1 声明类型: cross
摘要: 在帮助性、诚实性和无害性(3H 优化)方面实现大型语言模型(LLMs)的平衡对负责任的人工智能构成了基石,现有方法如数据混合策略面临专家知识依赖和优化信号冲突的局限性。虽然模型合并提供了一种有希望的替代方案,通过集成专业化模型,但其在 3H 优化方面的潜力尚未得到充分探索。本文建立了首个针对 3H 对齐 LLM 的模型合并基准,系统地评估了 15 种方法(12 种无需训练的合并方法和 3 种数据混合技术),跨越了与 5 个标注维度、2 个 LLM 家族和 2 个训练范式相关的 10 个数据集。我们的分析揭示了三点关键见解:(i) 对 3H 尺度之间之前被忽视的合作/冲突关系;(ii) 模型合并方法在平衡对齐权衡方面的持续优越性,比数据混合方法更为优越;(iii) 通过冗余组件修剪和异常值缓解在参数级冲突解决中的关键作用。基于这些发现,我们提出了 R-TSVM,一种增强重新加权任务特征向量合并方法,该方法结合了具有异常值感知的参数权重和针对 LLM 重尾参数分布和稀疏性的自适应稀疏性选择策略,进一步提高了 LLM 的对齐程度。我们的模型将在 https://huggingface.co/Jinluan 获取。
arXiv:2502.06875v1 Announce Type: cross
摘要:大型语言模型主要通过文本形式的输入和输出进行操作,而人类情感则通过口头和非口头线索进行交流,包括面部表情。尽管视觉语言模型可以从图像中分析面部表情,但它们资源密集且可能更依赖于语言先验而非视觉理解。为了解决这一问题,这项研究探讨了大型语言模型(LLM)是否可以从面部表情维度(唤醒度和 valence 值)的结构化数值表示中推断出情感意义,而不是使用原始的视觉输入。通过 Facechannel 从面部表情图像中提取 VA 值,并在两个任务中将其提供给 LLMs:(1)在 IIMI 数据集上对基本面部表情进行分类,在 Emotic 数据集上对复杂情绪进行分类;(2)在 Emotic 数据集上生成面部表情的语义描述。分类任务的结果表明,LLM 在将 VA 值分类为离散的情绪类别方面存在困难,特别是在基本极性情绪之外的情绪(如快乐、悲伤)方面。但在语义描述任务中,LLM 生成的文本描述与人类生成的解释高度一致,展示了更强的面向文本的面部表情情感推断能力。
arXiv:2502.06874v1 宣告类型:交叉
摘要:准确的温室气体(GHG)排放报告对于政府、企业和投资者至关重要。然而,由于实施成本高、排放因子数据库碎片化以及缺少稳健的行业分类方法,这种做法在小企业和中型企业中的采用仍然有限。为了解决这些挑战,我们介绍了Group Reasoning Emission Estimation Networks(GREEN),这是一个由AI驱动的碳核算框架,它标准化了企业级排放估算,构建了一个大型基准数据集,并利用了一种新的基于大规模语言模型(LLMs)的推理方法。具体而言,我们为20,850家经过验证的北美人名行业分类系统(NAICS)标签的公司编制了文本描述,并将其与碳强度因素的经济模型对齐。通过将行业分类重新定义为信息检索任务,我们使用对比学习损失对Sentence-BERT模型进行了微调。为了解决单阶段模型在处理成千上万个分层类别时的局限性,我们提出了一个Group Reasoning方法,该方法基于自然的NAICS本体论并列出了LLM分类器,将任务分解为多个子分类步骤。我们理论上证明,这种方法降低了分类不确定性和计算复杂性。在1,114个NAICS类别上的实验取得了最先进的性能(Top-1准确率83.68%,Top-10准确率91.47%),并在20家公司的案例研究中报告了平均绝对百分比误差(MAPE)为45.88%。该项目可在以下网址获取:https://huggingface.co/datasets/Yvnminc/ExioNAICS。
arXiv:2502.06873v1 交叉类型: cross
摘要:过往研究揭示了大型语言模型(LLMs)支持认知重框疗法的潜力;然而,它们主要集中在基于文本的方法上,常常忽视了在实际治疗中至关重要的非言语证据。为了弥合这一缺口,我们扩展了基于文本的认知重框方法,纳入了视觉线索。具体而言,我们提出了一种新的数据集,称为多模态认知支持对话(M2CoSC),其中每个GPT-4生成的对话都配有一张反映虚拟客户面部表情的图片。为了更好地模拟真实的心理治疗过程,其中面部表情引导解读隐含的情感证据,我们提出了一种多跳心理治疗推理方法,该方法明确识别并整合了细微的证据。我们的全面实验表明,M2CoSC数据集显著提高了视觉语言模型(VLMs)在心理治疗师方面的表现。此外,多跳心理治疗推理方法使VLMs能够提供更加周到和富有同情心的建议,超过了标准的提示方法。
arXiv:2502.06872v1 类型: cross
摘要: 检索增强生成(RAG)是一种先进的技术,旨在解决人工智能生成内容(AIGC)面临的挑战。通过将上下文检索融入内容生成中,RAG 提供了可靠和最新的外部知识,减少了幻觉,并确保了广泛任务中相关上下文的一致性。然而,尽管 RAG 成功且潜力巨大,近期的研究表明,RAG 架构也引入了新的风险,包括鲁棒性问题、隐私担忧、对抗攻击以及问责制问题。解决这些风险对于未来 RAG 系统的应用至关重要,因为它们直接影响到系统的可信度。虽然已经开发出多种方法来提高 RAG 方法的信任度,但在该主题的研究中缺乏统一的视角和框架。因此,在本文中,我们旨在通过提供一个全面的道路图来解决这一差距,以促进可信赖的 RAG 系统的发展。我们将讨论围绕五个关键视角:可靠性、隐私、安全性、公平性、可解释性和问责制。对于每个视角,我们将介绍一个通用框架和分类学,提供一个结构化的理解当前挑战、评估现有解决方案并识别有前途的未来研究方向的方法。为了促进更广泛的应用和创新,我们还突出了可信的 RAG 系统在下游应用中产生的显著影响。
arXiv:2502.06871v1 Announce Type: cross
摘要:食品配对的研究已经超越了主观专业知识的领域,随着机器学习的出现而发展。本文提出了FlavorDiffusion,这是一种新颖的框架,利用扩散模型来预测食品-化学相互作用和配料配对,而不依赖于色谱法。通过整合基于图的嵌入、扩散过程和化学性质编码,FlavorDiffusion解决了数据不平衡问题,并提高了聚类质量。我们的模型利用来自Recipe1M和FlavorDB等数据集的异构图,展示了在重建配料-配料关系方面的出色性能。通过加入一种化学结构预测(CSP)层,进一步细化了嵌入空间,实现了最先进的NMI分数,并使新配料组合的有意义发现成为可能。所提出的框架标志着计算 gastronomy 的一个重要进展,提供了可扩展、可解释且化学信息丰富的食品科学解决方案。
arXiv:2502.06870v1 宣告类型: cross
摘要:有效的城市交通管理对于可持续城市发展至关重要,依赖于具有交通流预测和旅行时间估计等机器学习任务的智能系统。传统方法通常专注于静态道路网络和轨迹表示学习,而忽视了交通状态和轨迹的动态性质,这对于下游任务至关重要。为了解决这一差距,我们提出了一种名为TRACK的新框架,用于动态道路网络和轨迹表示学习,以连接交通状态和轨迹数据。TRACK利用图注意力网络(GAT)来编码静态和空间道路段特征,并引入了一个基于变换器的模型来进行轨迹表示学习。通过将轨迹数据中的转换概率整合到GAT注意力权重中,TRACK捕捉到了道路段的动态空间特征。同时,TRACK设计了一个交通变换器编码器来从交通状态数据中捕捉道路段的空时动态。为了进一步增强动态表示,TRACK提出了一个联合注意力变换器编码器和一个轨迹-交通状态匹配任务。在现实生活中的城市交通数据集上的广泛实验表明,TRACK在对比最先进的基线方法中表现出优越性。案例研究证实了TRACK捕捉空时动态的能力。