自然信号的主观质量可以用客观感知度量来近似。感知度量旨在近似人类观察者的感知行为,通常反映自然信号和神经通路中的结构。使用感知度量作为损失函数训练的模型可以从这些度量中包含的结构中捕捉到感知上有意义的特征。我们证明,使用从使用感知损失训练的自动编码器中提取的特征,可以提高音乐理解任务(例如,流派分类)的性能,优于直接使用这些度量作为距离来学习分类器。这一结果表明,在使用感知度量作为表示学习的损失函数时,对新信号的泛化能力有所提高。
深度学习模型在计算病理学 (CPath) 任务中展现出巨大潜力,但由于领域偏移,它们在应用于未见数据时性能往往会下降。解决这个问题需要领域泛化 (DG) 算法。然而,目前缺乏对 CPath 环境中 DG 算法的系统评估。本研究旨在通过 7,560 次交叉验证运行,对 30 种 DG 算法在 3 个不同难度的 CPath 任务上的有效性进行基准测试。我们使用一个统一且稳健的平台评估这些算法,该平台整合了特定于模态的技术和最近的进展,例如预训练的基础模型。我们广泛的交叉验证实验提供了对各种 DG 策略的相对性能的见解。我们观察到自监督学习和染色增强始终优于其他方法,突出了预训练模型和数据增强的潜力。此外,我们引入了一个新的泛癌肿瘤检测数据集 (HISTOPANTUM) 作为未来研究的基准。本研究为研究人员选择适合 CPath 任务的 DG 方法提供了宝贵的指导。
志愿地理信息 (VGI) 以其丰富的多样性、庞大的体量、快速的更新和多样的来源,已成为地理空间数据的重要来源。然而,来自 OSM 等平台的 VGI 数据在不同数据类型之间存在显著的质量异质性,尤其是在城市建筑数据方面。为了解决这个问题,我们提出了一种多源地理数据转换解决方案,利用可访问且完整的 VGI 数据来辅助生成城市建筑轮廓数据。我们还采用了一种多模态数据生成框架来提高准确性。首先,我们介绍了一个构建“图像-文本-元数据-建筑轮廓”数据集的管道,主要基于道路网络数据,并辅以其他多模态数据。然后,我们提出了 ControlCity,一种基于多模态扩散模型的地理数据转换方法。该方法首先使用预训练的文本到图像模型来对齐文本、元数据和建筑轮廓数据。改进的 ControlNet 进一步整合了道路网络和土地利用图像,生成精细的建筑轮廓数据。跨 22 个全球城市的实验表明,ControlCity 成功地模拟了真实的城市建筑模式,取得了最先进的性能。具体而言,我们的方法实现了 50.94 的平均 FID 分数,与领先方法相比,误差降低了 71.01%,MIoU 分数为 0.36,提高了 38.46%。此外,我们的模型在城市形态迁移、零样本城市生成和空间数据完整性评估等任务中表现出色。在零样本城市任务中,我们的方法准确地预测和生成了类似的城市结构,展示了强大的泛化能力。本研究证实了我们的方法在生成城市建筑轮廓数据和捕获复杂城市特征方面的有效性。
我们提供了一个数据集,用于在工程设计中启用深度生成模型 (DGM),并提出利用大型基础模型自动进行数据标注的方法。GeoBiked 收集了 4355 张自行车图像,并标注了结构和技术特征,用于研究两种自动标注技术:利用图像生成模型的整合潜在特征 (超特征) 来检测结构图像中的几何对应关系(例如轮毂中心的位置),以及生成结构图像的多样化文本描述。GPT-4o 是一种视觉语言模型 (VLM),被指示分析图像并生成与系统提示一致的多样化描述。通过将技术图像表示为扩散超特征,可以进行它们之间的几何对应关系绘制。通过呈现多个带注释的源图像,可以提高对未见样本中几何点的检测精度。GPT-4o 具有生成技术图像准确描述的足够能力。仅基于图像进行生成会导致多样化的描述,但也会导致幻觉,而基于类别标签进行生成则会限制多样性。使用两者作为输入可以平衡创造力和准确性。成功地使用超特征进行几何对应关系表明,这种方法可以用于技术图像中的一般点检测和标注任务。使用 VLM 用文本描述对这些图像进行标注是可能的,但这取决于模型的检测能力、仔细的提示工程以及输入信息的选取。在工程设计中应用基础模型在很大程度上尚未得到探索。我们旨在通过一个数据集来弥合这一差距,以探索该领域中的 DGM 训练、微调和调节,并提出引导基础模型处理技术图像的方法。
大型语言模型 (LLM) 的出色表现推动了研究人员将其用于各种任务和输入模态的努力。在语音到文本 (S2T) 任务中,新兴的解决方案包括通过适配器模块将语音基础模型 (SFM) 编码器的输出投影到 LLM 嵌入空间。然而,还没有工作调查下游任务性能在多大程度上依赖于每个组件(SFM、适配器、LLM),或者适配器的最佳设计是否取决于所选的 SFM 和 LLM。为了填补这一空白,我们在两个广泛的 S2T 任务(即自动语音识别和语音翻译)上评估了 5 个适配器模块、2 个 LLM(Mistral 和 Llama)和 2 个 SFM(Whisper 和 SeamlessM4T)的组合。我们的结果表明,SFM 在下游性能中起着至关重要的作用,而适配器选择的影响适中,并且取决于 SFM 和 LLM。
“当然,我很乐意为你创作一个故事:莱拉船长站在她可靠的飞船‘混乱之怒’的舵轮旁,凝视着无边无际的大海。[...] 莱拉的眼中涌出泪水,她意识到残酷的真相——她为了转瞬即逝的财富牺牲了一切,失去了船员的爱、家人的爱,以及她自己。”尽管这个由大型语言模型生成的故事引人入胜,但人们可能想知道——如果模型选择“梅芙船长”作为主角,故事将会如何发展?我们不得而知。最先进的大型语言模型是无状态的——它们不保留任何内部记忆或状态。给定一个提示,它们使用自回归过程生成一系列标记作为输出。因此,它们无法对过去生成的标记进行反事实的替代推理。在这项工作中,我们的目标是增强它们的功能。为此,我们开发了一种基于 Gumbel-Max 结构因果模型的标记生成因果模型。我们的模型允许任何大型语言模型以几乎不增加成本的方式进行反事实标记生成,与普通标记生成相比,它易于实现,并且不需要任何微调或提示工程。我们在 Llama 3 8B-instruct 上实现了我们的模型,并对反事实生成的文本进行了定性和定量分析。我们以反事实标记生成用于偏差检测的演示性应用作为结束,揭示了关于大型语言模型构建的世界模型的有趣见解。
作为大型语言模型 (LLM) 的基础,自注意力模块面临着与序列长度相关的二次时间和内存复杂度的挑战。FlashAttention 通过利用 GPU 内存层次结构来加速注意力计算并减少其内存使用。一个很有前景的研究方向是将 FlashAttention 与量化方法相结合。本文介绍了 INT-FlashAttention,这是第一个与 FlashAttention 的正向工作流程兼容的 INT8 量化架构,它显著提高了 FlashAttention 在 Ampere GPU 上的推理速度。我们用全 INT8 激活和通用矩阵乘法 (GEMM) 内核实现了 INT-FlashAttention 原型,使其成为第一个具有全 INT8 输入的注意力运算符。作为一种通用的令牌级训练后量化框架,INT-FlashAttention 也兼容其他数据格式,如 INT4 等。实验结果表明,与使用 FP16 和 FP8 数据格式的标准 FlashAttention 相比,INT-FlashAttention 的推理速度提高了 72%,量化误差降低了 82%。
尽管可解释人工智能 (XAI) 的目标是使人工智能对人类来说易于理解和使用,但它因过于依赖形式主义和解决主义而受到批评,更多地关注数学上的严谨性而不是用户需求。我们提出了一种受设计思维启发的自上而下方法来替代这种自下而上的方法:XAI 研究社区应该采用自上而下、以用户为中心的视角来确保用户相关性。我们用 XAI 中一个相对年轻的子领域——训练数据归因 (TDA) 来说明这一点。随着 TDA 研究的激增和竞争的加剧,该领域有重复解决主义模式的风险。我们对一群多元化的 AI 从业人员进行了需求发现研究,以确定与 TDA 相关的潜在用户需求。通过访谈 (N=10) 和系统调查 (N=31),我们发现了目前在很大程度上被忽视的新 TDA 任务。我们邀请 TDA 和 XAI 社区考虑这些新任务,并提高其研究成果的用户相关性。
近年来,大型语言模型 (LLM) 的能力取得了快速进展,极大地革新了自然语言处理 (NLP) 和人工智能 (AI) 领域,使之能够理解和与人类语言进行交互。因此,在本研究中,我们对相关文献进行了系统性调查,以确定 LLM 开发、影响和局限性的主要主题和方向。我们的研究结果阐明了 LLM 研究的目标、方法、局限性和未来方向。它包括负责任的开发考虑因素、算法改进、伦理挑战以及 LLM 开发的社会影响。总的来说,本文对当前 LLM 研究进行了严格而全面的概述,并确定了未来发展的潜在方向。文章重点介绍了可能对社会产生积极影响的应用领域以及伦理考量。
大型语言模型(LLM)彻底改变了我们与科技的互动方式,但将它们个性化以适应个人用户的偏好仍然是一个重大挑战,特别是在设备上的应用中。传统方法通常严重依赖于标记数据集,并且可能资源密集。为了解决这些问题,我们提出了自适应自监督学习策略(ASLS),它利用自监督学习技术动态地个性化LLM。该框架包括一个用于收集交互数据的用户画像层和一个用于实时模型微调的神经自适应层。这种创新方法能够从用户反馈中持续学习,使模型能够生成与用户特定上下文密切相关的响应。ASLS的自适应机制最大限度地减少了计算需求,提高了个性化效率。在各种用户场景下的实验结果表明,ASLS在提高用户参与度和满意度方面具有优越的性能,突出了其将LLM重新定义为高度响应和上下文感知的设备上系统的潜力。