arXiv 论文列表

UniGen：通过零样本数据集生成进行情感分类的通用领域泛化

虽然预训练语言模型通过基于提示的少样本学习展示了极大的灵活性和多功能性，但它们在推理时面临着庞大的参数规模和有限的适用性。最近的研究建议使用预训练语言模型作为数据集生成器，并训练一个微小的特定任务模型以实现高效推理。然而，它们的适用性在各种领域中受到限制，因为它们倾向于生成特定领域的数据集。在这项工作中，我们提出了一种新的通用领域泛化方法，可以生成与目标领域无关的数据集。这使得微小任务模型能够泛化到共享标签空间的任何领域，从而增强了数据生成范式在现实世界中的适用性。我们的实验表明，该方法在使用比预训练语言模型小几个数量级的参数集的同时，实现了跨各种领域的泛化能力。

发布时间: 9/24/2024

查看原文

用一半的数据和减少400倍的计算量训练一个高性能的视网膜基础模型

人工智能在医学中的应用传统上受限于缺乏大规模的训练数据集。基础模型，即可以使用小数据集适应下游任务的预训练模型，可能会缓解这一问题。Moorfields眼科医院（MEH）的研究人员提出了RETFound-MEH，这是一种在包括私立医院数据在内的90万张图像上训练的视网膜基础模型。最近，提出了数据高效的DERETFound，在仅使用15万张公开可用图像进行训练的情况下，提供了相当的性能。然而，这些模型在最初训练时需要非常庞大的资源，并且在下游使用中资源密集。我们提出了一种新颖的Token Reconstruction目标，用于训练RETFound-Green，这是一种仅使用7.5万张公开可用图像和少400倍计算资源训练的视网膜基础模型。我们估算RETFound-MEH和DERETFound的训练成本分别为10,000美元和14,000美元。RETFound-Green的训练成本不到100美元，环境影响也相应减少。RETFound-Green在下游使用中也高效得多：下载速度快14倍，计算向量嵌入速度快2.7倍，占用存储空间减少2.6倍。尽管如此，RETFound-Green的性能并没有系统性地下降。事实上，在来自巴西、印度和中国的三个下游数据集上的各种任务中，在119次比较中它在68项任务中表现最佳，而DERETFound为21项，RETFound-MEH为13项。我们的结果表明，RETFound-Green是一种非常高效且高性能的视网膜基础模型。我们预计我们的Token Reconstruction目标可以扩展以获得更高的性能，并应用于视网膜成像之外的其他领域。

发布时间: 9/24/2024

查看原文

深度证据学习用于放疗剂量预测

在这项工作中，我们展示了一种名为深度证据学习的不确定性量化框架在放射治疗剂量预测领域的新应用。使用开放知识计划挑战数据集的医学图像，我们发现该模型能够有效地生成不确定性估计，这些估计在网络训练完成后继承了与预测误差的相关性。只有在重新制定原始损失函数以实现稳定实施后才实现这一点。我们发现：(i) 认识不确定性与预测误差高度相关，其各种关联指数与蒙特卡罗丢弃和深度集成方法相当或更强，(ii) 在深度证据学习中，认识不确定性的中位误差随不确定性阈值的变化相对于其他两个常规框架更线性，表明对模型误差的敏感性更加均匀校准，(iii) 相对于认识不确定性，反映数据噪声的随机不确定性在响应CT强度中添加的高斯噪声时，其分布发生了更显著的变化。总体而言，我们的结果表明，深度证据学习是一种有前景的方法，可以赋予放射治疗剂量预测中的深度学习模型以统计稳健性。为了增强其临床相关性，我们展示了如何使用此类模型构建预测剂量-体积直方图的置信区间。

发布时间: 9/24/2024

查看原文

组合神经纹理

摘要：纹理在增强真实照片和计算机生成图像的视觉丰富性方面起着至关重要的作用。然而，编辑纹理的过程通常涉及对纹理特征的繁琐且重复的手动调整，这些特征是构成纹理的重复局部模式。本文介绍了一种完全无监督的方法，使用组合神经模型来表示纹理，该模型捕捉单个纹理特征。我们将每个纹理特征表示为二维高斯函数，其空间支持近似其形状，以及编码其详细外观的相关特征。通过将纹理建模为高斯纹理特征的离散组合，这种表示既具有表现力又易于编辑。可以通过在潜在空间中修改组合高斯来编辑纹理，并且可以通过前馈方式将修改后的高斯输入生成网络来高效地合成新纹理。这种方法支持广泛的应用，包括将图像纹理的外观转移到另一张图像上、丰富纹理、纹理插值、揭示/修改纹理变化、编辑传播、纹理动画以及直接纹理特征操作。所提出的方法有助于推进纹理分析、建模和编辑技术，并开辟了创建具有可控纹理的视觉上吸引人的图像的新可能性。

发布时间: 9/24/2024

查看原文

多传感器扩散驱动的大规模光学图像翻译应用

比较不同传感器捕获的图像是遥感中的常见挑战。这需要图像转换——将图像从一个传感器域转换到另一个传感器域，同时保留原始内容。去噪扩散隐式模型（DDIM）在多个经典计算机视觉中的图像到图像转换任务中表现出优越性，被认为是这种域转换的潜在最先进解决方案。然而，这些模型在处理大规模多补丁图像时常常表现出困难，往往只关注小补丁，从而导致整个图像的一致性问题。为克服这些限制，我们提出了一种新方法，利用DDIM在大面积光学图像转换中实现高效。我们的方法将大规模低空间分辨率图像超分辨率转换为不同光学传感器的高分辨率等效图像，确保数百个补丁的一致性。我们的贡献在于新的前向和逆向扩散过程，这对于解决大规模图像转换的挑战至关重要。通过对配对的Sentinel-II和Planet Dove图像数据集进行广泛实验，证明了我们的方法提供了精确的域适应和伪影减少。该方法在提高辐射（颜色）准确性和特征表示的同时，保留了图像内容。最终结果是一个具有一致补丁的高分辨率大规模图像，对于异构变化检测（HCD）等应用至关重要。我们提出了一种基于DDIM的独特训练和测试算法，进行了全面的图像质量评估，并与标准的无分类指导DDIM框架和其他五种领先方法进行了比较研究。我们的方法在贝鲁特（黎巴嫩）和奥斯汀（美国）的城市环境中的HCD任务中进一步展示了其实用性。

发布时间: 9/24/2024

查看原文

Multi-News+: 基于大语言模型的数据标注实现成本高效的数据集清理

数据集的质量对于确保下游任务模型的最佳性能和可靠性至关重要。然而，数据集在构建过程中往往会无意中包含噪声数据。尽管已经有许多尝试通过人工注释来纠正这个问题，但雇佣和管理人工注释员既昂贵又耗时。作为一种替代方法，最近的研究正在探索使用大型语言模型（LLMs）进行数据注释。在这项研究中，我们展示了一个案例研究，扩展了基于LLM的数据注释的应用，通过清洗策略来提升现有数据集的质量。具体而言，我们利用链式思维和多数投票等方法来模仿人工注释，并对广泛用于多文档摘要任务的Multi-News数据集中的无关文档进行分类。通过我们提出的清洗方法，我们引入了一个增强版的Multi-News+。通过使用LLMs进行数据清洗，我们展示了一种高效且有效的提高数据集质量的方法，而无需依赖昂贵的人工注释工作。

发布时间: 9/24/2024

查看原文

杂乱环境中通过手物接触语义映射实现多指机器人手抓取

深度学习模型显著提高了多指手抓取的灵巧操作技术。然而，在杂乱环境中的基于接触信息引导的抓取仍然很少被探索。为了解决这一问题，我们开发了一种通过接触语义图生成杂乱环境中多指手抓取样本的方法。我们引入了一种接触语义条件变分自编码器网络（CoSe-CVAE），用于从物体点云创建全面的接触语义图。我们利用抓取检测方法从接触语义图估计手抓取姿势。最后，设计了一个统一的抓取评估模型来评估抓取质量和碰撞概率，大大提高了在杂乱场景中识别最佳抓取的可靠性。我们的抓取生成方法表现出显著成功，在真实单物体环境中以81.0%的平均抓取成功率和在杂乱场景中以75.3%的抓取成功率超越了最先进的方法至少4.65%。我们还提出了多模态多指抓取数据集生成方法。我们多指手抓取数据集在场景多样性和模态多样性方面优于以前的数据集。数据集、代码和补充材料可以在https://sites.google.com/view/ffh-cluttered-grasping找到。

发布时间: 9/24/2024

查看原文

通过堆叠自编码器和聚类进行地质制图的遥感框架

监督机器学习方法在通过遥感进行地质制图时由于准确标注的训练数据稀缺而面临限制，这可以通过无监督学习（例如降维和聚类）来解决。降维方法在提高地质图准确性方面具有重要作用。尽管传统降维方法可能难以处理非线性数据，无监督深度学习模型如自动编码器可以建模非线性关系。堆叠自动编码器具有多个相互连接的层次，可捕捉对遥感数据有用的层次数据表示。我们提出了一个基于无监督机器学习的框架，使用堆叠自动编码器进行降维，并使用k均值聚类进行地质单元的制图。我们使用Landsat 8、ASTER和Sentinel-2数据集来评估该框架在澳大利亚新南威尔士州西部Mutawintji地区的地质制图效果。我们还将堆叠自动编码器与主成分分析（PCA）和标准自动编码器进行了比较。结果表明，该框架能够生成准确且可解释的地质图，有效区分岩石单元。结果显示，与其他组合相比，堆叠自动编码器与Sentinel-2数据的结合表现出最佳的性能准确性。我们发现，堆叠自动编码器相比于标准自动编码器和PCA能够更好地提取输入数据的复杂和层次表示。我们还发现，生成的地图与研究区域的先前地质知识一致，同时提供了对地质结构的新见解。

发布时间: 9/24/2024

查看原文

WavLLM：迈向稳健且自适应的语音大语言模型

最近在大语言模型（LLM）方面的进展彻底改变了自然语言处理领域，并逐步扩展到多模态感知和生成。然而，将听力能力有效地集成到LLM中面临显著挑战，尤其是在跨不同上下文进行泛化和执行复杂听力任务方面。在这项工作中，我们介绍了WavLLM，这是一种具有双编码器和感知提示的LoRA权重适配器的强大且适应性强的语音大语言模型，经过两阶段课程学习方法优化。通过双编码器，我们解耦了不同类型的语音信息，利用Whisper编码器处理语音的语义内容，并使用WavLM编码器捕捉说话者身份的独特特征。在课程学习框架内，WavLLM首先通过优化混合的基础单一任务建立其基础能力，然后通过更复杂任务如基础任务组合的高级多任务训练进行优化。为了增强对不同任务和指令的灵活性和遵从性，在第二阶段的高级多任务训练中引入了感知提示的LoRA权重适配器。我们在包括ASR、ST、SV、ER等任务的通用语音基准上验证了所提出的模型，并将其应用于如高考英语听力理解集用于SQA和语音CoT评估集等专门数据集。实验表明，所提出的模型在相同模型规模上在一系列语音任务中达到了最先进的性能，展示了在使用CoT方法执行复杂任务时的强大泛化能力。此外，我们的模型在没有专门训练的情况下成功完成了高考任务。代码、模型、音频和高考评估集可以在 \url{aka.ms/wavllm} 获取。

发布时间: 9/24/2024

查看原文

大语言模型增强的强化学习综述：概念、分类与方法

借助丰富的预训练知识和高级通用能力，大型语言模型（LLMs）在多任务学习、样本效率和高级任务规划等方面为增强强化学习（RL）提供了有前景的途径。在这篇综述中，我们对现有的LLM增强RL文献进行了全面回顾，并总结了其相对于传统RL方法的特点，旨在明确研究范围和未来研究方向。利用经典的代理-环境交互范式，我们提出了一种结构化的分类法，以系统地分类LLMs在RL中的功能，包括四个角色：信息处理器、奖励设计者、决策者和生成器。对于每个角色，我们总结了方法，分析了缓解的具体RL挑战，并提供了未来方向的见解。最后，我们讨论了每个角色的比较分析、潜在应用、前景机会和LLM增强RL的挑战。通过提出这一分类法，我们旨在为研究人员提供一个框架，以有效利用LLMs在RL领域，可能加速RL在复杂应用如机器人、自动驾驶和能源系统中的应用。

发布时间: 9/24/2024

查看原文