arXiv 论文列表

作者: Jeremy I Skipper, Joanna Kuc, Greg Cooper, Christopher Timmermann

语言与意识之间存在怎样的关系？语言的功能在于对感知体验（例如，将内感受状态标记为“快乐”）和更高层次的结构（例如，使用“我”来代表叙事自我）进行分类。迷幻药的使用和冥想可以被描述为改变了意识状态，从而削弱或有意地改变了语言分类的能力。例如，迷幻药的现象学通常以“海洋般的无限”或“统一”和“自我消解”为特征，这可能是对一个不受固有语言类别束缚的系统的预期。如果语言崩溃在产生这种改变的行为中起作用，那么当注意力从语言转移时，多模态人工智能可能更符合这些现象学描述。我们通过比较模拟改变状态后的语义嵌入空间（在 CLIP 和 FLAVA 模型中操纵注意力权重后）与改变状态问卷在操纵前的嵌入空间来检验这一假设。与随机文本和各种其他改变状态（包括焦虑）相比，模型更符合无形体、无自我、精神和统一的状态，以及最小的现象体验，同时减少了对语言和视觉的关注。减少对语言的关注与独特的语言模式和语义类别内（尤其是跨类别）的模糊嵌入相关（例如，“长颈鹿”变得更像“香蕉”）。这些结果支持了语言分类在意识改变状态现象学中的作用，例如在服用高剂量迷幻药或专注冥想时所经历的状态，这些状态通常会导致精神健康和福祉的改善。

发布时间: 10/2/2024

查看原文

乐于助人的狗狗机器人：使用腿式机器人和视觉语言模型进行开放世界物体抓取

作者: Qi Wu, Zipeng Fu, Xuxin Cheng, Xiaolong Wang, Chelsea Finn

基于学习的方法在四足动物运动方面取得了显著的成果。然而，一些挑战阻碍了四足动物学习有用的室内技能，这些技能需要与环境和人类互动：缺乏用于操作的末端执行器、仅使用模拟数据有限的语义理解，以及在室内环境中的低可穿越性和可达性。我们提出了一个用于室内环境中四足动物移动操作的系统。它使用一个前置抓取器进行物体操作，一个在模拟中使用以自我为中心的深度训练的低级控制器，用于实现敏捷技能，如攀爬和全身倾斜，以及使用第三人称鱼眼和以自我为中心的 RGB 相机的预训练视觉语言模型 (VLM)，用于语义理解和命令生成。我们在两个未见的环境中对我们的系统进行了评估，没有进行任何真实世界的数据收集或训练。我们的系统可以零样本推广到这些环境并完成任务，例如在爬过一张双人床后，按照用户的指令去取一个随机放置的毛绒玩具，成功率为 60%。项目网站：https://helpful-doggybot.github.io/

发布时间: 10/2/2024

查看原文

基于指令微调的大型语言模型的零样本危机推文分类

作者: Emma McDaniel, Samuel Scheele, Jeff Liu

社交媒体帖子通常被视为灾难应对中宝贵的情报来源，并且在危机推文数据集上评估了预训练语言模型 (LLM) 之前的自然语言处理技术。我们评估了三个商业大型语言模型（OpenAI GPT-4o、Gemini 1.5-flash-001 和 Anthropic Claude-3-5 Sonnet）在对短社交媒体帖子进行零样本分类方面的能力。在一个提示中，要求模型执行两个分类任务：1) 识别帖子在人道主义背景下是否具有信息性；2) 对帖子进行排名，并提供与 16 种可能的人道主义类别相关的概率。被分类的帖子来自合并的危机推文数据集 CrisisBench。结果使用宏观、加权和二元 F1 分数进行评估。信息性分类任务通常在没有额外信息的情况下表现更好，而对于人道主义标签分类，提供推文被挖掘时发生的事件，则会带来更好的性能。此外，我们发现模型在不同数据集上的性能差异显著，这引发了关于数据集质量的疑问。

发布时间: 10/2/2024

查看原文

面向葡萄牙语医疗领域的 LLM 适配：微调与模型评估研究

作者: Pedro Henrique Paiola, Gabriel Lino Garcia, Jo\~ao Renato Ribeiro Manesco, Mateus Roder, Douglas Rodrigues, Jo\~ao Paulo Papa

本研究评估了大型语言模型 (LLM) 作为葡萄牙语医疗代理的性能，旨在开发可靠且相关的医疗保健专业人员虚拟助手。使用 GPT-3.5 将 HealthCareMagic-100k-en 和 MedQuAD 数据集从英语翻译成葡萄牙语，并使用 PEFT-QLoRA 方法对 ChatBode-7B 模型进行微调。最初在医疗数据上进行训练的 InternLM2 模型表现出最佳整体性能，在准确率、完整性和安全性等指标上具有高精度和适当性。然而，源自 ChatBode 的 DrBode 模型表现出灾难性遗忘已获得的医疗知识的现象。尽管如此，这些模型在语法性和连贯性等方面经常表现出色甚至更好。一个重大挑战是评审者间一致性低，突出了对更稳健评估协议的需求。这项工作为未来的研究铺平了道路，例如评估针对医疗领域的特定多语言模型，提高训练数据的质量，以及为医疗领域开发更一致的评估方法。

发布时间: 10/2/2024

查看原文

超越单一概念向量：用高斯分布在大型语言模型中建模概念子空间

作者: Haiyan Zhao, Heng Zhao, Bo Shen, Ali Payani, Fan Yang, Mengnan Du

大型语言模型（LLMs）在众多自然语言处理任务中取代了传统方法。然而，在命名实体识别（NER）中，现有的基于 LLMs 的方法...

发布时间: 10/2/2024

查看原文

基于费雪信息的、用于大型语言模型的有效课程联邦学习

作者: Ji Liu, Jiaxiang Ren, Ruoming Jin, Zijie Zhang, Yang Zhou, Patrick Valduriez, Dejing Dou

作为一种很有前景的范式，联邦学习 (FL) 可以利用分散的数据协作训练模型，并用于微调大型语言模型 (LLM)。虽然 LLM 对应着巨大的规模，但训练数据的规模显著增加，导致巨大的计算和通信成本。训练数据通常是非独立同分布 (non-IID) 的，这需要在每个设备中进行自适应数据处理。虽然低秩自适应 (LoRA) 可以显著减少微调过程中需要更新的参数规模，但将所有 LLM 层的低秩参数传输仍然需要不可接受的时间。在本文中，我们提出了一种基于费舍尔信息的有效课程联邦学习框架 (FibecFed)，该框架包含两种新方法，即自适应联邦课程学习和高效稀疏参数更新。首先，我们提出了一种基于费舍尔信息的算法，用于自适应地对每个设备中的数据进行采样，以提高 FL 微调过程的有效性。其次，我们动态地选择合适的层进行全局聚合，并选择稀疏参数进行 LoRA 的局部更新，从而提高 FL 微调过程的效率。基于 10 个数据集的广泛实验结果表明，与 17 种基线方法相比，FibecFed 实现了优异的性能（准确率提高了 45.35%）和极快的微调速度（速度提高了 98.61%）。

发布时间: 10/2/2024

查看原文

基于笛卡尔遗传编程的卷积神经网络设计方法

作者: Krzywda Maciej, {\L}ukasik Szymon, Gandomi H. Amir

本研究提出了一种基于笛卡尔遗传编程 (CGP) 的神经架构搜索 (NAS) 方法，用于设计和优化卷积神经网络 (CNN)。在设计人工神经网络时，创新方法的关键方面之一是提出一种新的神经架构。目前使用的架构大多是由人类专家手动开发的，这是一个耗时且容易出错的过程。在这项工作中，我们使用纯粹的遗传编程方法来设计 CNN，该方法仅采用一种遗传操作，即突变。在初步实验中，我们的方法取得了令人鼓舞的结果。

发布时间: 10/2/2024

查看原文

ACE：基于扩散变换器，全方位遵循指令的创造者和编辑器

作者: Zhen Han, Zeyinzi Jiang, Yulin Pan, Jingfeng Zhang, Chaojie Mao, Chenwei Xie, Yu Liu, Jingren Zhou

扩散模型已成为一种强大的生成技术，并已发现可应用于各种场景。大多数现有的基础扩散模型主要针对文本引导的视觉生成而设计，不支持多模态条件，而多模态条件对于许多视觉编辑任务至关重要。这种限制阻碍了这些基础扩散模型在视觉生成领域成为像 GPT-4 在自然语言处理领域那样的统一模型。在这项工作中，我们提出了 ACE，一个全能的创建者和编辑器，它在各种视觉生成任务中实现了与那些专家模型相当的性能。为了实现这一目标，我们首先引入了一种名为长上下文条件单元 (LCU) 的统一条件格式，并提出了一种新颖的基于 Transformer 的扩散模型，该模型使用 LCU 作为输入，旨在跨各种生成和编辑任务进行联合训练。此外，我们提出了一种有效的数据收集方法来解决缺乏可用训练数据的问题。它涉及通过基于合成的或基于聚类的管道获取成对图像，并通过利用微调的多模态大型语言模型为这些对提供准确的文本指令。为了全面评估我们模型的性能，我们建立了一个跨各种视觉生成任务的手动标注对数据的基准。广泛的实验结果证明了我们的模型在视觉生成领域的优越性。得益于我们模型的多功能性，我们可以轻松地构建一个多模态聊天系统，该系统可以使用单个模型作为后端来响应任何图像创建的交互式请求，从而避免了视觉代理中通常使用的繁琐管道。代码和模型将在项目页面上提供：https://ali-vilab.github.io/ace-page/。

发布时间: 10/2/2024

查看原文

逆问题扩散模型综述

作者: Giannis Daras, Hyungjin Chung, Chieh-Hsin Lai, Yuki Mitsufuji, Jong Chul Ye, Peyman Milanfar, Alexandros G. Dimakis, Mauricio Delbracio

扩散模型因其生成高质量样本的能力，在生成式建模领域越来越受欢迎。这为解决逆问题，特别是通过将扩散模型视为无监督先验进行的图像恢复和重建，打开了激动人心的新可能性。本综述全面概述了利用预训练扩散模型解决逆问题的方法，而无需进一步训练。我们根据这些方法解决的问题和采用的技术对它们进行了分类。我们分析了不同方法之间的联系，提供了关于其实际实现的见解，并强调了重要的注意事项。我们进一步讨论了使用潜在扩散模型解决逆问题所面临的具体挑战和潜在解决方案。本工作旨在成为那些对了解扩散模型与逆问题交叉领域感兴趣的人的宝贵资源。

发布时间: 10/2/2024

查看原文

基于图残差噪声学习网络的大脑连接图预测

作者: Oytun Demirbilek, Tingying Peng, Alaa Bessadok

描绘连接指纹的形态学脑图对于绘制脑部连接障碍模式至关重要。此类数据由于耗时且不完整的脑影像处理流程等原因，经常会出现缺失观测值。因此，从源图预测目标脑图对于以最少的采集资源更好地诊断神经系统疾病至关重要。许多脑图生成模型被提出并取得了可喜的结果，但它们大多基于生成对抗网络 (GAN)，这可能会导致模式崩溃，并且需要大量训练数据集。扩散模型的最新发展通过提供稳定训练目标和易于扩展等基本特性来解决这些问题。然而，将扩散过程应用于图边会导致无法保持脑连接矩阵的拓扑对称性。为了应对这些挑战，我们提出了图残差噪声学习网络 (Grenol-Net)，这是第一个用于从源图预测目标图的图扩散模型。

发布时间: 10/2/2024

查看原文