为了有效地研究复杂的因果系统,构建简化系统部分的表示方法通常很有用,这些方法通过丢弃不相关细节来保留关键特征。信息瓶颈 (IB) 方法是一种广泛应用于表示学习的方法,它压缩随机变量,同时保留关于目标变量的信息。传统的 IB 等方法纯粹是统计性的,忽略了潜在的因果结构,因此不适合因果任务。我们提出了因果信息瓶颈 (CIB),它是 IB 的因果扩展,它压缩一组选定的变量,同时保持对目标变量的因果控制。该方法产生的表示是因果可解释的,并且可以在推理干预时使用。我们展示了实验结果,证明学习到的表示如预期的那样准确地捕获了因果关系。
大型模型推理正从云端转向边缘,因为人们担心用户交互数据的隐私。然而,边缘设备通常面临着计算能力、内存和带宽有限的困境,需要跨多个设备协作才能运行和加速大型语言模型推理。流水线并行是主流解决方案,但在单用户场景中效率低下,而张量并行则难以应对频繁的通信。本文认为,在资源有限的设备上,张量并行比流水线更有效,并提出了一种计算和内存高效的张量并行推理系统,名为TPI-LLM,用于服务700亿规模的模型。TPI-LLM将敏感的原始数据保存在用户的设备中,并引入滑动窗口内存调度器,在推理过程中动态管理层级权重,将磁盘I/O延迟与计算和通信重叠。这使得更大的模型能够在内存有限的设备上平稳运行。我们分析了通信瓶颈,发现链接延迟而非带宽成为主要问题,因此实施了基于星形的全约简算法。通过在模拟和真实测试平台上的大量实验,TPI-LLM在时间到第一个词元和词元延迟方面比Accelerate减少了80%以上,比Transformers和Galaxy减少了90%以上,同时将Llama 2-70B的峰值内存占用减少了90%,只需3.1 GB的内存即可运行700亿规模的模型。
在随机环境中学习模型通常涉及学习一般结构规则和实例的特定属性。本文研究了各种学习方法中学习一般和特定之间的相互作用,重点关注样本效率。我们设计了一个名为 {\sc LeverWorlds} 的框架,它允许生成遵循类似生成过程但具有不同分布的简单物理启发世界,并且它们的实例可以用自然语言表达。这些世界允许进行受控实验,以评估不同学习方法的样本复杂度。我们对经典学习算法和 Transformer 语言模型进行了实验,包括微调和上下文学习 (ICL)。我们的一般发现是:(1) Transformer 通常能成功完成任务;但 (2) 它们在样本效率方面远不如对结构做出更强假设的经典方法,例如最大似然估计和逻辑回归。这一发现与最近将 Transformer 用作通用估计器的趋势相矛盾。我们提出了一种方法,该方法利用现代语言模型的 ICL 能力来应用简单的算法处理这种类型的数据。我们的实验表明,模型目前难以完成任务,但显示出很有希望的潜力。
近年来,由于人工智能(AI)和人机交互(HRI)等领域的最新突破,人机协作(HRC)已成为一个极具潜力的研究方向。这种新兴的发展趋势增加了对设计能够管理人类偏好的多智能体算法的需求。本文提出了一种蚁群优化(ACO)元启发式算法的扩展,用于解决人类和机器人共同执行物体搜索任务时的最小时间搜索(MTS)问题。该模型由两个主要模块组成。第一个模块是一个卷积神经网络(CNN),它根据分割后的图像提供目标可能存在位置的先验概率。第二个模块是子先验 MTS-ACO 算法(SP-MTS-ACO),该算法将先验概率和不同子先验中各个智能体的特定搜索偏好作为输入,为所有智能体生成搜索计划。该模型已在真实实验中进行了测试,通过平板电脑上的 Vizanti 网络可视化平台共同搜索一个目标。设计的界面允许人类与我们的类人机器人 IVO 之间的通信。实验结果表明,在不降低效率的情况下,提高了用户的搜索感知能力。
本文研究了利用先进的超分辨率技术将 Sentinel-2 频段中的光谱信息分辨率提高两倍。文章比较了最先进的 CNN 模型和增强的 GAN 方法在质量和可行性方面的表现。因此,需要一个包含 Sentinel-2 低分辨率图像和对应高分辨率航空正射影像的代表性数据集。文献研究表明,目前尚无针对目标土地类型(森林)的可行数据集,因此需要额外生成一个适当的数据集,并考虑准确的对齐和图像源优化。结果表明,虽然基于 CNN 的方法能够产生令人满意的结果,但它们往往会生成模糊的图像。相比之下,基于 GAN 的模型不仅能够生成清晰详细的图像,而且在定量评估方面也表现出优异的性能,这表明该框架在所研究的特定土地类型之外具有潜力。
近年来,研究人员致力于利用多语言预训练语言模型 (mPLMs) 来扩展跨多种语言的语义解析 (SP),而无需大量标注数据。然而,实现语义解析的零样本跨语言迁移仍然具有挑战性,导致源语言和目标语言之间存在性能差距。在本研究中,我们提出了跨语言反向解析 (CBP),这是一种新颖的数据增强方法,旨在增强语义解析的跨语言迁移。CBP 利用 mPLMs 的表示几何结构,从源语义表示中合成目标语言的语句。我们的方法通过仅利用源语言中的标注数据和单语语料库,在具有挑战性的零资源环境中有效地执行跨语言数据增强。在两个跨语言语义解析基准数据集 (Mschema2QA 和 Xspider) 上进行的大量实验表明,CBP 在目标语言上带来了显著的提升。对合成语句的进一步分析表明,我们的方法成功地生成了具有高槽值对齐率的,同时保留了语义完整性的目标语言语句。我们的代码和数据已在 https://github.com/deokhk/CBP 上公开发布。
本文提出了一种使用合成模式而不是真实音频数据来预训练音频编码器的方案。我们提出的框架包含两个关键要素。第一个是掩码自动编码器(MAE),这是一种自监督学习框架,它从重建随机掩码对应的数据中学习。MAE 倾向于关注低级信息,例如数据中的视觉模式和规律性。因此,输入中描绘的内容无关紧要,无论是图像、音频梅尔谱图,还是合成模式。这导致了第二个关键要素,即合成数据。与真实音频不同,合成数据不受隐私和许可侵权问题的困扰。通过将 MAE 和合成模式相结合,我们的框架使模型能够在没有真实数据的情况下学习泛化特征表示,同时解决与真实音频相关的问题。为了评估我们框架的有效性,我们在总共 13 个音频任务和 17 个合成数据集上进行了大量实验。这些实验提供了关于哪些类型的合成模式对音频有效的见解。我们的结果表明,我们的框架实现了与在 AudioSet-2M 上预训练的模型相当的性能,并在某些方面优于基于图像的预训练方法。
近年来,偏好对齐方面的突破显著提升了大型语言模型生成符合人类偏好和价值观的文本的能力。然而,当前的对齐指标通常强调事后的整体改进,而忽略了一个关键方面:回归,指的是更新后在先前正确处理的数据上出现倒退。这种潜在的缺陷可能源于对已经对齐良好的数据进行过度微调,从而导致过度对齐和退化。为了应对这一挑战,我们提出了FlipGuard,一种通过焦点注意力来检测和缓解更新回归的约束优化方法。具体来说,FlipGuard使用定制的奖励特征识别性能下降,并在训练过程中战略性地施加约束,以鼓励与预对齐模型的条件一致性。综合实验表明,FlipGuard有效地缓解了更新回归,同时展现出优异的整体性能,并具有在对齐偏好的同时保留知识的额外优势。
本研究致力于开发一种配备修剪工具和立体视觉摄像头的无人机,以精确检测和测量树枝的空间位置。YOLO 用于枝条分割,同时研究了单目和立体两种深度估计方法。与 SGBM 相比,深度学习技术产生了更精细和准确的深度图。在没有地面实况数据的情况下,应用了使用深度神经网络的微调过程来近似最佳深度值。这种方法有助于精确的枝条检测和距离测量,解决了修剪操作自动化中的关键挑战。结果表明,在准确性和效率方面都取得了显著进步,突出了深度学习推动农业领域创新和增强自动化的潜力。
跨语言摘要旨在通过对不同语言的文档进行摘要来消除语言障碍。然而,确保跨语言的语义连贯性是一个被忽视的挑战,在许多情况下至关重要。为了填补这一空白,我们引入了多目标跨语言摘要,其任务是将文档摘要成多种目标语言,同时确保生成的摘要在语义上相似。我们针对这个问题提出了一种原则性的重新排序方法,并提出了一种多标准评估协议来评估跨目标语言的语义连贯性,这标志着迈出了第一步,希望能够激发对这个问题的进一步研究。