arXiv 论文列表

作者: Mingyuan Yao, Yukang Huo, Qingbin Tian, Jiayin Zhao, Xiao Liu, Ruifeng Wang, Lin Xue, Haihua Wang

利用深度学习技术进行鱼类追踪可以实现对疾病或饥饿导致的异常鱼类行为的早期检测，这对于工业化水产养殖具有重要意义。然而，水下反射以及鱼类本身的一些因素，例如高度相似性、刺激导致的快速游动以及相互遮挡，给鱼类多目标追踪带来了挑战。为了解决这些挑战，本文建立了一个复杂的多场景鲟鱼追踪数据集，并引入了 FMRFT 模型，这是一个实时端到端鱼类追踪解决方案。该模型整合了低视频内存消耗的 Mamba In Mamba (MIM) 架构，该架构有助于多帧时间记忆和特征提取，从而解决了跨帧追踪多条鱼的挑战。此外，FMRFT 模型结合了查询时间序列交叉 (QTSI) 模块，利用 RT-DETR 的卓越特征交互和先前帧处理能力，有效地管理了遮挡物体并减少了冗余追踪帧。这种组合显著提高了鱼类追踪的准确性和稳定性。在该数据集上进行训练和测试后，该模型实现了 90.3% 的 IDF1 分数和 94.3% 的 MOTA 准确率。实验结果表明，所提出的 FMRFT 模型有效地解决了鱼群中高度相似性和相互遮挡的挑战，能够在工厂化养殖环境中实现准确的追踪。

发布时间: 10/14/2024

查看原文

掩码生成编解码器Transformer：零样本文本转语音

作者: Yuancheng Wang, Haoyue Zhan, Liwei Liu, Ruihong Zeng, Haotian Guo, Jiachen Zheng, Qiang Zhang, Xueyao Zhang, Shunsi Zhang, Zhizheng Wu

近年来，大规模文本转语音 (TTS) 系统通常被分为自回归系统和非自回归系统。自回归系统隐式地对时长进行建模，但在稳健性和时长可控性方面存在一定的缺陷。非自回归系统在训练过程中需要文本和语音之间的显式对齐信息，并预测语言单位（例如音素）的时长，这可能会影响其自然度。在本文中，我们介绍了掩码生成编解码器 Transformer (MaskGCT)，这是一种完全非自回归的 TTS 模型，它消除了对文本和语音监督之间显式对齐信息的需要，以及音素级别的时长预测。MaskGCT 是一种两阶段模型：在第一阶段，模型使用文本预测从语音自监督学习 (SSL) 模型中提取的语义标记，在第二阶段，模型根据这些语义标记预测声学标记。MaskGCT 遵循掩码和预测学习范式。在训练期间，MaskGCT 学习根据给定的条件和提示预测掩码的语义或声学标记。在推理期间，模型以并行的方式生成指定长度的标记。在 100,000 小时的野外语音上的实验表明，MaskGCT 在质量、相似性和可理解性方面优于当前最先进的零样本 TTS 系统。音频样本可在 https://maskgct.github.io/ 获取。

发布时间: 10/14/2024

查看原文

大型语言模型也会幻觉图：结构视角

作者: Erwan Le Merrer, Gilles Tredan

众所周知，大型语言模型 (LLMs) 会产生幻觉，即它们将不正确的信息作为事实返回。本文介绍了一种以结构化形式（图）研究这些幻觉的可能性。在此背景下，幻觉是指在提示文献中已知图（例如空手道俱乐部、悲惨世界、图集）时产生的不正确输出。这些幻觉图的优势在于它们比陈述的事实准确性（或不准确性）要丰富得多；因此，本文认为这种丰富的幻觉可以用来描述大型语言模型的输出。我们的第一个贡献是观察到主要现代大型语言模型的拓扑幻觉的多样性。我们的第二个贡献是提出了一种衡量这种幻觉幅度的指标：图集距离，即从图集集中多个图的平均图编辑距离。我们将该指标与幻觉排行榜进行比较，幻觉排行榜利用 10,000 倍以上的提示来获得其排名。

发布时间: 10/14/2024

查看原文

等等，这不是选项：多选题中错误选项对大型语言模型鲁棒性的影响

作者: Gracjan G\'oral, Emilia Wi\'snios, Piotr Sankowski, Pawe{\l} Budzianowski

在完全一致的情况下进行决策需要在推理和忠实性之间取得平衡，这对大型语言模型 (LLMs) 来说是一个挑战。本研究探讨了当 LLMs 接受“误导性”指令（例如“只用 A 或 B 回答”）时，即使两个选项都不正确，它们是否会优先遵循指令而不是推理和真实性。我们引入了一个新的指标称为“反思性判断”，它为预训练和后训练对齐方案之间的关系提供了新的视角。在从基本算术到特定领域评估的任务中，GPT-4o、o1-mini 或 Claude 3 Opus 等模型正确地遵循了指令，但未能反思所提供选项的有效性。相反，来自 Llama 3.1 家族（8B、70B、405B）或基础 Qwen2.5（7B、14B、32B）家族的模型表现出随着规模增长的拒绝率提高，表明存在规模效应。我们还观察到，虽然对齐技术旨在增强推理能力，但有时会削弱模型拒绝不正确指令的能力，导致它们无批判性地遵循有缺陷的提示。最后，我们还进行了一项平行的人类研究，揭示了人类行为和注释中类似的模式。我们强调了流行的 RLHF 数据集如何由于注释表现出较差的反思性判断而可能破坏训练或评估。

发布时间: 10/14/2024

查看原文

对齐大型语言模型的安全层：LLM 安全的关键

作者: Shen Li, Liuyi Yao, Lan Zhang, Yaliang Li

对齐的大语言模型（LLMs）是安全的，能够识别和拒绝回答恶意问题。然而，内部参数在维护这种安全方面的作用尚不清楚，而且这些模型在使用非恶意后门或正常数据微调时，可能会出现安全性能下降。为了解决这些挑战，我们的工作在参数层面揭示了对齐的LLMs中安全机制，识别出模型中间一小部分连续层，这些层对于区分恶意查询和正常查询至关重要，称为“安全层”。我们首先通过分析模型内部层中输入向量的变化来确认这些安全层的存在。此外，我们利用过度拒绝现象和参数缩放分析来精确定位安全层。基于这些发现，我们提出了一种新的微调方法，安全部分参数微调（SPPFT），该方法在微调期间固定安全层的梯度，以解决安全性能下降问题。我们的实验表明，与完全微调相比，所提出的方法可以显著保留LLM安全，同时保持性能并减少计算资源。

发布时间: 10/14/2024

查看原文

地理定位中的群体智能：基于多智能体大型视觉-语言模型的协作框架

作者: Xiao Han, Chen Zhu, Xiangyu Zhao, Hengshu Zhu

视觉地理定位需要深入的知识和先进的推理能力，才能将图像与现实世界中的地理位置精确地关联起来。一般来说，基于数据匹配的传统方法受到存储全球地标的充足视觉记录的不可行性的阻碍。最近，大型视觉语言模型 (LVLM) 已经证明了通过视觉问答 (VQA) 进行地理定位的能力，提供了一种不需要外部地理标记图像记录的解决方案。然而，单个 LVLM 的性能仍然受到其内在知识和推理能力的限制。为了解决这些挑战，我们引入了 smileGeo，这是一种新颖的视觉地理定位框架，它利用在基于代理的架构中运行的多个互联网支持的 LVLM 代理。通过促进代理间通信，smileGeo 将这些代理的内在知识与额外的检索信息相结合，增强了有效定位图像的能力。此外，我们的框架采用动态学习策略，优化代理之间的通信，最大限度地减少冗余交互并提高整体系统效率。为了验证所提出框架的有效性，我们在三个不同的数据集上进行了实验，结果表明，我们的方法显著优于当前最先进的方法。源代码可在 https://anonymous.4open.science/r/ViusalGeoLocalization-F8F5 获取。

发布时间: 10/14/2024

查看原文

SSL-TTS：利用自监督嵌入和kNN检索实现零样本多说话人TTS

作者: Karl El Hajal, Ajinkya Kulkarni, Enno Hermann, Mathew Magimai. -Doss

尽管最近的零样本多说话人文本转语音 (TTS) 模型取得了令人印象深刻的结果，但它们通常依赖于来自众多说话人的大量转录语音数据集以及复杂的训练流程。同时，自监督学习 (SSL) 语音特征已成为 TTS 的有效中间表示。还观察到来自不同说话人的线性接近的 SSL 特征共享语音信息，同时保持个体说话人身份，这使得直接且稳健的语音克隆成为可能。在本研究中，我们介绍了 SSL-TTS，这是一个轻量级且高效的零样本 TTS 框架，在来自单个说话人的转录语音上进行训练。SSL-TTS 利用 SSL 特征和检索方法来实现简单而稳健的零样本多说话人合成。客观和主观评估表明，我们的方法实现了与最先进模型相当的性能，而这些模型需要明显更大的训练数据集。较低的训练数据要求意味着 SSL-TTS 非常适合开发用于低资源领域和语言的多说话人 TTS 系统。我们还引入了一个插值参数，它可以通过混合声音来实现对输出语音的精细控制。演示样本可在以下网址获取：https://idiap.github.io/ssl-tts

发布时间: 10/14/2024

查看原文

基于状态的势博弈的迁移学习在分散式制造系统中的过程优化应用

作者: Steve Yuwono, Dorothea Schwung, Andreas Schwung

本文提出了一种基于状态的势博弈中的新型迁移学习方法（TL-SbPGs），用于增强制造系统的分布式自优化。该方法侧重于实际相关的工业环境，其中在行为相似的玩家之间共享和转移获得的知识可以改善大型系统的自学习机制。通过 TL-SbPGs，其他玩家可以重复利用获得的知识来优化其策略，从而提高玩家的学习成果并加速学习过程。为了实现这一目标，我们开发了玩家的迁移学习概念和相似性标准，这提供了两种不同的设置：（a）玩家之间的预定义相似性，以及（b）在训练期间动态推断的玩家之间的相似性。我们正式证明了 SbPG 框架在迁移学习中的适用性。此外，我们还引入了一种有效的方法来确定训练阶段中迁移学习过程的最佳时机和权重。通过在实验室规模测试台上的实验，我们证明 TL-SbPGs 显着提高了生产效率，同时降低了生产计划的功耗，同时还优于原生 SbPGs。

发布时间: 10/14/2024

查看原文

基于迭代式后续问题的医学检索增强生成改进

作者: Guangzhi Xiong, Qiao Jin, Xiao Wang, Minjia Zhang, Zhiyong Lu, Aidong Zhang

大型语言模型 (LLMs) 在解决医学问题方面展现出巨大潜力。它们可以拥有相当多的医学知识，但仍然可能出现幻觉，并且在知识更新方面缺乏灵活性。虽然检索增强生成 (RAG) 被提出来增强 LLM 利用外部知识库进行医学问答的能力，但它在需要多轮信息搜索的复杂情况下仍然可能失败。为了解决这个问题，我们提出了针对医学的迭代式 RAG（i-MedRAG），其中 LLM 可以基于之前的信息搜索尝试迭代地提出后续问题。在 i-MedRAG 的每次迭代中，后续问题将由传统的 RAG 系统回答，并进一步用于指导下一迭代中的问题生成。我们的实验表明，与美国医学执照考试 (USMLE) 中临床片段中的复杂问题以及 Massive Multitask Language Understanding (MMLU) 数据集中各种知识测试相比，i-MedRAG 提高了各种 LLM 的性能。值得注意的是，我们的零样本 i-MedRAG 在 GPT-3.5 上超越了所有现有的提示工程和微调方法，在 MedQA 数据集上实现了 69.68% 的准确率。此外，我们描述了 i-MedRAG 在不同迭代的后续问题和每次迭代的不同问题数量下的扩展属性。我们的案例研究表明，i-MedRAG 可以灵活地提出后续问题以形成推理链，从而对医学问题进行深入分析。据我们所知，这是首次将后续问题纳入医学 RAG 的研究。i-MedRAG 的实现可在 https://github.com/Teddy-XiongGZ/MedRAG 获取。

发布时间: 10/14/2024

查看原文

医疗领域的情感推理

作者: Khai-Nguyen Nguyen, Khai Le-Duc, Bach Phan Tat, Duy Le, Long Vo-Dang, Truong-Son Hy

人工智能医疗决策的透明度对于建立人工智能与用户之间的信任至关重要。将推理能力融入大型语言模型 (LLM) 使其能够理解上下文中的情感，处理细微的语言，并推断未言明的情绪。在本研究中，我们针对语音和文本模式引入了新的任务——情感推理，以及我们提出的多模态多任务框架和数据集。情感推理是情感分析中的辅助任务，其中模型根据输入转录预测情感标签并生成其背后的理由。我们对人工转录和自动语音识别 (ASR) 转录进行的研究表明，情感推理通过提供与人类在语义上可比的质量的模型预测理由来帮助提高模型透明度，同时通过理由增强微调来提高模型性能（准确率和宏观 F1 分数均提高 1%）。此外，人类和 ASR 转录生成的理由的语义质量没有显着差异。所有代码、数据（英语翻译和越南语）和模型已在网上发布：https://github.com/leduckhai/MultiMed。

发布时间: 10/14/2024

查看原文