arXiv 论文列表

作者: Hong Li, Nanxi Li, Yuanjie Chen, Jianbin Zhu, Qinlu Guo, Cewu Lu, Yong-Lu Li

多模态大型语言模型 (MLLMs) 表现出令人印象深刻的能力。然而，最近发现，与人类智能相比，MLLMs 存在许多缺陷，例如幻觉。为了推动 MLLMs 的研究，社区致力于构建具有复杂任务的更大基准。在本文中，我们建议对一项基本但通常被忽视的智能进行基准测试：**联想**，这是人类将观察结果与先前实践记忆联系起来的基本能力。为了全面调查 MLLMs 在联想方面的表现，我们制定了联想任务，并基于形容词和动词语义概念设计了一个标准基准。我们没有采用成本高昂的数据标注和整理，而是提出了一种便捷的**无标注**构建方法，将通用数据集转换为我们的联想任务。同时，我们设计了一个严格的数据细化过程，以消除原始数据集中的混淆。在此数据库的基础上，我们建立了三个级别的联想任务：单步联想、同步联想和异步联想。此外，我们对 MLLMs 的零样本联想能力进行了全面调查，涵盖多个维度，包括三种不同的记忆策略、开源和闭源 MLLMs、最先进的专家混合模型 (MoE) 以及人类专家的参与。我们的系统调查表明，目前开源的 MLLMs 在我们的联想任务中始终表现出较差的能力，即使是目前最先进的 GPT-4V（视觉）与人类相比也存在显著差距。我们相信我们的基准将为未来的 MLLM 研究铺平道路。 _我们的数据和代码可从以下网址获取：_ https://mvig-rhos.com/llm_inception.

发布时间: 10/3/2024

查看原文

FedProx 与外推和近似代理的收敛性研究

作者: Hanmin Li, Peter Richt\'arik

Li 等人（2024a）最近提出了 FedExProx 方法，该方法通过在服务器端进行外推来增强 FedProx 联邦学习算法（Li 等人，2020）。然而，他们的理论分析依赖于每个客户端精确计算某个近端算子的假设，而在实际环境中，这几乎不可能实现。本文在光滑且全局强凸的情况下，研究了 FedExProx 在没有该精确性假设下的行为。我们建立了一个通用的收敛结果，表明不精确性会导致收敛到解的邻域。此外，我们证明了通过仔细控制，可以减轻这种不精确性的负面影响。通过将不精确性与偏差压缩（Beznosikov 等人，2023）联系起来，我们细化了我们的分析，突出了外推对不精确近端更新的鲁棒性。我们还研究了每个客户端使用各种局部优化器实现所需不精确性水平所需的局部迭代复杂度。我们通过全面的数值实验验证了我们的理论见解。

发布时间: 10/3/2024

查看原文

**将学习委托给自动化：大型语言模型聊天机器人、搜索引擎和书籍的比较研究**

作者: Yeonsun Yang, Ahyeon Shin, Mincheol Kang, Jiheon Kang, Jean Young Song

学习是信息搜索行为背后的关键驱动力。随着基于大型语言模型 (LLM) 的聊天机器人的出现，学生越来越多地将这些工具作为获取知识的主要资源。然而，从教科书和网络搜索等传统资源向这些工具的转变引起了教育工作者的担忧。他们担心这些全自动的 LLM 可能会导致学生将搜索的关键步骤委托给机器，从而影响学习。本文系统地揭示了教育工作者从三个主要角度提出的担忧。为了应对这些担忧，我们对 92 名大学生进行了混合方法研究，比较了三种自动化程度不同的学习资源。我们的结果表明，LLM 支持对关键概念的全面理解，而不会促进被动学习，尽管它们在知识保留方面的有效性有限。此外，我们发现学业成绩影响着学习结果和搜索模式。值得注意的是，能力更强的学习者更倾向于通过阅读密集型行为深入参与内容，而不是依赖搜索活动。

发布时间: 10/3/2024

查看原文

火焰：联邦学习部署中自适应和反应式概念漂移缓解方法

作者: Ioannis Mavromatis, Stefano De Feo, Aftab Khan

本文提出了一种名为“联邦学习自适应监控与消除”（FLAME）的新方法，该方法能够在联邦学习（FL）物联网（IoT）环境中检测和缓解概念漂移。概念漂移对部署在动态和现实世界环境中的 FL 模型构成了重大挑战。FLAME 利用 FL 架构，考虑了现实世界的 FL 管道，并证明了其能够在解决带宽和隐私约束的同时维护模型性能和准确性。FLAME 在之前工作的基础上引入了各种特性和扩展，提供了一种强大的概念漂移解决方案，显著降低了计算负荷和通信开销。与知名轻量级缓解方法相比，FLAME 在维护高 F1 分数和降低大型物联网部署中的资源利用率方面表现出优异的性能，使其成为现实世界应用中一种很有前景的方法。

发布时间: 10/3/2024

查看原文

语言模型预训练过程中的知识熵衰减阻碍了新知识的获取

作者: Jiyeon Kim, Hyunji Lee, Hyowon Cho, Joel Jang, Hyeonbin Hwang, Seungpil Won, Youbin Ahn, Dohaeng Lee, Minjoon Seo

本研究探讨了模型在预训练过程中，其将参数化知识广泛整合的倾向如何演变，以及这种行为如何影响整体性能，尤其是在知识获取和遗忘方面。我们引入了知识熵的概念，它量化了模型所使用的记忆来源范围；高知识熵表明模型利用了广泛的记忆来源，而低知识熵则表明模型更依赖于特定的来源。我们的分析表明，随着预训练的进行，知识熵持续下降。我们还发现，这种下降与模型获取和保留知识能力的下降密切相关，这使我们得出结论：知识熵的降低（活跃记忆来源数量减少）会损害模型的知识获取和保留能力。通过证明增加非活跃记忆来源的活动可以增强模型的知识获取和保留能力，我们进一步支持了这一结论。

发布时间: 10/3/2024

查看原文

PCQPR：带有反思机制的主动式对话式问题规划

作者: Shasha Guo, Lizi Liao, Jing Zhang, Cuiping Li, Hong Chen

对话式问题生成（CQG）增强了教育、客户服务和娱乐等领域中的对话式问答系统的交互性。然而，传统的 CQG 主要关注于直接语境，缺乏引导对话走向特定结论的对话前瞻性。这种局限性极大地限制了它们实现以结论为导向的对话结果的能力。在这项工作中，我们通过关注主动性，不仅仅是对正在进行的对话做出反应，而是积极地引导对话走向以结论为导向的问答对，将 CQG 任务重新定义为结论驱动的对话式问题生成（CCQG）。为了解决这个问题，我们提出了一种新方法，称为带有自修正的主动对话式问题规划（PCQPR）。具体而言，通过将受蒙特卡罗树搜索（MCTS）启发的规划算法与大型语言模型（LLM）的分析能力相结合，PCQPR 预测未来的对话回合，并不断改进其提问策略。这种迭代的自修正机制确保了生成与上下文相关的、经过战略性设计以达到特定结果的问题。我们广泛的评估表明，PCQPR 明显优于现有的 CQG 方法，标志着向以结论为导向的对话式问答系统转变的范式转变。

发布时间: 10/3/2024

查看原文

Codev-Bench：大型语言模型如何理解开发者中心的代码补全？

作者: Zhenyu Pan, Rongyu Cao, Yongchang Cao, Yingwei Ma, Binhua Li, Fei Huang, Han Liu, Yongbin Li

代码补全作为代码生成的关键下游任务，是提升软件开发中开发人员效率最常见且最具影响力的方法之一。随着智能补全工具的不断发展，我们需要一个强大的评估基准，以便在产品之间进行有意义的比较，并指导未来的发展。然而，现有的基准更侧重于粗粒度任务，缺乏类似通用代码生成的工业分析，而没有反映开发人员在现实世界中遇到的场景。此外，这些基准通常依赖于昂贵且耗时的标注，而独立的测试用例无法利用最小的测试来最大程度地理解存储库级别并覆盖代码。为了解决这些局限性，我们首先分析了来自工业代码补全工具的业务数据，并重新定义了评估标准，使其更好地与开发人员在整个编码过程中的意图和期望的补全行为相一致。基于这些见解，我们引入了 Codev-Agent，这是一个基于代理的系统，它可以自动执行存储库爬取，构建执行环境，从现有单元测试中提取动态调用链，并生成新的测试样本以避免数据泄露，确保公平有效的比较。使用 Codev-Agent，我们提出了 Code-Development Benchmark (Codev-Bench)，这是一个细粒度、现实世界、存储库级别和以开发人员为中心的评估框架。Codev-Bench 评估代码补全工具是否能够捕捉开发人员的即时意图，并在各种情况下建议合适的代码，为现代软件开发中的代码补全提供更现实的基准。

发布时间: 10/3/2024

查看原文

Takin-VC：基于联合混合内容和记忆增强上下文感知音色建模的零样本语音转换

作者: Yuguang Yang, Yu Pan, Jixun Yao, Xiang Zhang, Jianhao Ye, Hongbin Zhou, Lei Xie, Lei Ma, Jianjun Zhao

零样本语音转换 (VC) 旨在将源说话人的音色转换为任意未见过的音色，而不会改变原始语音内容。虽然最近在零样本 VC 方法方面取得了显著进展，但在提高说话人相似度和语音自然度方面仍有很大的改进空间。本文提出了一种名为 Takin-VC 的新型零样本 VC 框架，该框架基于联合混合内容和记忆增强上下文感知音色建模来应对这一挑战。具体来说，首先提出了一种由神经编解码器训练引导的有效混合内容编码器，该编码器利用来自预训练 WavLM 和 HybridFormer 的量化特征来提取源语音的语言内容。随后，我们介绍了一种先进的基于交叉注意力的上下文感知音色建模方法，该方法学习细粒度的、语义相关的目标音色特征。为了进一步提高说话人相似度和实时性能，我们利用条件流匹配模型来重建源语音的梅尔谱图。此外，我们倡导一种高效的记忆增强模块，旨在为流匹配过程生成高质量的条件目标输入，从而提高所提系统的整体性能。实验结果表明，所提出的 Takin-VC 方法优于最先进的零样本 VC 系统，在语音自然度和说话人相似度方面都取得了优异的性能。

发布时间: 10/3/2024

查看原文

基于物理编码的消息传递图网络用于时空偏微分方程系统

作者: Bocheng Zeng, Qi Wang, Mengtao Yan, Yang Liu, Ruizhi Chengze, Yi Zhang, Hongsheng Liu, Zidong Wang, Hao Sun

求解偏微分方程 (PDE) 是对复杂动力系统进行建模的基石。最近的进展表明，数据驱动的基于神经网络的模型在预测时空动力学方面具有巨大优势（例如，与经典数值方法相比，速度大幅提升）。然而，现有的多数神经网络模型依赖于丰富的训练数据，具有有限的推断和泛化能力，并且在复杂条件下（例如，不规则网格或几何形状、复杂边界条件、不同的 PDE 参数等）难以产生精确或可靠的物理预测。为此，我们提出了一种新的图学习方法，即物理编码消息传递图网络 (PhyMPGN)，用于对给定小型训练数据集的不规则网格上的时空 PDE 系统进行建模。具体而言，我们将 GNN 集成到数值积分器中，以逼近给定 PDE 系统的时空动力学的时间推进。考虑到许多物理现象受扩散过程支配，我们进一步设计了一个可学习的拉普拉斯块，该块对离散拉普拉斯-贝尔特拉米算子进行编码，以帮助和引导 GNN 在物理可行解空间中进行学习。还设计了边界条件填充策略来提高模型收敛性和准确性。大量实验表明，PhyMPGN 能够准确地预测粗糙非结构化网格上的各种时空动力学，始终如一地取得最先进的结果，并且在很大程度上优于其他基线。

发布时间: 10/3/2024

查看原文

大型语言模型中用于零样本跨语言迁移的层交换方法

作者: Lucas Bandarkar, Benjamin Muller, Pritish Yuvraj, Rui Hou, Nayan Singhal, Hongjiang Lv, Bing Liu

模型合并，例如模型混合，是一种将具有相同架构的不同模型组合在一起而不进行进一步训练的做法。在这项工作中，我们提出了一种模型合并方法，该方法解决了在非英语语言中为目标任务微调大型语言模型 (LLMs) 的难题，在这些语言中，特定于任务的数据通常不可用。我们专注于数学推理，在没有语言内部数学数据的情况下，通过组合语言和数学能力来促进跨语言迁移。从同一个预训练模型开始，我们在英语的数学指令数据和目标语言的通用指令数据上分别微调了“专家”。然后，我们用语言专家的层直接替换数学专家的顶部和底部 Transformer 层，这随后提高了目标语言中的数学性能。由此产生的合并模型在数学基准 MGSM 上优于单个专家和其他合并方法，在四种主要语言中提高了 10%，这些语言的数学指令数据很少。此外，这种层交换简单、廉价且直观，因为它基于对每个专家微调过程中最重要的参数变化的解释性分析。能够以这种方式成功地重新组合 LLMs 以进行跨语言迁移，为今后结合模型专业知识、创建模块化解决方案以及跨语言迁移推理能力开辟了可能性，所有这些都在事后完成。

发布时间: 10/3/2024

查看原文