arXiv 论文列表

MMSearch：评估大型模型作为多模态搜索引擎的潜力

大型语言模型（LLMs）的出现为人工智能搜索引擎（如SearchGPT）铺平了道路，展示了人机交互的新范式。然而，大多数当前的人工智能搜索引擎仅限于纯文本环境，忽视了多模态用户查询以及网页信息中文本与图像交织的特性。最近，大型多模态模型（LMMs）取得了显著进展。然而，它们是否能作为人工智能搜索引擎仍未得到充分探索，使得LMMs在多模态搜索中的潜力成为一个开放的问题。为此，我们首先设计了一个精巧的管道，MMSearch-Engine，赋予任何LMMs多模态搜索能力。在此基础上，我们引入了MMSearch，一个全面的评估基准，用于评估LMMs的多模态搜索性能。精心策划的数据集包含300个手动收集的实例，涵盖14个子领域，与当前LMMs的训练数据无重叠，确保正确答案只能通过搜索获得。通过使用MMSearch-Engine，LMMs通过执行三个独立任务（重新查询、重新排序和总结）以及一个具有完整搜索过程的挑战性端到端任务进行评估。我们对闭源和开源的LMMs进行了广泛的实验。在所有测试的模型中，GPT-4o与MMSearch-Engine结合取得了最佳结果，在端到端任务中超越了商业产品Perplexity Pro，证明了我们提出的管道的有效性。我们进一步进行了错误分析，揭示了当前LMMs在完全掌握多模态搜索任务方面仍面临挑战，并通过消融研究指出了扩展测试时计算在人工智能搜索引擎中的潜力。我们希望MMSearch能为多模态人工智能搜索引擎的未来发展提供独特的见解。项目页面：https://mmsearch.github.io

发布时间: 9/20/2024

查看原文

神经网络在低复杂度数据上的泛化能力

我们展示了具有ReLU激活的前馈神经网络在适当定义的低复杂度数据上具有泛化能力。给定从简单编程语言生成的独立同分布数据，最小描述长度（MDL）前馈神经网络在插值数据的情况下以高概率泛化。我们定义了这种简单编程语言，以及此类网络的描述长度概念。我们提供了几个关于基本计算任务的示例，例如检查自然数的素性等。对于素性测试，我们的定理表明以下内容。假设我们从1到N中均匀随机抽取$\Theta(N^{\delta}\ln N)$个数的独立同分布样本，其中$\delta\in (0,1)$。对于每个数$x_i$，如果$x_i$是素数，则$y_i = 1$，否则$y_i = 0$。那么以高概率，拟合到这些数据的MDL网络能够准确回答新抽取的1到N之间的数是否为素数，测试误差$\leq O(N^{-\delta})$。需要注意的是，该网络并非设计用于检测素数；最小描述学习发现了一个能够做到这一点的网络。

发布时间: 9/20/2024

查看原文

通过反向指令生成低资源语言的高质量指令调优数据集：MURI

指令调优通过使大型语言模型（LLMs）与多样化任务中的人类偏好对齐，从而增强了其性能。传统的创建指令调优数据集的方法由于依赖数据标注，在低资源语言上面临严重挑战。本研究提出了一种新方法——多语言逆向指令（MURI），该方法无需人工标注或预先存在的多语言模型，即可为低资源语言生成高质量的指令调优数据集。利用逆向指令和翻译管道，MURI从低资源语言的现有人类书写文本中生成指令-输出对。该方法通过从不同本土领域获取文本并应用过滤器消除不适当内容，确保了文化相关性和多样性。我们的数据集MURI-IT包含超过200万条指令-输出对，涵盖200种语言。通过母语者评估和mT5模型的微调实验，证明了该方法在自然语言理解和开放式生成方面的有效性。我们公开发布了数据集和模型，链接为https://github.com/akoksal/muri。

发布时间: 9/20/2024

查看原文

轻量级实时双耳语音增强模型及其空间线索保留

arXiv:2409.12444v1 公告类型: 交叉摘要: 双耳语音增强（BSE）旨在同时提高听觉设备接收到的噪声信号的语音质量和可懂度，并保留目标的空间线索，以实现自然的听觉体验。现有方法往往在噪声抑制（NR）能力和空间线索保留（SCP）准确性之间做出妥协，并且在复杂声学场景中计算需求较高。在这项工作中，我们提出了一种基于学习的轻量级双耳复杂卷积网络（LBCCN），该网络通过过滤低频带并保留其余部分来在NR方面表现出色。此外，我们的方法明确纳入了通道间相对声学传递函数的估计，以确保空间线索的保真度和语音清晰度。结果表明，所提出的LBCCN在各种噪声条件下可以达到与最先进方法相当的NR性能，但计算成本更低，SCP效果更好。可复现代码和音频示例可在https://github.com/jywanng/LBCCN获取。

发布时间: 9/20/2024

查看原文

增量式与数据高效的概念形成以支持掩码词预测

本文介绍了一种名为Cobweb4L的新方法，用于支持掩码词预测的高效语言模型学习。该方法基于Cobweb，这是一个增量系统，能够学习概率概念的层次结构。每个概念存储了与该概念标签相关联的实例中出现的词频。系统利用属性值表示法将词及其周围上下文编码为实例。Cobweb4L采用了类别效用的信息论变体，并引入了一种新的性能机制，该机制利用多个概念生成预测。我们证明，通过这些扩展，它显著优于仅使用单一节点生成预测的先前Cobweb性能机制。此外，我们展示了Cobweb4L能够快速学习，并达到与Word2Vec相当甚至更优的性能。接下来，我们表明，在相同任务中，Cobweb4L和Word2Vec在训练数据较少的情况下优于BERT。最后，我们讨论了未来的工作，以使我们的结论更加稳健和全面。

发布时间: 9/20/2024

查看原文

JourneyBench：一个具有挑战性的生成图像一站式视觉语言理解基准

现有视觉语言理解基准主要由处于通常背景中的物体图像组成。因此，最近的多模态大语言模型仅依靠背景语言偏见就能在浅层视觉理解上表现良好。因此，在这些基准上的优异表现并不一定意味着强大的视觉理解能力。本文中，我们发布了JourneyBench，这是一个全面的人工标注生成的图像基准，旨在评估模型在五个任务中的细粒度多模态推理能力：互补多模态思维链、多图像视觉问答、虚构图像描述、带有幻觉触发器的视觉问答以及带有样本特定干扰项的细粒度检索。与现有基准不同，JourneyBench明确要求在非寻常的虚构场景中进行细粒度多模态推理，其中语言偏见和整体图像概要不足以应对。我们在JourneyBench上对最先进的模型进行了基准测试，并分析了多个细粒度维度的表现。所有五个任务的结果显示，JourneyBench对即使是最好的模型也极具挑战性，表明模型的视觉推理能力并不如它们最初表现的那样强大。我们讨论了这些发现的影响，并提出了进一步研究的途径。

发布时间: 9/20/2024

查看原文

FlexiTex：通过视觉引导增强纹理生成

arXiv:2409.12431v1 公告类型: 交叉摘要: 近期纹理生成方法由于利用了大规模文本到图像扩散模型中的强大生成先验，取得了令人印象深刻的结果。然而，抽象的文本提示在提供全局纹理或形状信息方面存在局限性，导致纹理生成方法产生模糊或不一致的图案。为解决这一问题，我们提出了FlexiTex，通过视觉引导嵌入丰富的信息以生成高质量的纹理。FlexiTex的核心是视觉引导增强模块，该模块结合了来自视觉引导的更具体信息，以减少文本提示中的模糊性并保留高频细节。为进一步增强视觉引导，我们引入了一个方向感知适应模块，该模块根据不同的相机姿态自动设计方向提示，避免了Janus问题并保持了语义上的全局一致性。得益于视觉引导，FlexiTex在定量和定性上都产生了良好的结果，展示了其在实际应用中推动纹理生成的潜力。

发布时间: 9/20/2024

查看原文

重新引入LayerNorm：几何意义、不可逆性及与RMSNorm的比较研究

arXiv:2409.12951v1 公告类型: 交叉摘要: 层归一化是Transformer架构中的关键步骤。本文深入探讨了这一过程中较少被研究的几何含义，分析了LayerNorm如何影响表示空间中隐藏向量的范数和方向。我们展示了LayerNorm的定义与均匀向量（定义为$\boldsymbol{1} = [1, 1, 1, 1, \cdots, 1]^T \in \mathbb{R}^d$）之间固有的联系。然后，我们展示了LayerNorm中的标准化步骤可以通过三个简单的步骤来理解：(i) 移除向量沿均匀向量的分量，(ii) 归一化剩余向量，以及(iii) 将结果向量按$\sqrt{d}$缩放，其中$d$是表示空间的维度。我们还引入了LayerNorm的“不可逆性”属性，表明在归一化过程中丢失的信息无法恢复。换句话说，与批量归一化不同，LayerNorm无法学习恒等变换。尽管我们提出了可能的论点来移除沿均匀向量的分量，但这一选择似乎是任意的，并未得到原作者的充分动机。为了评估这一步骤的有用性，我们将基于LayerNorm的LLM的隐藏表示与使用RMSNorm训练的模型进行了比较，结果显示所有LLM自然地将表示对齐到与均匀向量正交的方向，提供了第一个机制证据，表明在LayerNorm中移除沿均匀向量的分量是一个冗余步骤。我们的研究结果支持使用RMSNorm而不是LayerNorm，因为它不仅在计算效率上更高，且在下游性能上相当，还能学习到类似的隐藏表示分布，这些表示在与均匀向量正交的方向上操作。

发布时间: 9/20/2024

查看原文

公平性算法比较评估：从协变量漂移的角度审视

arXiv:2409.12428v1 公告类型: 交叉摘要: 过去几十年，机器学习（ML）应用呈指数级增长，为社会带来了诸多益处。然而，这些益处伴随着ML模型表现出的歧视性行为的担忧。在此背景下，机器学习中的公平性已成为一个优先研究领域。因此，开发了多种公平性指标和算法，以减轻ML模型可能存在的歧视性行为。然而，对于数据模式自然变化（即数据分布漂移）及其对公平性算法和指标的影响，关注甚少。在本研究中，我们全面探讨了这一问题，分析了4种无公平意识的基线算法和7种有公平意识的算法，这些算法精心挑选以涵盖其类型的广度，跨越5个数据集，包括公共和专有数据，并使用3个预测性能和10个公平性指标进行评估。通过这样做，我们展示了（1）数据分布漂移并非微不足道，在许多情况下会导致所谓公平模型的公平性严重恶化；（2）与现有文献相反，数据分布漂移的大小和方向与产生的歧视性行为的大小和方向不相关；（3）数据分布漂移的影响在很大程度上被文献忽视，影响了公平性算法的选择和训练。基于我们的发现，我们总结了数据分布漂移对公平性算法的若干政策影响，这些影响对利益相关者和从业者具有重要意义。

发布时间: 9/20/2024

查看原文

MaskMol：面向活性悬崖的知识引导分子图像预训练框架

活动悬崖是指结构相似但活性差异显著的分子对，可能导致模型表示崩溃，使模型难以区分它们。我们的研究表明，随着分子相似性的增加，基于图的方法难以捕捉这些细微差别，而基于图像的方法则能有效保留这些差异。因此，我们开发了MaskMol，一种知识引导的分子图像自监督学习框架。MaskMol通过考虑原子、键和子结构等多层次的分子知识，准确学习分子图像的表示。通过利用像素掩码任务，MaskMol从分子图像中提取细粒度信息，克服了现有深度学习模型在识别微小结构变化方面的局限性。实验结果表明，MaskMol在活动悬崖估计和化合物活性预测方面具有高准确性和可迁移性，优于25种最先进的深度学习和机器学习方法。可视化分析揭示了MaskMol在识别与活动悬崖相关的分子子结构方面的高生物学可解释性。值得注意的是，通过MaskMol，我们发现了可用于治疗肿瘤的候选EP4抑制剂。本研究不仅提高了对活动悬崖的认识，还引入了一种新的分子图像表示学习和虚拟筛选方法，推动了药物发现，并为结构-活性关系（SAR）提供了新的见解。

发布时间: 9/20/2024

查看原文