隐式神经表示(INR)最近作为一种强大的方法受到关注,它可以使用多层感知器(MLP)连续表示图像、视频和3D形状等信号。然而,众所周知,MLP 存在低频偏差,限制了其准确捕捉高频细节的能力。这种限制通常通过结合高频输入嵌入或专门的激活层来解决。在这项工作中,我们证明这些嵌入和激活通常配置的超参数平均表现良好,但在所考虑的特定输入信号方面却次优,需要代价高昂的网格搜索才能确定最佳设置。我们的关键观察是,未经训练的模型输出的初始频谱与其在给定目标信号上的最终性能密切相关。利用这一见解,我们提出了频移(FreSh)方法,该方法选择嵌入超参数以使模型初始输出的频谱与目标信号的频谱对齐。我们表明,这种简单的初始化技术提高了各种神经表示方法和任务的性能,实现了与广泛的超参数扫描相当的结果,但与使用默认超参数训练单个模型相比,计算开销仅略有增加。
大型神经网络常常学习到相似的内部表示,这既体现在不同模型之间,也体现在模型自身的不同层之间。虽然网络间的相似性已经促进了模型拼接和融合等技术的出现,但网络内部的相似性为设计更高效的架构提供了新的机遇。本文研究了不同神经网络架构中不同层之间这些内部相似性的涌现,结果表明相似性模式的出现与所用数据集无关。我们引入了一个简单的度量指标——块冗余度——来检测冗余块,为未来的架构优化方法奠定了基础。在此基础上,我们提出了冗余块近似 (RBA) 框架,该框架能够识别并使用更简单的变换来近似一个或多个冗余计算块。我们证明了两个表示之间的变换 $\mathcal{T}$ 可以高效地闭式计算,并且足以替换网络中的冗余块。RBA 减少了模型参数和时间复杂度,同时保持了良好的性能。我们使用各种预训练的基础模型和数据集,在视觉领域的分类任务上验证了我们的方法。
大型语言模型 (LLM) 的快速发展凸显了对能够评估其核心能力(例如推理、知识和常识)的鲁棒评估框架的需求,这导致了某些广泛使用的基准套件(例如 H6 基准)的出现。然而,这些基准套件主要针对英语构建,在 LLM 发展欠发达的语言(如泰语)方面,此类基准套件匮乏。另一方面,为泰语开发 LLM 也应该包括增强文化理解以及核心能力。为了应对泰语 LLM 研究中的这两个挑战,我们提出了两个关键基准:泰语 H6 和泰语文化与语言智能基准 (ThaiCLI)。通过对具有多语言能力的各种 LLM 进行彻底评估,我们对所提出的基准及其对泰语 LLM 发展的贡献进行了全面的分析。此外,我们将公开发布数据集和评估代码,以鼓励对泰语 LLM 的进一步研究和开发。
时空神经网络在城市场景中展现出巨大的潜力,有效地捕获了时间和空间相关性。然而,城市环境不断变化,当前的模型评估往往局限于交通场景,并且主要使用训练期后仅几周收集的数据来评估模型性能。这些模型的泛化能力在很大程度上仍未探索。为了解决这个问题,我们提出了一个时空分布外 (ST-OOD) 基准,其中包含六个城市场景:共享单车、311 服务、行人计数、交通速度、交通流量、网约车需求和共享单车,每个场景都包含分布内(同一年)和分布外(下一年)设置。我们对最先进的时空模型进行了广泛评估,发现它们的性能在分布外设置下显著下降,大多数模型的表现甚至比简单的多层感知器 (MLP) 更差。我们的研究结果表明,当前领先的方法往往过度依赖参数来过拟合训练数据,这可能导致在分布内数据上表现良好,但在分布外数据上的泛化性能却很差。我们还研究了 dropout 是否可以减轻过拟合的负面影响。我们的结果表明,轻微的 dropout 率可以显著提高大多数数据集的泛化性能,同时对分布内性能的影响最小。然而,平衡分布内和分布外性能仍然是一个具有挑战性的问题。我们希望提出的基准能够鼓励对这一关键问题的进一步研究。
基于图傅里叶神经核的用于求解非线性偏微分方程的新型神经算子家族,能够预测由非线性偏微分方程(PDE)控制的复杂系统的时变动力学,这些方程具有变化的参数和区域,这在各个领域都有广泛的应用需求。该方法结合了参数和区域自适应组件以及非自适应组件。区域自适应组件使用离散区域上的加权图构建,其中图拉普拉斯算子近似最高阶扩散项,确保边界条件的一致性并捕捉特定参数和区域的行为。同时,学习到的组件使用我们的变体傅里叶神经算子在不同区域和参数之间进行迁移。这种方法自然地嵌入几何和方向信息,提高了对新测试区域的泛化能力,无需重新训练网络。为了处理时间动力学,我们的方法结合了一个集成常微分方程求解器来预测系统的演化。实验表明,G-FuNK能够准确地逼近各种几何形状和各向异性扩散场中的热传导、反应扩散和心脏电生理方程。G-FuNK在未见区域和纤维场上的相对误差较低,与传统的有限元求解器相比,显著加快了预测速度。
本文介绍了FAMMA,一个用于金融多语言多模态问答(QA)的开源基准测试。该基准旨在评估多模态大型语言模型 (MLLM) 在回答需要高级金融知识和复杂推理的问题方面的能力。它包含从大学教科书和考试中精心收集的 1758 个问答对,涵盖金融的 8 个主要子领域,包括公司金融、资产管理和金融工程。一些问答对是用中文或法文撰写的,而大部分是用英文撰写的。这些问题采用混合格式呈现,结合文本和异构图像类型,例如图表、表格和图表。我们在我们的基准测试上评估了一系列最先进的 MLLM,我们的分析表明 FAMMA 对这些模型提出了重大挑战。即使是像 GPT-4o 和 Claude-35-Sonnet 这样先进的系统,其准确率也只有 42%。此外,开源模型 Qwen2-VL 明显落后于其专有竞争对手。最后,我们探索了 GPT-o1 风格的推理链以增强模型的推理能力,这显著提高了错误修正能力。我们的 FAMMA 基准测试将促进未来开发金融问答专家系统方面的研究。排行榜可在 https://famma-bench.github.io/famma/ 查看。
自杀念头的增多凸显了早期检测和干预的重要性。社交媒体平台上的用户经常分享个人经历并寻求帮助,因此可以利用这些平台来识别有风险的个人。然而,海量的每日帖子使得人工审核变得不切实际。本文探讨了使用大型语言模型 (LLM) 自动检测基于文本的社交媒体帖子中的自杀内容。我们提出了一种通过提示LLM生成未标记数据伪标签的新方法,并结合传统的分类微调技术来提高标签精度。为了创建一个强大的自杀检测模型,我们开发了一种集成方法,该方法包括使用Qwen2-72B-Instruct进行提示,并使用微调模型,如Llama3-8B、Llama3.1-8B和Gemma2-9B。我们在IEEE大数据2024大数据杯的一个赛道——社交媒体自杀意念检测挑战赛的数据集上评估了我们的方法。此外,我们进行了全面的分析,以评估不同模型和微调策略对检测性能的影响。实验结果表明,与单个模型相比,集成模型显着提高了检测精度,提高了5个百分点。在公共测试集上,它实现了0.770的加权F1分数,在私有测试集上实现了0.731的加权F1分数,为识别社交媒体中的自杀内容提供了一种有前景的解决方案。我们的分析表明,LLM的选择会影响提示性能,更大的模型能提供更高的精度。我们的代码和检查点已公开发布在https://github.com/khanhvynguyen/Suicide_Detection_LLMs。
文本到图像(T2I)扩散模型彻底改变了视觉内容创作,但将这些能力扩展到文本到视频(T2V)生成仍然是一个挑战,尤其是在保持时间一致性方面。现有的旨在提高一致性的方法往往会导致图像质量下降和计算时间过长等权衡。为了解决这些问题,我们引入了VideoGuide,这是一个新颖的框架,它无需额外训练或微调即可增强预训练T2V模型的时间一致性。VideoGuide利用任何预训练的视频扩散模型(VDM)或自身作为推理早期阶段的指导,通过将指导模型的去噪样本插入到采样模型的去噪过程中来提高时间质量。该方法显著提高了时间一致性和图像保真度,提供了一种经济高效且实用的解决方案,它协同利用了各种视频扩散模型的优势。此外,我们证明了先验蒸馏,揭示了基础模型可以通过所提出的方法利用指导模型的优越数据先验来增强文本连贯性。
随着大型语言模型(LLM)的快速发展,近年来出现了许多利用基于LLM的智能体模拟人类社会行为的有前景的研究。虽然先前的工作已证明其在各个领域的巨大潜力,但大部分工作都集中在涉及有限数量智能体的特定场景上,并且缺乏在模拟过程中发生错误时的适应能力。为了克服这些局限性,我们提出一个名为GenSim的新型基于LLM智能体的模拟平台,该平台:(1)**抽象出一组通用函数**,以简化定制社会场景的模拟;(2)**支持十万个智能体**,以便更好地模拟现实世界中大规模人群;(3)**结合错误纠正机制**,以确保更可靠和长期的模拟。为了评估我们的平台,我们评估了大规模智能体模拟的效率和错误纠正机制的有效性。据我们所知,GenSim 代表了朝着基于LLM智能体的通用、大规模和可纠正的社会模拟平台迈出的第一步,有望进一步推动社会科学领域的发展。
基于生成式人工智能技术的文本转语音 (TTS) 和语音转换 (VC) 的最新进展使得生成高质量、逼真的类人语音成为可能。这给区分人工智能合成语音和真实人声带来了巨大的挑战,并可能引发恶意用途的潜在问题,例如身份盗用和欺诈、传播虚假信息、深度伪造和诈骗。然而,现有的 AI 合成音频检测技术尚未跟上步伐,并且在不同数据集上的泛化能力往往较差。本文介绍了 SONAR,一个用于合成 AI 音频检测的框架和基准,旨在对区分尖端 AI 合成音频内容进行全面评估。SONAR 包含一个来自 9 个不同音频合成平台的新型评估数据集,包括领先的 TTS 提供商和最先进的 TTS 模型。它是第一个统一基准测试 AI 音频检测的框架,涵盖传统和基于基础模型的深度伪造检测系统。通过大量的实验,我们揭示了现有检测方法的泛化局限性,并证明了基础模型具有更强的泛化能力,这可以归因于其模型大小以及预训练数据的规模和质量。此外,我们探讨了少样本微调在提高泛化能力方面的有效性和效率,突出了其在定制应用中的潜力,例如针对特定实体或个人的个性化检测系统。代码和数据集可在 https://github.com/Jessegator/SONAR 获取。