金融机构收集了大量关于客户的数据,这些数据通常具有时间(顺序)结构,并从各种来源(模式)收集。由于隐私问题,没有大规模的开源事件序列多模态数据集,这极大地限制了该领域的研究。本文介绍了工业规模的公开多模态银行数据集 MBD,该数据集包含超过 150 万个企业客户,具有多种模式:9.5 亿次银行交易、10 亿次地理位置事件、500 万次与技术支持对话的嵌入以及每月汇总的四种银行产品的购买情况。所有条目均从真实的专有银行数据中匿名化。使用该数据集,我们引入了一个新的基准,包含两个业务任务:活动营销(预测下个月的购买情况)和客户匹配。我们提供的数值结果表明,在每个任务上,我们的多模态基线优于单模态技术。因此,所提出的数据集可以开辟新的视角,并促进未来针对事件序列的实际重要的大规模多模态算法的开发。
人工智能(AI)凭借其倍增效应和在多个领域的广泛应用,有可能成为量子计算的重要应用。由于现代人工智能系统通常建立在神经网络的基础上,因此量子神经网络的设计成为将量子计算融入人工智能的关键挑战。为了更细致地描述量子组件对神经网络性能的影响,我们提出了一种框架,在这种框架中,经典神经网络层被逐步替换为具有相同类型输入和输出的量子层,同时保持层间信息流不变,这与当前量子神经网络的大多数研究不同,后者偏向于端到端的量子模型。我们从一个简单的三层经典神经网络开始,该网络没有归一化层或激活函数,并逐步将经典层更改为相应的量子版本。我们在图像分类数据集(如 MNIST、FashionMNIST 和 CIFAR-10 数据集)上进行了数值实验,以证明系统引入量子组件带来的性能变化。通过该框架,我们的研究为未来量子神经网络模型的设计提供了新的思路,在这种模型中,寻找利用经典世界和量子世界优势的方法和框架可能更有利。
从庞大而复杂的数据集中提取有意义的见解面临着重大挑战,特别是在确保检索信息的准确性和相关性方面。传统的 数据检索方法,如顺序搜索和基于索引的检索,在处理错综复杂且相互关联的数据结构时往往会失效,导致输出不完整或 误导性。为了克服这些局限性,我们引入了结构化图 RAG,这是一个通用的框架,旨在增强自然语言查询中结构化数据集 的信息检索。结构化图 RAG 利用多个知识图,这些知识图以结构化格式表示数据并捕获实体之间复杂的关联,从而实现更细致 入微、更全面的信息检索。这种基于图的方法通过将响应置于结构化格式中来降低语言模型输出错误的风险,从而提高结果 的可靠性。我们通过将结构化图 RAG 的性能与最近发表的传统检索增强生成方法的性能进行比较,证明了其有效性。我们的 发现表明,结构化图 RAG 显着提高了查询处理效率并缩短了响应时间。虽然我们的案例研究侧重于足球数据,但该框架的设计 具有广泛的适用性,为数据分析提供了一个强大的工具,并增强了各种结构化领域的语言模型应用。
面对大学生日益严峻的心理健康挑战,我们试图了解他们对如何利用人工智能应用,特别是大型语言模型(LLM),来增强其心理健康的看法。通过对十名来自不同背景的学生进行试点访谈,我们探讨了他们对LLM在五种虚构场景中的应用的看法:一般信息查询、初步筛查、重塑患者-专家互动、长期护理和随访护理。我们的研究结果表明,学生对LLM的接受程度因场景而异,参与者既强调了潜在的益处,例如主动参与和个性化的随访护理,也表达了担忧,包括训练数据和情感支持方面的局限性。这些见解为如何设计和实施人工智能技术以有效地支持和增强学生的的心理健康提供了信息,特别是在LLM可以补充传统方法的场景中,同时保持同理心并尊重个人偏好。
近年来,潜在扩散模型 (LDMs) 在图像生成领域取得了重大进展。LDMs 的一个主要优势是它们能够在压缩的潜在空间中运行,从而实现更有效的训练和部署。然而,尽管有这些优势,LDMs 仍然存在挑战。例如,人们观察到 LDMs 经常不完美地生成高频细节和复杂的构图。我们推测这些缺陷的原因之一是 LDMs 的所有预训练和后训练都在潜在空间中完成,而潜在空间的典型空间分辨率比输出图像低 8 × 8。为了解决这个问题,我们建议在后训练过程中添加像素空间监督,以更好地保留高频细节。实验表明,在最先进的 DiT 变换器和 U-Net 扩散模型中,添加像素空间目标显着提高了监督质量微调和基于偏好的后训练,在视觉质量和视觉缺陷指标方面都有大幅提升,同时保持相同的文本对齐质量。
现有的3D掩码学习方法在数据有限的情况下遇到了性能瓶颈,我们的目标是克服这一限制。本文提出了一种三点掩码方案(TPM),它作为掩码自动编码器预训练的可扩展框架,以实现3D点云的多掩码学习。具体来说,我们将两个额外的掩码选择(即中等掩码和低掩码)添加到基线中,因为我们的核心见解是,对象的恢复过程可以以多种方式表现出来。以往的高掩码方案侧重于捕捉全局表示,但缺乏细粒度的恢复能力,因此生成的预训练权重在微调过程中往往作用有限。在提出的TPM的支持下,现有方法可以展现出更灵活和准确的完成能力,使预训练阶段的潜在自动编码器能够考虑单个3D对象的多种表示。此外,还提出了一种SVM引导的权重选择模块,在微调阶段用最佳权重填充下游网络的编码器参数,最大限度地提高线性精度,并促进对新对象的复杂表示的获取。大量实验表明,配备了所提出的TPM的四个基线在各种下游任务上取得了全面的性能提升。
偏好优化方法通常以一个经过良好训练的 SFT 模型作为参考模型开始训练。在 RLHF 和 DPO 中,偏好优化过程中使用了一个正则化项,以防止策略模型偏离参考模型的分布过远,从而避免生成异常响应。当参考模型已经与给定数据良好对齐,或者只需要进行微调时,这种方法可以产生一个良好对齐的模型。然而,如果参考模型与给定数据不对齐,并且需要与其当前状态有很大的偏差,那么正则化项实际上可能会阻碍模型对齐。在本研究中,我们提出了 **调制干预偏好优化 (MIPO)** 来解决这个问题。MIPO 根据给定数据与参考模型的对齐程度来调节参考模型的干预程度。如果数据良好对齐,则增加干预以防止策略模型与参考模型有很大差异。相反,如果对齐效果差,则减少干预以促进更广泛的训练。我们使用 Mistral-7B 和 Llama3-8B 在 Alpaca Eval 2.0 和 MT-Bench 中比较了 MIPO 和 DPO 的性能。实验结果表明,MIPO 在各种评估场景中始终优于 DPO。
自然语言处理中一项重要方法是先在通用领域数据上进行大规模预训练,然后针对特定任务或领域进行适应。随着模型规模的不断扩大,对所有参数进行完全微调变得越来越不切实际。为了解决这个问题,人们提出了一些用于语言模型低秩任务适应的方法,例如 LoRA 和 FLoRA。这些方法保持预训练模型权重固定,并在 Transformer 架构的某些层中加入可训练的低秩分解矩阵,称为适配器。与对所有参数进行完全微调相比,这种方法显著减少了下游任务所需的训练参数数量。在这项工作中,我们从数据隐私的角度研究了低秩适应。我们从理论上证明,LoRA 和 FLoRA 中使用的低秩适应等效于在来自其完全微调的适配器参数的批次梯度中注入一些随机噪声,并量化了注入噪声的方差。通过建立一个关于噪声分布与具有相同方差的高斯分布之间的总变差距离的 Berry-Esseen 型界限,我们表明 LoRA 和 FLoRA 的动态非常接近于对适配器进行差分隐私完全微调,这表明低秩适应隐式地提供了关于微调数据的隐私。最后,利用 Johnson-Lindenstrauss 引理,我们证明了当结合梯度裁剪时,低秩适应几乎等效于对适配器进行具有固定噪声尺度的差分隐私完全微调。
视觉定位是常见的视觉任务,涉及将描述性句子定位到图像的对应区域。大多数现有方法使用独立的图像-文本编码,并应用复杂的、手工制作的模块或编码器-解码器架构来进行模态交互和查询推理。然而,当处理复杂的文本表达时,它们的性能会显著下降。这是因为前一种范式仅利用有限的下游数据来拟合多模态特征融合。因此,它仅在文本表达相对简单时才有效。相反,鉴于文本表达的多样性和下游训练数据的独特性,现有的融合模块,从视觉-语言语境中提取多模态内容,尚未得到充分研究。在本文中,我们提出了一种简单而健壮的基于Transformer的视觉定位框架SimVG。具体来说,我们通过利用现有的多模态预训练模型并加入额外的目标令牌来促进下游任务和预训练任务的深度集成,将视觉-语言特征融合与下游任务解耦。此外,我们在多分支同步学习过程中设计了一种动态权重平衡蒸馏方法,以增强更简单分支的表示能力。该分支仅包含一个轻量级的MLP,简化了结构并提高了推理速度。在六个广泛使用的VG数据集(即RefCOCO/+/g、ReferIt、Flickr30K和GRefCOCO)上的实验表明了SimVG的优越性。最后,所提出的方法不仅在效率和收敛速度方面取得了改进,而且在这些基准测试中也取得了新的最先进的性能。代码和模型将在\url{https://github.com/Dmmm1997/SimVG}上提供。
由于辐射松树木高大,生长环境复杂,人工修剪存在着巨大的安全风险。为解决这些风险,本研究提出了一种基于无人机的修剪系统,该系统配备了专门的修剪工具和立体视觉相机,能够精确地检测和修剪树枝。研究采用 YOLO 和 Mask R-CNN 等深度学习算法来确保精确的树枝检测,同时集成半全局匹配算法以提供可靠的距离估计。这些技术的协同作用有助于精确识别树枝位置,并实现高效、有针对性的修剪。实验结果表明,YOLO 和 SGBM 的组合实施使无人机能够准确地检测树枝并测量它们与无人机的距离。这项研究不仅提高了修剪操作的安全性和效率,而且为农业和林业实践自动化中的无人机技术发展做出了重大贡献,为环境管理方面的进一步创新奠定了基础框架。