基于评分的扩散模型通过学习逆转将目标分布中的数据扰动为噪声的扩散过程来生成新数据,已在各种生成任务中取得显著成功。尽管它们具有优越的经验性能,但现有的理论保证通常受到严格假设或次优收敛速度的限制。在本文中,我们在最小假设下为一种流行的基于 SDE 的采样器建立了快速收敛理论。我们的分析表明,只要对评分函数进行 $\ell_{2}$ 精度估计,目标分布和生成分布之间的总变差距离就会被 $O(d/T)$(忽略对数因子)所限制,其中 $d$ 是数据维数,$T$ 是步数。该结果适用于任何具有有限一阶矩的目标分布。据我们所知,这改进了基于 SDE 的采样器和另一种基于 ODE 的采样器的现有收敛理论,同时对目标数据分布和评分估计施加了最小假设。这是通过一组新的分析工具来实现的,这些工具提供了对逆过程每一步如何传播误差的细粒度刻画。
本文介绍了一种使用大型语言模型 (LLM) 进行分类任务的新方法,而分类任务通常由机器学习 (ML) 模型处理。与依赖于数据清洗和特征工程的 ML 模型不同,此方法利用 LLM 简化了流程。本文提出了一种名为“语言模型学习 (LML)”的新概念,它由一种名为“数据增强预测 (DAP)”的新方法驱动。分类由 LLM 执行,使用的方法类似于人类手动探索和理解数据,并使用数据作为参考来决定分类。对训练数据进行总结和评估,以确定导致对每个标签进行分类的最重要的特征。在 DAP 的过程中,系统使用数据摘要自动创建查询,用于从数据集中检索相关行。LLM 使用数据摘要和相关行生成分类,即使面对复杂数据也能确保令人满意的准确性。DAP 中使用数据摘要和类似数据可确保上下文感知的决策。该方法在提示中使用“充当可解释的机器学习模型”一词,通过允许用户查看每个预测背后的逻辑来增强预测的可解释性。在一些测试案例中,系统的准确率超过了 90%,证明了系统的有效性及其在各种场景中超越传统 ML 模型的潜力。代码可在 https://github.com/Pro-GenAI/LML-DAP 获取。
循环神经模型的稳定性是一个重大挑战,尤其是在开发能够无缝训练的生物学上合理的脑动力学模型方面。传统的皮层回路模型因动力学系统中广泛的非线性而难以训练,导致优化问题具有难以施加的非线性稳定性约束。相反,循环神经网络 (RNN) 在处理顺序数据方面表现出色,但缺乏生物学合理性和可解释性。在这项工作中,我们通过将动态除法归一化 (DN) 与 ORGaNICs 的稳定性联系起来来解决这些挑战,ORGaNICs 是一种生物学上合理的循环皮层回路模型,它动态地实现了 DN,并且已被证明可以模拟各种神经生理现象。通过使用李雅普诺夫的间接方法,我们证明了当循环权重矩阵为单位矩阵时,任意维度的 ORGaNICs 回路具有无条件局部稳定性的显著特性。因此,我们将 ORGaNICs 与耦合阻尼谐振子系统联系起来,这使我们能够推导出电路的能量函数,为电路和单个神经元的目标提供了规范性原则。此外,对于一般的循环权重矩阵,我们证明了二维模型的稳定性,并通过实验证明了稳定性在更高维度上仍然成立。最后,我们表明,由于 ORGaNICs 具有内在的稳定性特性和自适应时间常数,它可以通过时间反向传播进行训练,而无需梯度裁剪/缩放,从而解决了梯度爆炸、消失和振荡问题。通过评估模型在 RNN 基准上的性能,我们发现 ORGaNICs 在静态图像分类任务上优于其他脑动力学模型,并且在顺序任务上与 LSTM 的性能相当。
语音助手 (VA) 在简单任务中很受欢迎,但用户往往不愿意将它们用于复杂的活动,例如在线购物。我们探索了语音助手的声学特征,例如语音语调,是否可以使语音助手在执行复杂任务时对用户更具吸引力和可信度。我们的研究结果表明,语音助手的语调对其感知的吸引力和可信度有显著影响。我们实验中的参与者更有可能被具有积极或中性语调的语音助手所吸引,并最终信任他们认为更具吸引力的语音助手。我们得出结论,通过周到的语音设计,融入多种语音语调,可以增强语音助手的感知可信度。
大型语言模型 (LLMs) 与视觉编码器的集成在视觉理解任务中最近展现出令人鼓舞的性能,利用其固有的理解和生成人类语言的能力进行视觉推理。鉴于视觉数据的多样性,多模态大型语言模型 (MM-LLMs) 在模型设计和训练方面表现出差异,以理解图像、短视频和长视频。我们的论文重点关注与静态图像和短视频理解相比,长视频理解带来的重大差异和独特挑战。与静态图像不同,短视频包含具有空间信息和事件内时间信息的连续帧,而长视频包含具有事件间和长期时间信息的多个事件。在本综述中,我们旨在追踪和总结 MM-LLMs 从图像理解到长视频理解的进展。我们回顾了各种视觉理解任务之间的差异,并强调了长视频理解中的挑战,包括更细粒度的时空细节、动态事件和长期依赖关系。然后,我们详细总结了 MM-LLMs 在模型设计和训练方法方面的进展,以理解长视频。最后,我们比较了现有 MM-LLMs 在不同长度的视频理解基准上的性能,并讨论了 MM-LLMs 在长视频理解方面的潜在未来方向。
模拟病人系统在现代医学教育和研究中发挥着至关重要的作用,它们提供安全、综合的学习环境,并能够模拟临床决策。大型语言模型 (LLM) 可以通过高保真度和低成本地复制医疗状况和患者-医生互动来推进模拟病人系统。然而,确保这些系统的有效性和可信度仍然是一个挑战,因为它们需要一个庞大、多样化且精确的患者知识库,以及一个强大且稳定的知识传播机制。在这里,我们开发了 AIPatient,这是一种先进的模拟病人系统,它以 AIPatient 知识图谱 (AIPatient KG) 作为输入,并以推理检索增强生成 (Reasoning RAG) 代理工作流作为生成主干。AIPatient KG 从医疗信息密集护理 (MIMIC)-III 数据库中的电子健康记录 (EHR) 中采样数据,产生了一个临床多样化且相关的 1,495 名患者队列,具有很高的知识库有效性 (F1 0.89)。推理 RAG 利用六个 LLM 驱动的代理,涵盖检索、KG 查询生成、抽象、检查器、重写和摘要等任务。这种代理框架在基于 EHR 的医疗问答 (QA) 中的整体准确率达到 94.15%,优于不使用任何代理或仅部分集成代理的基准。我们的系统还具有很高的可读性(中位数弗莱士可读性指数为 77.23;中位数弗莱士-金凯德等级为 5.6)、鲁棒性(方差分析 F 值为 0.6126,p<0.1)和稳定性(方差分析 F 值为 0.782,p<0.1)。AIPatient 系统的良好性能突出了其在支持广泛应用方面的潜力,包括医学教育、模型评估和系统集成。
理解和建模集体智慧对于解决复杂的社会系统至关重要。称为模糊认知图 (FCM) 的有向图提供了一个强大的工具来编码因果心理模型,但从文本中提取高完整性 FCM 具有挑战性。本研究提出了一种使用大型语言模型 (LLM) 自动化 FCM 提取的方法。我们引入了新的基于图的相似性度量,并通过 Elo 评级系统将它们的输出与人类判断相关联来评估它们。结果表明与人类评估呈正相关,但即使是表现最好的度量在捕捉 FCM 细微差别方面也存在局限性。微调 LLM 提高了性能,但现有度量仍然不足。本研究强调了针对 FCM 提取量身定制的软相似性度量的必要性,从而利用 NLP 推进集体智慧建模。
学习一个判别模型来区分目标与其周围的干扰物对于通用视觉目标跟踪至关重要。由于现有跟踪器的判别能力有限,针对干扰物的动态目标表示自适应具有挑战性。为了解决这个问题,我们提出了一种用于通用视觉目标跟踪的新型视觉提示机制 (PiVOT)。PiVOT 提出了一种带有预训练基础模型 CLIP 的提示生成网络,以自动生成和细化视觉提示,从而实现基础模型知识的跟踪迁移。虽然 CLIP 提供了广泛的类别级知识,但经过实例特定数据训练的跟踪器在识别独特目标实例方面表现出色。因此,PiVOT 首先编译一个视觉提示,突出显示潜在的目标位置。为了将 CLIP 的知识迁移到跟踪器,PiVOT 利用 CLIP 基于候选对象与潜在目标上的参考模板之间的相似性来细化视觉提示。一旦视觉提示被细化,它就可以更好地突出显示潜在的目标位置,从而减少不相关的提示信息。通过提出的提示机制,跟踪器可以根据视觉提示的指导生成改进的实例感知特征图,从而有效地减少干扰物。所提出的方法在训练期间不涉及 CLIP,从而保持相同的训练复杂度并保留预训练基础模型的泛化能力。在多个基准上的大量实验表明,PiVOT 使用提出的提示方法可以抑制干扰对象并增强跟踪器。
在金融和加密货币领域,准确预测加密货币价格趋势是最重要的挑战之一。利用人工智能 (AI) 有助于应对这一挑战。加密货币市场以大幅增长和波动性为特征,吸引了投资者和学者们热衷于破译和预测加密货币价格走势。用于此类预测的庞大而多样化的数据阵列增加了任务的复杂性。在我们的研究中,我们提出了一种名为硬信息和软信息融合 (HSIF) 的新方法,以提高加密货币价格走势预测的准确性。我们方法的硬信息部分包括历史价格记录以及技术指标。作为补充,软数据部分从 X(前身为 Twitter)提取,包括有关加密货币的新闻标题和推文。为了使用这些数据,我们使用了基于双向编码器表示转换器 (BERT) 的情感分析方法,即金融 BERT (FinBERT),它表现最佳。最后,我们的模型以包括处理后的硬信息和软信息在内的信息集为基础。我们采用双向长短期记忆 (BiLSTM) 模型,因为在正向和反向方向上处理信息可以捕获顺序信息中的长期依赖关系。我们的实证结果通过对与比特币相关数据的测试,强调了 HSIF 方法优于依赖单一数据源的模型。通过将比特币数据集的硬信息和软信息融合,我们的模型在预测价格走势方面获得了约 96.8% 的准确率。结合信息使我们的模型能够把握社会情绪对价格波动的影响,从而补充了从硬信息中得出的基于技术分析的预测。
准确识别和分类自杀事件可以更好地预防自杀,减轻操作负担,提高高危精神科环境中的护理质量。预训练语言模型为从非结构化临床叙述中识别自杀倾向提供了希望。我们使用两种微调策略(多个单标签和单个多标签)评估了四个基于 BERT 的模型在从 500 个带注释的精神科评估记录中检测共存自杀事件的性能。这些记录被标记为自杀意念 (SI)、自杀企图 (SA)、自杀暴露 (ES) 和非自杀性自伤 (NSSI)。RoBERTa 使用二元关联优于其他模型(acc=0.86,F1=0.78)。MentalBERT (F1=0.74) 也优于 BioClinicalBERT (F1=0.72)。使用单个多标签分类器微调的 RoBERTa 进一步提高了性能(acc=0.88,F1=0.81),突出了在领域相关数据上预训练的模型和单个多标签分类策略提高了效率和性能。