arXiv:2410.06845v2 宣告类型: replace-cross
摘要:心理健康障碍是世界上最严重的疾病之一。大多数患有此类疾病的人缺乏获得适当护理的机会,这突显了训练用于诊断和治疗心理健康障碍的模型的重要性。然而,在心理健康领域,隐私担忧限制了个性化治疗数据的获取,使得构建强大的模型极具挑战性。在这篇论文中,我们介绍了MentalArena,这是一种通过生成特定领域个性化数据来训练语言模型的自对弈框架,在此框架中,我们得到了一个能够进行个性化诊断和治疗(作为治疗师)并提供信息(作为患者)的更好模型。为了准确建模人类心理健康患者,我们设计了Symptom Encoder,它从认知和行为的角度模拟了一个真实患者。为了在患者-治疗师互动中解决意图偏差问题,我们提出了Symptom Decoder来比较诊断症状和编码症状,并根据识别的偏差动态管理患者和治疗师之间的对话。我们评估了MentalArena与6个基准,包括生物医学QA和心理健康任务,并从6个先进模型中进行了比较。我们的模型分别在GPT-3.5和Llama-3-8b的基础上进行了微调,显著优于其同类模型,包括GPT-4o。我们希望我们的工作能够激励未来关于个性化护理的研究。代码可在 https://github.com/Scarelette/MentalArena/tree/main 获取。
arXiv:2410.05985v2 宣布类型: 替换交叉
摘要:深度学习模型的规模不断扩大,使得跨多个设备进行分布式训练变得必不可少。然而,现有的方法,如分布式数据并行训练,在跨设备进行训练时会因大量通信和同步开销而受到影响,导致由于硬件利用不足而导致训练时间延长。异步随机梯度下降(ASGD)方法可以提高训练速度,但对通信延迟以及吞吐量差异的延迟非常敏感。此外,ASGD工作节点内部的反向传播算法由于正向传播和反向传播之间的交叠而成为瓶颈。当前的方法也没有充分利用正向传播和反向传播所需计算量的巨大差异。因此,我们提出了一种名为部分解耦ASGD(PD-ASGD)的ASGD扩展方法,以解决这些问题。PD-ASGD使用单独的线程进行正向传播和反向传播,解耦更新,允许正向传播线程与反向传播线程的比例高于常规的1:1比例,从而提高吞吐量。PD-ASGD还在多个线程中并行执行层间(部分)模型更新。这减少了参数过时,并因此提高了对延迟的鲁棒性。我们的方法在存在延迟的情况下相对于同步数据并行性快5.95倍,通过实现更高的模型FLOPs利用率,相比相似的ASGD算法快2.14倍。我们在存在延迟的情况下,以接近最先进的结果运行,并证明了我们的方法引入了梯度偏差,建立了上界,并证明了收敛性。
arXiv:2410.01506v3 宣称类型: replace-cross
摘要:在计算机视觉任务中,特征往往来自多种表示、领域(例如室内和室外)和模态(例如文本、图像和视频)。有效地融合这些特征对于稳健的表现至关重要,尤其是在拥有如视觉-语言模型等强大预训练模型的情况下。然而,常见的融合方法,如连接、元素操作和非线性技术,常难以捕捉结构关系、深层次的特征相互作用,并且在跨领域或模态的特征对齐或效率方面存在缺陷。在本文中,我们通过构建关系图将高维特征空间转换为低维的可解释图空间,从而在不同的层次上编码特征关系,例如剪辑、帧、补丁、标记等。为了捕捉更深层次的相互作用,我们使用图幂扩展,并引入可学习的图融合算子来结合这些图幂以实现更有效的融合。我们的方法以关系为中心、在同质空间中操作,并且具有数学上的原理,类似于通过多元多项式进行元素操作关系评分聚合。我们在视频异常检测上展示了基于图的融合方法的有效性,展示了其在多表示、多模态和多领域特征融合任务中的强大表现。
arXiv:2409.16040v3 通知类型: 替换-交叉
摘要:在过去的几十年中,深度学习在时间序列预测方面的进展显著。然而,尽管大规模预训练在语言和视觉领域取得了成功,预训练时间序列模型仍然在规模上受到限制,并且运行成本较高,妨碍了在实际应用中开发更大更强大的预测模型。为应对这一挑战,我们提出了Time-MoE,这是一种可扩展且统一的架构,旨在预训练更大、更具能力的预测基础模型,同时降低推理成本。通过利用稀疏混合专家(MoE)设计,Time-MoE 通过为每次预测只激活一部分网络来提高计算效率,从而减轻计算负载同时保持高模型容量。这使得Time-MoE能够在不相应增加推理成本的情况下有效扩展。Time-MoE由一系列仅解码器的变压器模型组成,以自回归方式运行,并支持具有不同输入上下文长度的灵活预测 horizons。我们将这些模型在我们新引入的大规模数据集Time-300B上进行了预训练,该数据集涵盖9个领域,包含超过3000亿个时间点。我们首次将时间序列基础模型扩展到24亿个参数,显著提高了预测精度。我们的结果验证了在时间序列预测上下文中训练标记和模型大小缩放定律的有效性。与具有相同激活参数数或相同计算预算的稠密模型相比,我们的模型在大部分情况下表现出显著的优越性。这些进展使Time-MoE 成为解决实际时间序列预测挑战的领先解决方案,具备更强大的功能、更高的效率和更大的灵活性。
arXiv:2409.09662v3 公告类型:替换-交叉
摘要:用言语表达压力经历已被证明能改善心理健康和身体健康,但个体在面对组织思想和情感的压力时,往往不愿意参与写作干预。反思提示已被用来提供方向,大型语言模型(LLMs)已展示了提供个性化指导的潜力。然而,当前系统往往限制了用户对自己的反思旅程进行控制的灵活性。因此,我们提出了ExploreSelf这一由大型语言模型驱动的应用程序,旨在让用户能够控制自己的反思旅程,并通过动态生成的问题提供适应性支持。通过一项涉及19名参与者的探索性研究,我们探讨了参与者如何使用ExploreSelf来探索和反思个人挑战。我们的研究发现表明,参与者赞赏这种灵活导航的适应性指导,从而实现更深入的参与和洞察。基于我们的发现,我们讨论了设计促进用户驱动和个人挑战有效反思的大语言模型驱动工具的意义。
arXiv:2409.03811v2 宣告类型: 交叉替换
摘要:涉及多个代理的组合优化问题因其NP难性质和有效的代理协调需求而极为复杂。尽管在基于学习的方法方面取得了进展,但现有方法往往面临关键限制,包括亚优代理协调、较差的一般化能力和高计算延迟。为了解决这些问题,我们提出了Parallel AutoRegressive Combinatorial Optimization(PARCO),这是一种强化学习框架,旨在高效地为多代理组合任务构建高质量的解决方案。为此,PARCO集成了三个关键组件:(1)基于变压器的通信层,以便在并行解决方案构建期间实现有效的代理协作;(2)多指针机制,实现低延迟并行代理决策;(3)基于优先级的冲突处理器,通过学习到的优先级解决决策冲突。我们在多代理车辆路由和调度问题上评估了PARCO,结果显示我们的方法在性能上优于最先进的学习方法,展示了强大的一般化能力和显著的计算效率。代码可用于此链接:https://github.com/ai4co/parco。
arXiv:2409.03735v2 通告类型: replace-cross
摘要:随着大型语言模型(LLMs)被整合到社会技术系统中,研究它们表现出的隐私偏差至关重要。隐私偏差指的是LLMs从大量未公开的训练数据中获得的信息流动在特定上下文中的适当性偏差。这种偏差可能与现有预期一致,也可能反映在训练数据集中反映出的系统性问题的症状。
我们提出了一个全新的研究问题:我们如何检查LLMs训练数据中的隐私偏差?我们提出了一种新的方法,使用基于上下文完整性的方法来评估不同LLMs的响应,以评估隐私偏差。我们的方法考虑了提示变化对响应灵敏度的影响,这阻碍了对隐私偏差的评估。我们研究了模型容量和优化如何影响隐私偏差。
arXiv:2406.16535v3 宣告类型: replace-cross
摘要:在上下文学习(ICL)中,通常利用手动选择的标签标记的输出概率作为分类标准。然而,我们认为,尽管通过翻译和受限旋转进行了精细校准,基于标记的概率的分类标准导致了非最优的决策边界。为了解决这个问题,我们提出了隐藏校准(Hidden Calibration),它放弃了基于标记的概率,而是使用了语言模型(LM)的最后隐藏状态的最近质心分类器。具体来说,我们将来自校准集之前估计的最近质心的标签分配给测试样例作为预测标签。我们在6个模型和10个分类数据集上的实验表明,隐藏校准在约20%~50%的范围内一致优于当前的基于标记的基线,并在ICL中达到了一个强大的最新水平。我们的进一步分析表明,隐藏校准能找到更好的分类标准,而类间重叠较少,语言模型在示例的帮助下提供了可线性区分的类内簇,这支持了隐藏校准,并为ICL的基本原则提供了新的见解。我们的官方代码实现可以在这里找到:https://github.com/hc495/Hidden_Calibration。
arXiv:2406.09570v3 宣告类型: replace-cross
摘要:一致性模型在单次神经网络前向传递中模仿基于分数的扩散的多步骤采样。它们可以通过两种方式之一进行学习:一致性蒸馏和一致性训练。前者依赖于相应的微分方程的真实速度场,该速度场由预训练的神经网络近似。相比之下,后者使用单样本蒙特卡洛估计的速度场。相关的估计误差在一致性蒸馏和训练之间引起差异,我们在连续时间极限中也证明了这一点。为了解决这个问题,我们提出了一个新颖的流,将噪声数据传输到由一致性模型得出的相应输出。我们证明该流减少了之前识别的差异和噪声-数据传输代价。因此,我们的方法不仅加速了一致性训练的收敛,还提高了其整体性能。代码可在 https://github.com/thibautissenhuth/consistency_GC 获取。
arXiv:2406.06494v2 宣告类型: 替换-交叉
摘要: 概率积分电路(PICs) recently被引入作为具有表征生成模型关键成分的概率模型:连续潜在变量(LVs)。PICs是符号计算图,定义了一类层次函数的连续LV模型,这些函数可以通过求和、乘法或在某些LVs上进行积分。如果可以对LVs进行解析积分,PICs是可以计算的;否则,可以通过编码递归数值积分过程的可计算概率电路(QPCs),近似计算它们。
到目前为止,只探索了树形结构的PICs,通过数值积分训练它们需要在大规模处理中进行内存密集型处理。在这篇论文中,我们解决了这些问题,并提出了:(i) 一种构建DAG形PICs的流水线,基于任意变量分解,(ii) 使用张量化电路架构训练PICs的程序,和(iii) 神经函数共享技术,以实现可扩展的训练。在广泛实验中,我们展示了函数共享的有效性,并展示了QPCs在传统PCs上的优越性。