arXiv:2409.14021v1 公告类型: 交叉 摘要: 我们能否直接将我们脑海中的想象与我们所描述的内容一起可视化?人类感知的本质揭示了,当我们思考时,我们的身体能够结合语言描述,并在我们的大脑中构建出生动的画面。直观上,生成模型也应该具备这种多功能性。在本文中,我们介绍了BrainDreamer,一种新颖的端到端语言引导生成框架,能够模仿人类推理并从脑电图(EEG)脑信号生成高质量图像。我们的方法在消除非侵入性EEG数据采集引入的噪声方面具有优势,同时实现了EEG与图像模态之间更精确的映射,从而生成显著更好的图像。具体而言,BrainDreamer包括两个关键学习阶段:1)模态对齐和2)图像生成。在对齐阶段,我们提出了一种新颖的基于掩码的三重对比学习策略,以有效对齐EEG、文本和图像嵌入,学习统一的表示。在生成阶段,我们通过设计一个可学习的EEG适配器,将EEG嵌入注入预训练的Stable Diffusion模型,生成高质量的推理一致性图像。此外,BrainDreamer可以接受文本描述(例如颜色、位置等),以实现可控的图像生成。广泛的实验表明,我们的方法在生成质量和定量性能方面显著优于先前的技术。
arXiv:2409.14019v1 公告类型: 交叉 摘要: 从单目图像中精确重建密集且语义注释的3D网格仍然是一个具有挑战性的任务,这是由于缺乏几何指导和不完美的依赖于视图的2D先验。尽管我们在隐式神经场景表示方面见证了最近的进展,这些进展使得仅从多视图图像中实现精确的2D渲染成为可能,但很少有工作单独利用单目先验来解决3D场景理解问题。在本文中,我们提出了MOSE,一种神经场语义重建方法,将推断的图像级噪声先验提升到3D空间,从而在3D和2D空间中生成精确的语义和几何结构。我们方法的关键动机是利用通用的类无关分割掩码作为指导,以促进训练期间渲染语义的局部一致性。借助语义信息,我们进一步对无纹理区域应用平滑正则化,以提高几何质量,从而实现几何和语义的相互增益。在ScanNet数据集上的实验表明,我们的MOSE在3D语义分割、2D语义分割和3D表面重建任务的所有指标上均优于相关基线。
arXiv:2409.14016v1 公告类型: 交叉 摘要: 准确的太阳耀斑预测至关重要,因为强烈的太阳耀斑对宇航员、太空设备和卫星通信系统构成重大风险。我们的研究通过利用基于多变量时间序列的光球磁场参数数据集,采用先进的数据预处理和分类方法,提升了太阳耀斑预测能力。首先,我们的研究采用了一种新颖的预处理流程,包括缺失值插补、归一化、平衡采样、近决策边界样本移除和特征选择,显著提高了预测准确性。其次,我们将对比学习与GRU回归模型结合,开发了一种新型分类器,称为ContReg,该分类器采用双重学习方法,进一步提升了预测性能。为了验证我们预处理流程的有效性,我们比较并展示了每一步的性能提升;为了展示ContReg分类器的效能,我们将其性能与基于序列的深度学习架构、机器学习模型以及先前研究的结果进行了比较。我们的结果显示了卓越的真技能统计(TSS)得分,超越了以往的方法,突显了精确数据预处理和分类器开发在基于时间序列的太阳耀斑预测中的关键作用。
arXiv:2409.14014v1 公告类型: 交叉 摘要: 分子构象生成在计算化学领域提出了重大挑战。最近,扩散概率模型(DPMs)和基于分数的生成模型(SGMs)由于其生成准确构象的能力远超传统基于物理的方法而被有效利用。然而,训练与推理之间的差异引发了一个关键问题,即暴露偏差。虽然这一问题在DPMs中已被广泛研究,但SGMs中暴露偏差的存在及其有效测量仍未解决,这阻碍了包括ConfGF和Torsional Diffusion在内的补偿方法的使用。在这项工作中,我们首先提出了一种测量用于分子构象生成的SGMs中暴露偏差的方法,确认了这些模型中暴露偏差的存在并测量了其值。我们设计了一种新的补偿算法——输入扰动(IP),该算法改编自最初仅为DPMs设计的方法。实验结果表明,通过引入IP,基于SGM的分子构象模型可以显著提高生成构象的准确性和多样性。特别是通过使用IP增强的Torsional Diffusion模型,我们在GEOM-Drugs数据集上实现了新的最先进性能,并在GEOM-QM9上与之持平。我们公开了代码,地址为https://github.com/jia-975/torsionalDiff-ip。
arXiv:2409.14013v1 公告类型: 交叉 摘要: 使用生成对抗网络 (GANs) 生成时间序列数据面临若干普遍挑战,如收敛速度慢、嵌入空间信息损失、不稳定以及性能因序列长度不同而变化。为应对这些障碍,我们提出了一种稳健的框架,旨在有效解决和缓解这些问题。该高级框架结合了自编码器生成的嵌入空间与 GANs 的对抗训练动态优势。该框架受益于基于时间序列的损失函数和监督网络的监督,两者均能有效捕捉数据的逐步条件分布。生成器在潜在空间内运作,而判别器则基于特征空间提供关键反馈。此外,我们引入了一种早期生成算法和改进的神经网络架构,以增强稳定性并确保在短时和长时时间序列上的有效泛化。通过联合训练,我们的框架在生成高质量时间序列数据方面持续超越现有基准,适用于具有多样特征的真实和合成数据集。
时间序列预测在引入多头注意力等令牌预测机制后取得了显著进展。然而,这些方法往往难以在语言建模中达到相同的性能,主要原因是其二次计算成本以及捕捉时间序列数据中长程依赖关系的复杂性。状态空间模型(如Mamba)通过提供能够处理长序列和大上下文窗口的线性RNN解决方案,显示出解决这些挑战的潜力。然而,在准确性和可扩展性方面仍有改进空间。我们提出在并行架构中使用测试时训练(TTT)模块来增强长期时间序列预测的性能。通过对标准基准数据集的广泛实验,我们证明TTT模块在涉及扩展序列和预测长度的场景中,持续优于包括基于Mamba的TimeMachine在内的最先进模型。我们的结果显示,在均方误差(MSE)和平均绝对误差(MAE)方面有显著改进,特别是在Electricity、Traffic和Weather等大型数据集上,突显了TTT在捕捉长程依赖关系方面的有效性。此外,我们探索了TTT框架内的各种卷积架构,发现即使是简单的配置,如带有小滤波器的1D卷积,也能取得有竞争力的结果。这项工作为时间序列预测设定了新的基准,并为未来研究可扩展的高性能预测模型奠定了基础。
图神经网络(GNNs)近期取得了显著的成功,其关键操作涉及从邻近节点聚合信息。大量研究者专注于定义用于聚合的邻近节点,主要基于观察到的邻接矩阵。然而,在许多情况下,显式给出的图包含噪声,这可能在消息传递过程中被放大。因此,许多研究者转向潜在图推断,特别是学习参数化图。为了减轻潜在图结构学习中的波动,本文提出了一种基于布尔积的图残差连接方法,用于连接潜在图和原始图。它在每一层计算潜在图和原始图之间的布尔积,以修正学习过程。两个邻接矩阵之间的布尔积等价于三角形检测。因此,所提出的布尔积图神经网络可以解释为从原始图和潜在图中发现三角形团。我们在基准数据集上验证了所提出的方法,并展示了其提升GNN性能和鲁棒性的能力。
arXiv:2409.14000v1 公告类型: 交叉 摘要: 在社交媒体平台和电子商务生态系统的迅速演变中,意见挖掘领域已成为自然语言处理中一个关键的研究领域。该领域的一个专门部分专注于从文本上下文中提取与特定元素相关的细微评价。本研究提出了一种综合框架,该框架结合了主题描述符的位置线索。所提出的系统将句法结构转换为矩阵格式,利用图中的卷积和注意力机制来提取显著特征。通过结合描述符相对于词汇项的位置相关性,增强了输入的顺序完整性。试验证明,这种集成的以图为中心的方案显著提升了评价分类的效率,展现了卓越性能。
arXiv:2409.13998v1 公告类型: 交叉 摘要: 人类智能具备有效聚焦于重要环境组成部分的能力,从而提升感知、学习、推理和决策能力。受此认知机制启发,我们引入了一个名为“相关性”的新概念,用于人机协作(HRC)。相关性定义为基于对象对人类目标或其他因素的适用性和相关性的重要性。本文进一步发展了一个新颖的双循环框架,结合实时和异步处理来量化相关性并应用于更安全、更高效的人机协作。异步循环利用来自大型语言模型(LLM)的世界知识来量化相关性,而实时循环则执行场景理解、人类意图预测和基于相关性的决策。在决策过程中,我们提出并开发了一种基于相关性的人机任务分配方法,以及一种考虑人类轨迹预测的新型运动生成和避撞方法。仿真和实验表明,我们的相关性量化方法能够准确且稳健地预测人类目标和相关性,目标预测的平均准确率高达0.90,相关性预测的平均准确率高达0.96。此外,与最先进的(SOTA)避撞方法相比,我们的运动生成方法将碰撞案例减少了63.76%,碰撞帧数减少了44.74%。我们的框架和方法,结合相关性,指导机器人如何最佳地协助人类,并生成更安全、更高效的动作以实现人机协作。
arXiv:2409.13994v1 公告类型: 交叉 摘要: 随着人工智能技术的快速发展,尤其是问答系统的日益广泛应用,高质量的问题生成已成为支持这些系统发展的关键组成部分。本文聚焦于基于知识的问答生成技术,旨在使计算机能够基于对特定文本或知识库的理解,模拟人类的提问过程。针对大规模语言模型在应用于知识密集型任务时存在的幻觉和知识缺口问题,本文提出了一种结合对比学习的增强型问答生成方法。该方法利用多个模型共同挖掘领域知识,并通过对比学习引导模型减少生成中的噪声和幻觉。实验结果表明,通过设计包含对比示例的提示,模型在问答生成方面的性能显著提升,特别是在同时使用对比指令和示例时,生成的问答质量最高,准确性也得到提高。这些结果表明,本文提出的结合对比上下文和思维链提示的方法,能够有效提升问答生成的质量和实用性。