在图像超分辨率研究领域,基于Swin Transformer的模型因其全局空间建模和滑动窗口注意力机制而备受青睐。然而,现有方法往往为了降低计算成本而将自注意力限制在不重叠的窗口内,忽略了通道间存在的有用信息。为了解决这个问题,本文提出了一种新颖的模型——混合注意力聚合Transformer (HAAT),旨在更好地利用特征信息。HAAT通过将Swin-Dense-Residual-连接块 (SDRCB) 与混合网格注意力块 (HGAB) 集成来构建。SDRCB在保持精简架构的同时扩展了感受野,从而提高了性能。HGAB结合通道注意力、稀疏注意力和窗口注意力,以改进非局部特征融合并获得更具视觉吸引力的结果。实验结果表明,HAAT在基准数据集上超越了最先进的方法。
随着深度学习的快速发展,计算机视觉任务取得了显著进步,使得双流神经网络成为基于视频的动作识别的热门研究方向。传统的利用RGB和光流的模型虽然取得了较好的性能,但却存在高计算成本的问题。为了解决这个问题,我们提出了一种表示流算法来替代以自我为中心的动作识别模型中的光流分支,从而实现端到端训练,同时降低计算成本和预测时间。我们的模型专为以自我为中心的动作识别而设计,利用类激活图 (CAM) 来提高准确率,并使用带有空间注意力的ConvLSTM进行时空编码。在GTEA61、EGTEA GAZE+和HMDB数据集上的评估结果表明,我们的模型在GTEA61数据集上的准确率与原始模型相当,在EGTEA GAZE+和HMDB数据集上分别提高了0.65%和0.84%。预测运行时间也显著缩短,分别为0.1881s、0.1503s和0.1459s,而原始模型的运行时间分别为101.6795s、25.3799s和203.9958s。我们还进行了消融研究,以研究不同参数对模型性能的影响。
随着现代系统和算法发展中理解变量之间因果关系重要性的提升,从观测数据中学习因果关系已成为优于随机对照试验的一种更可取且更高效的方法。然而,纯粹的观测数据可能不足以重建真实的因果图。因此,许多研究人员尝试利用某种形式的先验知识来改进因果发现过程。在这种背景下,大型语言模型 (LLMs) 的强大功能已成为获取昂贵的先验专家知识的一种有前景的替代方案。在这项工作中,我们进一步探索了利用 LLMs 来增强因果发现方法的潜力,尤其关注基于评分的方法,并提出一个通用框架,利用不仅仅是一个,而是多个 LLMs 的能力来增强发现过程。
一致性推断中的模型选择/优化具有挑战性,因为它可能会破坏标记数据和未标记数据之间的可交换性。我们在一致性选择(conformal selection)的背景下研究这个问题,一致性选择使用一致性p值从未标记数据池中选择具有较大未观察标签的“有趣”实例,同时控制有限样本中的错误发现率(FDR)。为了保证有效性,现有解决方案要求模型选择独立于用于构建p值和校准选择集的数据。然而,当面对许多模型选择和有限的标记数据时,理想的做法是:(i)以数据驱动的方式选择最佳模型,以及(ii)减轻样本分割导致的效能损失。
本文提出了OptCS,这是一个通用框架,允许在灵活的数据驱动模型优化后进行有效的统计检验(选择)。我们介绍了OptCS在大量数据重用情况下构建有效的一致性p值的通用条件,并处理复杂的p值依赖性,通过一种新颖的多重检验程序来保持有限样本FDR控制。我们将这个通用方案实例化为三个控制FDR的程序,每个程序都以不同的方式优化模型:(i)在多个预训练候选模型中选择最有效的模型;(ii)将所有数据用于模型拟合,无需样本分割;以及(iii)结合全样本模型拟合和选择。我们通过模拟研究和药物发现以及放射学报告生成中大型语言模型对齐的实际应用,证明了我们方法的有效性。
多模态GPT代表着软件工程和生成式人工智能相互作用的一个分水岭。GPT-4接受图像和文本输入,而不仅仅是自然语言。我们研究了这些增强的GPT-4能力所带来的相关用例。据我们所知,还没有其他工作研究过类似的用例,这些用例涉及通过多模态GPT执行的软件工程任务,这些任务通过图表和自然语言的组合提示来完成。
森林是陆地碳储量最重要的机制,有效降低了大气CO₂浓度,并减缓了气候变化。遥感技术能够提供高精度的数据并进行大规模观测。光学影像有助于长期监测,这对未来的碳储量估算研究至关重要。本研究以中国云南省曲靖市会泽县为研究区域,利用GF-1 WFV卫星影像数据。引入了KD-VGG和KD-UNet模块进行初始特征提取,并提出了一种改进的隐式扩散模型(IIDM)。结果表明:(1)VGG模块改进了初始特征提取,提高了精度,并通过优化模型参数减少了推理时间。(2)Cross-attention + MLPs模块能够有效融合特征,建立全局和局部特征之间的关键关系,实现高精度估算。(3)作为一项新的贡献,IIDM模型展示了最高的估算精度,RMSE为12.17%,与回归模型相比,显著提高了41.69%到42.33%。在碳储量估算中,生成模型在提取更深层次特征方面表现出色,显著优于其他模型,证明了人工智能生成内容在定量遥感中的可行性。16米分辨率的估算结果为制定森林碳汇法规、加强区域碳储量管理提供了可靠的依据。
精确预测脑血流对于脑血管疾病的诊断和治疗至关重要。然而,传统的计算方法通常会产生巨大的计算成本,限制了其在实时临床应用中的实用性。本文提出了一种图神经网络 (GNN) 来预测以前未见过的、未包含在训练数据中的脑血管网络结构中的血流和压力。该 GNN 使用来自狭窄患者的临床数据集开发,其特征是复杂和异常的血管几何形状。此外,GNN 模型在包含各种流入条件、血管拓扑结构和网络连接性的数据上进行训练,以增强其泛化能力。在有足够训练数据的情况下,该方法实现了压力 0.727 和流速 0.824 的皮尔逊相关系数。这些发现证明了 GNN 在实时脑血管诊断中的潜力,尤其是在处理复杂和病理血管网络方面。
从文本提示生成高保真3D内容仍然是计算机视觉领域的一大挑战,因为现有数据集的规模、多样性和标注深度有限。为了解决这个问题,我们引入了MARVEL-40M+,这是一个大型数据集,包含来自七个主要3D数据集的超过890万个3D资产的4000万个文本标注。我们的贡献是一个新颖的多阶段标注流程,它集成了开源预训练的多视角视觉语言模型(VLMs)和大型语言模型(LLMs),以自动生成多层次的描述,从详细的(150-200字)到简洁的语义标签(10-20字)。这种结构支持细粒度的3D重建和快速原型设计。此外,我们将来自源数据集的人工元数据整合到我们的标注流程中,以便在我们的标注中添加特定领域的的信息并减少视觉语言模型的幻觉。此外,我们开发了MARVEL-FX3D,一个两阶段的文本到3D流程。我们使用我们的标注对稳定扩散模型进行微调,并使用预训练的图像到3D网络在15秒内生成3D纹理网格。大量的评估表明,MARVEL-40M+在标注质量和语言多样性方面显著优于现有数据集,GPT-4的胜率为72.41%,人工评估员的胜率为73.40%。
生成式人工智能(GenAI)彻底改变了内容生成,为提高语言连贯性、可读性和整体质量提供了变革性的能力。本文探讨了将定性、定量和混合方法研究方法应用于评估GenAI模型在增强科学写作方面的性能。我们使用一个涉及医学影像合作稿件的假设性案例,演示了每种方法如何提供对GenAI影响的独特见解。定性方法收集来自专家评审人员的深入反馈,使用主题分析工具分析他们的回应,以捕捉细微的改进并识别局限性。定量方法采用BLEU、ROUGE和可读性评分等自动化指标以及用户调查,客观地衡量连贯性、流畅性和结构的改进。混合方法研究整合了这些优势,将统计评估与详细的定性见解相结合,以提供全面的评估。这些研究方法能够量化GenAI生成内容的改进水平,解决语言质量和技术准确性的关键方面。它们还提供了一个强大的框架,用于将GenAI工具与传统的编辑流程进行基准测试,确保这些技术的可靠性和有效性。通过利用这些方法,研究人员可以评估GenAI带来的性能提升,改进其应用,并指导其在医疗保健和科学研究等高风险领域中的负责任采用。这项工作强调了严格评估框架对于增强对GenAI的信任和推动其创新的重要性。
径流在国家水资源的可持续规划和管理中发挥着至关重要的作用。传统的_水文模型方法_通过建立降雨和径流等多种物理过程之间的联系来模拟径流。这些数据在空间和时间上都具有内在联系,拥有可用于稳健准确预测的内在因果关系。近年来,时空图神经网络 (STGNN) 已被应用于城市交通管理、天气预报和疫情防控等各个领域,并在径流管理方面也展现出发展前景。然而,直接从海量观测数据中学习因果关系在理论上和计算上都极具挑战性。在本研究中,我们利用河流流向图作为先验知识来促进因果结构的学习,然后利用学习到的因果图来预测目标地点的径流。提出的模型,因果径流预测 (CSF) 在德克萨斯州布拉索斯河流域的真实世界研究中进行了测试。我们的结果表明,我们的方法优于常规时空图神经网络,并且与传统的模拟方法相比具有更高的计算效率。通过有效地将河流流向图与 STGNN 相结合,这项研究提供了一种新颖的径流预测方法,展示了将先进的神经网络技术与特定领域知识相结合以提高水文模型性能的潜力。