在气候科学中,全球变暖和天气预报模型面临着重大挑战,因为高质量数据有限且难以获取,这使得数据效率至关重要。在过去几年中,科学机器学习 (SciML) 模型获得了巨大的关注,因为它们可以以数据高效的方式进行训练,使其高度适合现实世界的气候应用。尽管如此,很少有人关注利用 SciML 方法对混沌气候系统进行建模。在本文中,我们将 SciML 方法整合到基础天气模型中,通过物理信息方法增强了大尺度气候预测,该方法以减少的数据实现了高精度。我们成功地证明,通过将物理气候模型的可解释性与神经网络的计算能力相结合,SciML 模型可以证明是气候建模的可靠工具。这表明从传统的基于黑盒的机器学习气候系统建模向物理信息决策的转变,从而导致有效的实施气候政策。
大型语言模型(LLMs)如 ChatGPT 已经表明,即使用噪声先验数据训练,它们也能通过上下文学习(ICL)和预训练技术有效地泛化到新任务。受此启发,我们探索了类似方法是否可以应用于科学基础模型(SFMs)。我们的方法结构如下:(i) 我们通过任意数学词典的线性组合构建偏微分方程 (PDE) 的解,以低成本的物理信息神经网络 (PINN) 为基础,收集近似先验数据;(ii) 我们利用具有自注意力和交叉注意力机制的 Transformer 架构,在零样本设置下预测 PDE 解,而无需了解控制方程;(iii) 我们在关于一维对流扩散反应方程的实验中提供了证据,证明即使使用近似先验数据,预训练仍然稳健,对测试精度只有微弱的影响。值得注意的是,这一发现为用现实的低成本数据(而不是或与高成本数值数据结合)预训练 SFMs 开辟了道路。这些结果支持了这样的推测,即 SFMs 可以像 LLMs 一样得到改进,而从互联网上爬取的句子集合几乎不可能完全清理。
压力是日常生活中常见的情绪,但在某些情况下会影响心理健康,因此开发强大的检测模型势在必行。本研究提出了一种针对德拉威语系语言混合文本的压力识别方法。该挑战包含两个数据集,分别针对泰米尔语和泰卢固语。该提案强调了使用未清理文本作为基准的重要性,以便改进未来的分类方法,并结合不同的预处理技术。使用了随机森林算法,包含三种文本表示:TF-IDF、词语的单字元组和字符的 (1+2+3)-字元组组合。该方法在两种语言类别中都取得了良好的性能,在泰米尔语中获得了 0.734 的宏观 F1 分数,在泰卢固语中获得了 0.727 的宏观 F1 分数,超过了使用 FastText 和 Transformer 模型等其他复杂技术所取得的结果。结果表明,未清理数据对于心理状态检测的价值以及对压力混合文本进行分类的挑战,表明通过清理数据、其他预处理技术或更复杂的模型可以提高性能。
我们提出了一种利用自然语言处理(NLP)技术预测乌克兰-俄罗斯和哈马斯-以色列冲突这两起近期事件的毒性和其他文本属性的方法。本文为未来冲突的探索提供了基础,希望通过在冲突开始之前和之后分析社交媒体来降低风险。我们的工作从 Twitter 和 Reddit 收集了多个数据集,分别用于冲突发生前后的分离,目的是预测未来社交媒体的状态以避免冲突。更具体地说,我们证明了:(1)在冲突发生前后的社交媒体讨论中存在明显的差异,以及(2) Twitter 和 Reddit 等平台上的社交媒体话语有助于识别未来冲突的发生。我们的结果表明,通过使用先进的 NLP 技术(监督和无监督),冲突前后的语言毒性和其他属性是可以预测的,两种冲突的误差率都接近 1.2%。
人工智能和机器学习 (AI/ML) 模型的公平性正变得至关重要,特别是当这些系统做出的决策会影响不同的群体时。在教育领域,一个对所有国家都至关重要的领域,AI/ML 系统的广泛应用引发了关于公平性的具体担忧。目前的研究主要集中在针对单个敏感特征的公平性上,这限制了公平性评估的全面性。本文介绍了 FAIREDU,一种新颖且有效的方法,旨在提高跨多个敏感特征的公平性。通过大量的实验,我们评估了 FAIREDU 在提高公平性方面的有效性,同时不会影响模型性能。结果表明,FAIREDU 解决了诸如性别、种族、年龄和其他敏感特征等特征的交叉性,在模型准确性影响最小的前提下,优于最先进的方法。本文还探讨了未来研究方向,以进一步提高该方法的稳健性和对各种机器学习模型和数据集的适用性。
抽象推理语料库 (ARC) 是一个流行的基准,专注于评估人工智能系统中的视觉推理。在其原始框架中,ARC 任务需要使用少量输入-输出训练对,在小型二维图像上解决程序合成问题。在这项工作中,我们采用最近流行的 ARC 数据驱动方法,并询问视觉转换器 (ViT) 是否可以学习从输入图像到输出图像的隐式映射,该映射是任务的基础。我们表明,即使在每个任务上训练了 100 万个示例,ViT(否则是图像最先进的模型)在大多数 ARC 任务上也惨遭失败。这表明 ViT 架构存在固有的表示缺陷,使其无法发现 ARC 任务背后的简单结构化映射。基于这些见解,我们提出了 ViTARC,这是一种 ViT 风格的架构,它释放了 ARC 所需的一些视觉推理能力。具体来说,我们使用像素级输入表示,设计了一种空间感知标记化方案,并引入了利用自动分割的新型基于对象的方位编码,以及其他增强功能。我们的特定任务 ViTARC 模型在超过 400 个公开 ARC 任务中的一半以上实现了接近 100% 的测试解决率,严格地通过从输入-输出网格的监督学习实现。这引起了人们对赋予强大的 (Vision) Transformer 正确的归纳偏差的重要性,这些偏差对于抽象视觉推理至关重要,即使训练数据充足且映射无噪声。因此,ViTARC 为未来使用基于转换器的架构进行视觉推理的研究提供了坚实的基础。
多模态对比学习通过利用图像和文本等异构来源的数据来训练神经网络。然而,许多当前的多模态学习架构无法泛化到任意数量的模态,并且需要人工构建。我们提出了 AutoBIND,这是一种新颖的对比学习框架,可以通过图优化从任意数量的模态中学习表示。我们在阿尔茨海默病检测上评估了 AutoBIND,因为它具有现实世界的医疗应用,并且包含广泛的数据模态。我们证明 AutoBIND 在此任务上优于以前的方法,突出了该方法的泛化能力。
**背景:**许多开源皮肤癌图像数据集来自在皮肤色调较浅的国家进行的临床试验。由于这种色调不平衡,从这些数据集中得出的机器学习模型在检测浅肤色人群的皮肤癌方面可能表现良好。这些模型中任何色调偏差都可能引发公平问题,并降低公众对人工智能健康领域的信任。
**方法:**我们检查了来自国际皮肤影像合作组织 (ISIC) 档案的图像子集,这些图像提供了色调信息。该子集存在明显的色调不平衡。这些不平衡可能解释了模型的色调偏差。为了解决这个问题,我们使用不平衡数据集和平衡数据集训练模型,以进行比较。这些数据集用于训练深度卷积神经网络模型,以将图像分类为恶性或良性。然后,我们根据选择率评估模型对深色或浅色肤色的差异影响。
**结果:**使用不平衡数据集,我们发现该模型在检测浅色肤色的恶性图像方面明显更出色,差异影响为 0.577。使用平衡数据集,我们发现该模型在检测浅色肤色与深色肤色的恶性图像方面也明显更出色,差异影响为 0.684。使用不平衡或平衡数据集训练模型仍然会导致差异影响远低于 0.80 的标准阈值,这表明该模型在肤色方面存在偏差。
**结论:**结果表明,典型的皮肤癌机器学习模型可能存在色调偏差。这些结果提供了证据,表明诊断或色调不平衡不是偏差的原因。需要其他技术来识别和解决这些模型中的偏差,这是未来研究的领域。
深度 ReLU 网络族覆盖数已被用于刻画其逼近理论性能,对非参数回归中产生的预测误差进行上界估计,并量化其分类能力。这些结果基于通过显式构造覆盖得到的覆盖数上界。文献中似乎没有关于覆盖数下界的相关研究。本文填补了这一空白,推导出具有有界权重的全连接网络、具有有界权重的稀疏网络以及具有量化权重的全连接网络的覆盖数的紧密(乘法常数内)下界和上界。由于界限的紧密性,可以深入理解稀疏性、量化、有界与无界权重以及网络输出截断的影响。此外,这些界限允许刻画神经网络变换的基本极限,包括网络压缩,并通过深度网络对非参数回归中的预测误差给出尖锐的上界。具体来说,我们可以移除深度网络估计 Lipschitz 函数的最佳已知样本复杂度速率中的 $\log^6(n)$ 因子,从而建立最优性。最后,我们确定了最优非参数回归和最优深度网络逼近之间的系统关系,统一了文献中的大量结果,并揭示了普遍的潜在原理。