文本到图像扩散模型能够生成令人印象深刻的结果,但对于希望进行细粒度控制的艺术家来说却是令人沮丧的工具。例如,一个常见的用例是在新的情境中创建特定实例的图像,即“身份保持生成”。这种设置以及许多其他任务(例如,重新照明)非常适合图像+文本条件生成模型。然而,直接训练这种模型缺乏高质量的配对数据。我们提出了一种名为“扩散自蒸馏”的方法,该方法利用预训练的文本到图像模型来生成其自身用于文本条件图像到图像任务的数据集。我们首先利用文本到图像扩散模型的上下文生成能力来创建图像网格,并在视觉语言模型的帮助下整理一个大型配对数据集。然后,我们使用整理好的配对数据集将文本到图像模型微调成文本+图像到图像模型。我们证明,扩散自蒸馏在各种身份保持生成任务中优于现有的零样本方法,并且与每实例微调技术具有竞争力,无需测试时优化。
大型语言模型(LLM)已取代众多自然语言处理任务中的传统方法。然而,在命名实体识别(NER)中,现有的基于LLM的方法……
分布鲁棒马尔可夫决策过程 (DRMDP) 是一个流行的框架,用于通过学习对约束集内最坏情况转移动态具有鲁棒性的策略来解决强化学习中的动态变化问题。然而,求解其对偶优化预言机带来了巨大的挑战,限制了理论分析和计算效率。最近提出的鲁棒正则化马尔可夫决策过程 (RRMDP) 用值函数上的正则化项代替了不确定性集约束,从而提高了可扩展性和理论见解。然而,现有的 RRMDP 方法依赖于非结构化正则化,通常会导致过于保守的策略,因为它考虑了不现实的转移。为了解决这些问题,我们提出了一种新的框架,即 d 维矩形线性鲁棒正则化马尔可夫决策过程 (d-RRMDP),它在转移核和正则化中引入了线性潜在结构。对于离线强化学习设置(代理从标称环境中预先收集的数据集中学习鲁棒策略),我们开发了一系列算法,即鲁棒正则化悲观值迭代 (R2PVI),它采用线性函数逼近和基于 f 散度的转移核正则化项。我们提供了 R2PVI 策略次优差距的实例相关上界,表明这些上界取决于数据集覆盖鲁棒可容许转移下最优鲁棒策略访问的状态-动作空间的程度。通过信息论下界进一步证明了该项对于 d-RRMDP 的根本性。最后,数值实验验证了 R2PVI 学习鲁棒策略并且比约束 DRMDP 方法计算效率更高。
本研究提出并比较了多种利用自然语言处理 (NLP) 技术和基于大型语言模型 (LLM) 的检索增强生成 (RAG) 自动生成文献综述的方法。研究论文数量的不断增长给手动撰写文献综述带来了巨大的挑战,从而增加了对自动化的需求。本研究的主要目标是开发一个能够仅从 PDF 文件作为输入自动生成文献综述的系统。为了实现这一主要目标,我们评估了几种自然语言处理 (NLP) 策略的有效性,例如基于频率的方法 (spaCy)、Transformer 模型 (Simple T5) 和基于大型语言模型 (GPT-3.5-turbo) 的检索增强生成 (RAG)。本研究实验选择了 SciTLDR 数据集,并利用三种不同的技术实现了三个不同的自动生成文献综述的系统。我们使用 ROUGE 分数对所有三个系统进行评估。评估结果表明,大型语言模型 GPT-3.5-turbo 取得了最高的 ROUGE-1 分数,为 0.364。Transformer 模型位居第二,spaCy 排在最后。最后,我们为基于大型语言模型的最佳系统创建了一个图形用户界面。
人工智能在社会中的存在日益增加,这使得我们需要理解人工智能机制的行为,包括以表格数据、文本或图像等多种类型的数据为输入的机器学习预测算法。本研究关注基于函数数据的预测模型的可解释性。为函数数据模型设计可解释性方法意味着处理一组大小无限的特征。在标量对函数回归的背景下,我们提出了一种基于连续博弈Shapley值的解释性方法,这是一种数学公式,可以公平地将全局收益分配给连续的参与者集合。该方法通过对模拟和真实数据集的一组实验进行了说明。同时,我们还介绍了开源Python包ShapleyFDA。
大型语言模型 (LLM) 在时间序列方面的成功已在先前的工作中得到证明。利用符号时间序列表示,可以有效地弥合 LLM 和时间序列之间的差距。然而,剩余的挑战是如何利用时间序列中隐藏的语义信息(使用符号或LLM的现有标记),同时根据时间序列的隐藏信息调整LLM的嵌入空间。名为基于自适应布朗桥的符号聚合 (ABBA) 的符号时间序列逼近 (STSA) 方法,通过根据幅度和周期对时间序列模式建模,同时使用LLM的现有标记,在保留显著的时间序列特征方面显示出显著的功效。
本文介绍了一种名为LLM-ABBA的方法,该方法将ABBA集成到大型语言模型中,用于各种下游时间序列任务。通过对时间序列进行符号化,LLM-ABBA 在 UCR 和三个医学时间序列分类任务中与最新的最先进技术 (SOTA) 相比具有优势。同时,ABBA 中引入了一种固定多边形链技巧,通过显著减轻从符号到数值转换过程中由于符号误用而产生的累积误差的影响,从而在预测任务中避免明显的漂移。在时间序列回归任务中,LLM-ABBA 在时间序列外回归 (TSER) 基准测试中取得了新的 SOTA 成绩。LLM-ABBA 还显示出与最新的 SOTA 时间序列预测结果相比具有竞争力的预测能力。我们相信这个框架也可以无缝地扩展到其他时间序列任务。
等距追踪是一种用于识别宽矩阵的正交列子矩阵的凸算法。它包含一种新颖的归一化方法,随后进行多任务基追踪。应用于推定坐标函数的雅可比矩阵,它有助于识别可解释字典内的等距嵌入。我们提供了证明该方法的理论和实验结果。对于涉及坐标选择和多样化的的问题,它提供了一种优于贪婪算法和暴力搜索的协同替代方案。
随着生成式人工智能 (GenAI) 技术输出质量的提高,区分其与人类创作内容的难度也越来越大。水印方案是解决区分人工智能和人类生成内容问题的一种很有前景的方法。这些方案将隐藏的信号嵌入到人工智能生成的内容中,以实现可靠的检测。虽然水印并非解决 GenAI 所有相关风险的灵丹妙药,但它可以在增强人工智能安全性和可信度方面发挥关键作用,有效对抗虚假信息和欺骗行为。本文全面概述了 GenAI 的水印技术,从历史和监管角度出发,阐述了对水印的需求。我们对水印方案的定义和所需属性进行了形式化,并考察了现有方法的关键目标和威胁模型。还探讨了实际的评估策略,深入了解了能够抵抗各种攻击的鲁棒水印技术的发展。此外,我们还回顾了最近具有代表性的研究成果,指出了未解决的挑战,并讨论了这一新兴领域的潜在方向。通过对 GenAI 水印技术的透彻理解,本文旨在指导研究人员改进水印方法和应用,并支持政策制定者应对 GenAI 的更广泛影响。
准确绘制大规模耕地地图对于农业生产管理和规划至关重要。目前,遥感数据与深度学习技术的结合在耕地制图中表现出优异的性能。然而,这些方法需要大量的精确标签,这费时费力。为了降低标签成本,本研究提出了一种考虑多时相信息的弱监督框架,用于大规模耕地制图。具体来说,我们根据全球地表覆盖(GLC)产品中标签的一致性提取高质量标签,以构建监督学习信号。一方面,为了减轻模型过度依赖高质量标签中残余错误而导致的过拟合问题,我们对视觉/空间域中耕地的相似性/聚集性进行编码,构建非监督学习信号,并将其作为正则化项来约束监督部分。另一方面,为了充分利用没有高质量标签的样本中的丰富信息,我们还在这些样本中加入非监督学习信号,丰富特征空间的多样性。之后,为了捕获耕地的物候特征,我们引入了密集的卫星图像时间序列(SITS),以在时间维度上扩展所提出的框架。我们还将高维物候特征可视化,以揭示多时相信息如何有利于耕地提取,并评估了该方法在数据稀缺情况下的鲁棒性。所提出的框架已在大规模耕地制图的三个研究区域(湖南省、法国东南部和堪萨斯州)进行了实验验证,并对内部机制和时间泛化性进行了研究。
肽是氨基酸的短链,它们与靶蛋白相互作用,使其成为一类独特的基于蛋白质的治疗人类疾病的药物。最近,深度生成模型在肽生成方面显示出巨大的潜力。然而,在设计有效的肽结合剂方面仍然存在一些挑战。首先,并非所有残基对肽-靶相互作用的贡献都相同;其次,由于肽键的限制,生成的肽必须采用有效的几何构象;第三,仍然缺乏用于肽药物开发的现实任务。为了应对这些挑战,我们引入了PepHAR,这是一种热点驱动的自回归生成模型,用于设计靶向特定蛋白质的肽。基于某些热点残基具有更高的相互作用势的观察结果,我们首先使用基于能量的密度模型来拟合和采样这些关键残基。接下来,为了确保肽的几何结构正确,我们通过估计残基框架之间的二面角来自回归地扩展肽片段。最后,我们应用一个优化过程来迭代地细化片段组装,确保肽结构正确。通过将热点采样与基于片段的扩展相结合,我们的方法能够针对靶蛋白进行从头肽设计,并允许将关键热点残基整合到肽支架中。包括肽设计和肽支架生成在内的广泛实验,证明了PepHAR在计算肽结合物设计中的巨大潜力。