近年来扩散模型的进步使得生成式图像编辑更加容易,这使得创意编辑成为可能,但也引发了伦理问题,尤其是在威胁隐私和身份安全的恶意编辑人像方面。现有的保护方法主要依赖于对抗性扰动来抵消编辑,但往往无法应对多种编辑请求。我们提出了一种新的肖像保护方法FaceLock,该方法优化对抗性扰动以破坏或显著改变生物特征信息,从而使编辑后的输出在生物特征方面无法识别。FaceLock将人脸识别和视觉感知集成到扰动优化中,以提供针对各种编辑尝试的强大保护。我们还指出了常用评估指标中的缺陷,并揭示了如何操纵它们,强调了对保护措施进行可靠评估的必要性。实验表明,FaceLock在防御恶意编辑方面优于基线方法,并且对净化技术具有鲁棒性。消融研究证实了其稳定性和在基于扩散的编辑算法中的广泛适用性。我们的工作促进了生物特征防御的发展,并为图像编辑中的隐私保护实践奠定了基础。代码可在以下网址获取:https://github.com/taco-group/FaceLock。
视觉总是意味着理解吗?大型视觉语言模型 (LVLMs) 集成了分别预训练的视觉和语言组件,通常使用 CLIP-ViT 作为视觉主干。然而,这些模型经常遇到视觉编码器 (VE) 和大型语言模型 (LLM) 之间“认知错位”的核心问题。具体来说,VE 对视觉信息的表示可能无法完全与 LLM 的认知框架对齐,导致视觉特征超出语言模型解释范围的错配。为了解决这个问题,我们研究了 VE 表示的变化如何影响 LVLM 的理解,尤其是在 LLM 面对 VE 未知数据——其模糊的视觉表示挑战了 VE 的解释精度——图像时。相应地,我们构建了一个多粒度地标数据集,并系统地检查了 VE 已知数据和 VE 未知数据对解释能力的影响。我们的结果表明,VE 未知数据限制了 LVLM 准确理解的能力,而富含独特特征的 VE 已知数据有助于减少认知错位。基于这些见解,我们提出了实体增强认知对齐 (EECA) 方法,该方法采用多粒度监督生成视觉丰富的、良好对齐的标记,这些标记不仅集成在 LLM 的嵌入空间中,而且与 LLM 的认知框架对齐。这种对齐显着增强了 LVLM 在地标识别中的性能。我们的研究结果强调了 VE 未知数据带来的挑战,并突出了认知对齐在推进多模态系统中的重要作用。
基于图像扩散模型的图像编辑技术近期取得了显著进展,然而,这些模型常常难以准确地遵循复杂的编辑指令,并且经常会通过改变原始图像的关键元素来降低保真度。与此同时,视频生成技术也取得了显著进步,涌现出能够有效充当一致且连续的世界模拟器的模型。本文提出将这两个领域融合,利用图像到视频模型进行图像编辑。我们将图像编辑重新定义为一个时间过程,利用预训练的视频模型创建从原始图像到所需编辑结果的平滑过渡。这种方法连续地遍历图像流形,确保编辑的一致性,同时保留原始图像的关键方面。我们的方法在基于文本的图像编辑方面取得了最先进的结果,在编辑精度和图像保持方面都取得了显著改进。
重症监护室(ICU)患者的院内死亡率(IHM)预测对于及时干预和高效资源分配至关重要。虽然结构化的生理数据提供了定量见解,但临床记录提供了非结构化的、信息丰富的叙述性文本。本研究将这些数据模式与大型语言模型(LLM)生成的专家摘要相结合,以提高IHM预测的准确性。我们使用MIMIC-III数据库,分析了ICU入院前48小时的时序生理数据和临床记录。对每个患者的临床记录按时间顺序进行拼接,并使用Med42-v2 70B将其转换为专家摘要。我们开发了一个多表征学习框架来整合这些数据源,利用LLM增强文本数据,同时减轻对LLM预测的直接依赖,这可能会给不确定性量化和可解释性带来挑战。与仅使用时序数据的基线相比,该模型的AUPRC达到0.6156(+36.41%),AUROC达到0.8955(+7.64%)。专家摘要优于单独使用临床记录或时序数据,证明了LLM生成的知识的价值。性能提升在不同人口统计群体中保持一致,在代表性不足的人群中也有显著改善,突出了该框架公平应用的潜力。通过将LLM生成的摘要与结构化和非结构化数据相结合,该框架捕捉了互补的患者信息,显著提高了预测性能。这种方法展示了LLM增强危重症预测模型的潜力,强调了针对更广泛临床应用的领域特定验证和高级集成策略的必要性。
社交媒体言论中的不文明现象使得将自动化文本生成模型应用于政治敏感内容变得复杂。微调和提示策略是减轻此类环境中不良言论的关键解决方案,但尚未得到充分探索。本研究调查了使用CLAPTON数据集(包含来自Twitter和Reddit的政治讨论帖子的子集,这些帖子按其合理性、互惠性和不文明程度进行标记)对GPT-3.5 Turbo进行微调和提示的效果。在Reddit数据上微调的模型在讨论质量方面得分最高,而组合的噪声数据导致持续的不良言论。提示策略减少了某些不良特征,例如人身攻击,但对整体影响有限。研究结果强调,高质量的数据和精心设计的提示对于减少不文明言论和提高自动化政治话语生成的修辞质量至关重要。
大型语言模型领域在多模态大型语言模型和可解释性研究方面取得了长足进展,这得益于持续的技术进步和创新。然而,安全和隐私问题仍然是该领域面临的突出挑战。区块链技术的兴起,凭借其去中心化、防篡改、分布式存储和可追溯性等特性,为解决这些问题提供了新的途径。这两项技术各自都具有巨大的发展潜力;然而,它们的结合则展现出巨大的跨学科机遇和发展前景。当前的研究趋势越来越集中于将区块链与大型语言模型相结合,旨在通过这种融合来弥补各自的局限性,并促进技术的进一步发展。本研究评估了这两种技术的优势和发展制约,并探讨了它们结合的可能性和发展潜力。本文主要从两个方向探讨技术的融合:首先,大型语言模型在区块链中的应用,我们确定了六个主要的发展方向,并探讨了区块链技术缺点的解决方案及其应用场景;其次,区块链技术在大型语言模型中的应用,利用区块链的特性来弥补大型语言模型的不足,并探索其在多个领域的应用潜力。
数值天气预报(NWP)模型的预报能力严重依赖于数据同化(DA)提供的准确初始条件,即分析结果。传统的DA方法由于复杂的线性代数计算和模型的高维性,尤其是在非线性系统中,往往面临计算成本和精度之间的权衡。此外,实时处理海量数据需要大量的计算资源。为了解决这个问题,我们引入了一种基于人工智能的数据同化框架(ADAF)来生成高质量的公里级分析结果。本研究是首个利用来自不同地点和多个来源的真实世界观测数据来验证AI方法在DA中的有效性的工作,包括稀疏的地面气象观测和卫星图像。我们在美国本土(CONUS)的四个近地面变量上实现了ADAF。结果表明,在近地面大气条件下,ADAF的精度比高分辨率快速刷新数据同化系统(HRRRDAS)高出16%到33%,与实际观测结果更吻合,并且能够有效地重建极端事件,例如热带气旋风场。敏感性实验表明,即使在背景场精度低和地面观测极其稀疏的情况下,ADAF也能生成高质量的分析结果。ADAF可以在三个小时的窗口内以低计算成本同化海量观测数据,在AMD MI200图形处理器(GPU)上大约需要两秒钟。ADAF已被证明在实际DA中高效有效,突显了其在业务天气预报中的潜在作用。
操纵可变形物体的一个难点在于其特征描述以及用于操纵的代表性关键点的检测。过去十年,研究人员对表征和操纵非流体性质的可变形物体(如衣服和绳索)表现出浓厚的兴趣。尽管在物体特征描述方面已经提出了一些方案,但研究人员始终面临着需要通过图像获取物体像素级信息以提取相关信息的挑战。这通常是通过针对此目的而使用在手动标记数据上训练的分割网络来实现的。本文探讨了熔池特征描述以定义稳定特征,这些特征可作为进一步运动控制目标的信息。我们通过采用不同的流程来实现这一点。第一个流程包括利用在教师-学生框架下训练的生成模型来表征流体可变形物体。第二个流程则利用基础模型作为教师来表征图像中的物体,无需任何预训练和数据集。从基础模型到较小的生成模型的知识蒸馏的性能在可变形物体的表征方面显示出显著的结果。学生网络能够学习以13.4像素的误差检索物体的关键点。教师的评估基于其检索物体掩码所代表的像素级信息的能力,平均交并比 (mIoU) 为 75.26%。
我们探索了一种创新的语言模型交互系统中的协作动态,该系统涉及GPT-4-0125-preview、Meta-LLaMA-3-70B-Instruct、Claude-3-Opus和Gemini-1.5-Flash等高级模型。这些模型能够生成并回答复杂的博士级别统计问题,而这些问题并没有确切的标准答案。我们的研究调查了模型间的共识如何增强响应的可靠性和精确性。通过采用卡方检验、Fleiss Kappa和置信区间分析等统计方法,我们评估了共识率和评分者间一致性,以量化协作输出的可靠性。关键结果表明,Claude和GPT-4表现出最高的可靠性和一致性,这体现在它们更窄的置信区间和与问题生成模型更高的匹配度上。相反,Gemini和LLaMA在共识率方面表现出更大的差异性,这反映在更宽的置信区间和更低的可靠性百分比上。这些发现表明,大型语言模型(LLM)之间的协作交互显著提高了响应的可靠性,为人工智能系统中的自主、协作推理和验证提供了新的见解。
这项研究探索了大型语言模型 (LLM) 在提供全球范围城市和区域知识方面的能力。我们采用两种方法:直接查询 LLM 获取目标变量值,以及提取与目标变量相关的 LLM 显式和隐式特征。我们的实验表明,LLM 在全球城市中嵌入了广泛但程度不同的知识,而使用 LLM 衍生特征训练的机器学习模型始终能提高预测精度。此外,我们观察到 LLM 在所有大洲的全球城市中都展现出一定程度的知识,但当它们缺乏知识时也很明显,因为它们倾向于为不熟悉的任务生成通用或随机输出。这些发现表明,LLM 可以为城市研究中的数据驱动决策提供新的机遇。