求解偏微分方程 (PDE) 是许多科学和工程发现的重要且必不可少的组成部分。深度学习赋能的一种常见方法是物理信息神经网络 (PINN)。最近,一种新型的基础神经网络模型——科尔莫哥洛夫-阿诺德网络 (KAN) 被提出作为多层感知器 (MLP) 的替代方案,并拥有可训练的激活函数。为了提高 KAN 在拟合精度方面的表现,有人建议对 KAN 进行修改,称为 ReLU-KAN,使用“ReLU 的平方”作为其激活函数的基础。在本研究中,我们提出了另一种激活函数的基础,即高阶 ReLU (HR),它比 KAN 中使用的激活函数基础(即 B 样条)更简单;允许高效的 KAN 矩阵运算;并拥有光滑且非零的高阶导数,这对物理信息神经网络至关重要。我们将使用高阶 ReLU (HR) 作为其激活函数的 KAN 称为 HRKAN。我们在两个著名且具有代表性的 PDE 上进行的详细实验,即线性泊松方程和具有粘性的非线性 Burgers 方程,表明我们提出的高阶 ReLU-KAN (HRKAN) 在 KAN、ReLU-KAN 和 HRKAN 中获得了最高的拟合精度和训练鲁棒性,以及显著更短的训练时间。用于复制我们实验的代码可在 https://github.com/kelvinhkcs/HRKAN 获取。
强大的多模态大型语言模型 (LLMs) 的兴起,增强了构建网络代理的可行性,这些代理可以以越来越高的自主程度,帮助用户在各种人机界面上检索信息和完成任务。因此,有必要构建具有挑战性的基准,涵盖反映现实世界使用的各种用例。在这项工作中,我们提出了 WebQuest,这是一个多页面问答数据集,需要跨多个相关网页进行推理。与专注于多步骤网页导航和任务完成的现有 UI 基准测试不同,我们的数据集评估了从多个网页中提取信息、多模态检索和信息组合。WebQuest 包含三个问题类别:单屏问答、多屏问答和基于导航轨迹的问答。我们评估了领先的专有多模态模型,例如 GPT-4V、Gemini Flash、Claude 3 以及开源模型,例如 InstructBLIP、PaliGemma,在我们的数据集上,揭示了单屏推理和多屏推理之间的显著差距。最后,我们研究了像思维链提示这样的推理时间技术,以提高模型在多屏推理上的能力。
基于视觉的 3D 占用预测因单目视觉在深度估计方面的固有局限性而面临着重大挑战。本文提出了一种名为 CVT-Occ 的新方法,该方法通过利用随时间推移的体素几何对应关系进行时间融合,以提高 3D 占用预测的准确性。通过沿每个体素的视线采样点,并整合这些点在历史帧中的特征,我们构建了一个成本体积特征图,该特征图可以细化当前的体积特征,从而改善预测结果。我们的方法利用了历史观测中的视差线索,并采用数据驱动的方法来学习成本体积。我们通过对 Occ3D-Waymo 数据集进行严格的实验验证了 CVT-Occ 的有效性,在 3D 占用预测方面,该方法以最小的额外计算成本超越了最先进的方法。代码已发布在 \url{https://github.com/Tsinghua-MARS-Lab/CVT-Occ}。
现有的视觉-语言理解基准测试主要包含在正常环境中的物体图像。因此,最近的多模态大型语言模型仅通过依赖背景语言偏差就可以表现良好,而无需进行深入的视觉理解。因此,在这些基准测试上的强劲表现并不一定与强大的视觉理解能力相关联。在本文中,我们发布了 JourneyBench,这是一个由人类注释的生成图像综合基准,旨在评估模型在五项任务中的细粒度多模态推理能力:互补多模态思维链、多图像 VQA、虚构图像字幕、带有幻觉触发器的 VQA 以及带有样本特定干扰项的细粒度检索。与现有基准测试不同,JourneyBench 明确要求在语言偏差和整体图像概要不足的非寻常虚构场景中进行细粒度多模态推理。我们在 JourneyBench 上对最先进的模型进行了基准测试,并根据多个细粒度维度分析了性能。所有五项任务的结果表明,JourneyBench 对于即使是最优秀的模型来说也极具挑战性,表明模型的视觉推理能力并不像最初看起来那样强大。我们讨论了研究结果的意义,并提出了进一步研究的途径。
近年来,由于利用了大规模文本到图像扩散模型的强大生成先验,纹理生成方法取得了令人印象深刻的成果。然而,抽象的文本提示在提供全局纹理或形状信息方面存在局限性,导致纹理生成方法产生的纹理模糊或不一致。为了解决这个问题,我们提出了 FlexiTex,它通过视觉引导嵌入丰富的信息来生成高质量的纹理。FlexiTex 的核心是视觉引导增强模块,该模块从视觉引导中整合了更具体的信息,以减少文本提示中的歧义并保留高频细节。为了进一步增强视觉引导,我们引入了一个方向感知自适应模块,该模块根据不同的相机姿态自动设计方向提示,避免了“雅努斯”问题并保持语义上的全局一致性。得益于视觉引导,FlexiTex 产生了定量和定性上都令人满意的结果,证明了其在推动纹理生成技术发展以用于现实世界应用的潜力。
大型语言模型(LLMs)在众多自然语言处理任务中取得了显著的性能,但它们也存在幻觉问题。大多数关于检测幻觉的研究集中在具有简短、具体且易于验证真实性的正确答案的问题上。对于具有开放式答案的文本生成,幻觉检测更具挑战性。一些研究人员使用外部知识来检测生成的文本中的幻觉,但特定场景的外部资源难以获取。最近关于检测长文本中幻觉(不使用外部资源)的研究进行了多个采样输出之间的一致性比较。为了处理长文本,研究人员将长文本拆分为多个事实,并分别比较每对事实的一致性。然而,这些方法(1)难以在多个事实之间实现对齐;(2)忽略了多个上下文事实之间的依赖关系。在本文中,我们提出了一种基于图的上下文感知(GCA)幻觉检测方法,用于文本生成,该方法对齐知识事实,并在一致性比较中考虑上下文知识三元组之间的依赖关系。特别地,为了对齐多个事实,我们进行了面向三元组的响应分割,以提取多个知识三元组。为了对上下文知识三元组(事实)之间的依赖关系进行建模,我们将上下文三元组构建成一个图,并通过消息传递和通过 RGCN 聚合来增强三元组的交互作用。为了避免在长文本中省略知识三元组,我们通过重建知识三元组进行了基于 LLMs 的逆向验证。实验表明,我们的模型增强了幻觉检测,并优于所有基线模型。
大型语言模型(LLM)在众多自然语言处理任务中取代了传统方法。然而,在命名实体识别(NER)方面,现有的基于LLM的方法表现不如基线方法,并且需要显著更多的计算资源,限制了它们的应用。本文介绍了基于生成提取和上下文分类(GEIC)的任务,旨在利用LLM的先验知识和自注意力机制来完成NER任务。然后,我们提出了CascadeNER,这是一个通用的多语言GEIC框架,用于少样本和零样本NER。CascadeNER采用模型级联,利用两个参数较小的LLM独立地进行提取和分类,从而降低资源消耗,同时提高准确率。我们还介绍了AnythingNER,这是第一个专门为LLM设计的NER数据集,包括8种语言、155种实体类型和一个新颖的动态分类系统。实验表明,CascadeNER在低资源和细粒度场景(包括CrossNER和FewNERD)中取得了最先进的性能。我们的工作是公开可访问的。
虽然大型语言模型 (LLMs) 在医疗问答领域展现出潜力,但针对热带和传染病的特定探索研究却十分有限。我们基于开源的热带和传染病 (TRINDs) 数据集,扩展了数据集,包括人口统计学和语义临床及消费者增强,产生了 11000 多个提示。我们评估了 LLM 在这些提示上的性能,比较了通用 LLM 和医疗 LLM,以及 LLM 结果与人类专家的比较。我们通过系统实验证明了上下文信息(如人口统计学、地点、性别、风险因素)对于优化 LLM 响应的益处。最后,我们开发了 TRINDs-LM 的原型,这是一个研究工具,提供了一个游乐场,可以用来探索上下文如何影响 LLM 在健康方面的输出。
音频驱动3D面部动画合成一直是学术界和工业界关注的研究领域。尽管该领域取得了可喜的成果,但最近的方法主要集中在唇形同步和身份控制上,而忽略了情感和情感控制在生成过程中的作用。这主要是因为缺乏情感丰富的面部动画数据和能够同时合成带有情感表达的语音动画的算法。此外,大多数模型是确定性的,这意味着给定相同的音频输入,它们会产生相同的输出运动。我们认为情感和非确定性对于生成多样化且情感丰富的面部动画至关重要。在本文中,我们提出了ProbTalk3D,这是一种非确定性神经网络方法,使用两阶段VQ-VAE模型和情感丰富的面部动画数据集3DMEAD来进行情感可控的语音驱动3D面部动画合成。我们对我们的模型与最近的3D面部动画合成方法进行了广泛的比较分析,通过客观、定性和感知用户研究来评估结果。我们强调了几个更适合评估随机输出的客观指标,并在主观评估中使用了野外数据和真实数据。据我们所知,这是第一个非确定性3D面部动画合成方法,它结合了丰富的情感数据集以及带有情感标签和强度级别的情感控制。我们的评估表明,与最先进的情感控制、确定性和非确定性模型相比,所提出的模型实现了优越的性能。我们建议观看补充视频以进行质量判断。整个代码库已公开发布(https://github.com/uuembodiedsocialai/ProbTalk3D/)。
本文介绍了 SGCode,一个灵活的提示优化系统,用于使用大型语言模型 (LLM) 生成安全代码。SGCode 将最新的提示优化方法与 LLM 整合到一个统一的系统中,该系统可通过前端和后端 API 访问,使用户能够 1) 生成安全的代码,该代码没有漏洞,2) 审查和共享安全分析,以及 3) 轻松地在不同的提示优化方法之间切换,同时提供有关模型和系统性能的见解。我们在 AWS 服务器上为 SGCode 填充了 PromSec,这是一种通过将 LLM 和安全工具与轻量级生成对抗图神经网络相结合来优化提示的方法,以检测和修复生成的代码中的安全漏洞。大量的实验表明,SGCode 作为一项公共工具是实用的,可以深入了解模型效用、安全代码生成和系统成本之间的权衡。与提示 LLM 相比,SGCode 的成本微不足道。SGCode 可在以下网址获取:https://sgcode.codes/。