大型语言模型(LLM)已经深刻地改变了我们生活的许多方面。然而,评估和确保其时间知识仍然具有挑战性。现有方法未能充分解决知识的时间适应性问题,通常依赖于固定的时间点视角。为了克服这个问题,我们引入了 ChroKnowBench,这是一个基准数据集,旨在从三个关键方面评估累积的时间知识:多个领域、时间依赖性和时间状态。我们的基准区分了随着时间推移而演变的知识(例如,个人历史、科学发现、修正后的法律)和保持不变的知识(例如,数学真理、常识性事实)。基于此基准,我们提出了 ChroKnowledge(知识的时间分类),这是一种新颖的基于采样的框架,用于评估LLM的非参数时间知识。我们的评估得出以下结论:(1)引出时间知识的能力取决于模型训练所用的数据格式。(2)LLM部分地回忆知识,或在时间边界处出现截止,而不是正确地回忆知识的所有方面。因此,我们应用了我们的 ChroKnowPrompt,这是一种深入的提示方法,通过逐步遍历周围的时间跨度来引出时间知识。我们观察到它成功地在开源和专有LLM中回忆对象,证明了其多功能性,尽管它在动态数据集和非结构化格式方面面临挑战。
大型语言模型(LLM)在各种任务中展现出非凡的能力,但它们也面临潜在的安全风险,例如越狱攻击。越狱攻击利用漏洞绕过安全措施并生成有害输出。现有的越狱策略主要集中于最大化攻击成功率(ASR),经常忽略其他关键因素,包括越狱响应与查询的相关性以及隐蔽性水平。这种对单一目标的狭隘关注可能导致无效的攻击,这些攻击要么缺乏上下文相关性,要么很容易被识别。在这项工作中,我们介绍了BlackDAN,这是一个具有多目标优化的创新型黑盒攻击框架,旨在生成有效促进越狱的高质量提示,同时保持上下文相关性并最大限度地降低可检测性。BlackDAN 利用多目标进化算法(MOEA),特别是 NSGA-II 算法,来优化跨多个目标(包括 ASR、隐蔽性和语义相关性)的越狱。通过整合突变、交叉和帕累托支配等机制,BlackDAN 为生成越狱提供了一个透明且可解释的过程。此外,该框架允许根据用户偏好进行自定义,从而可以选择平衡有害性、相关性和其他因素的提示。实验结果表明,BlackDAN 的性能优于传统的单目标方法,在各种 LLM 和多模态 LLM 中实现了更高的成功率和改进的鲁棒性,同时确保越狱响应既相关又难以检测。
本文提出了一种名为AutoDAN-Turbo的黑盒越狱方法,该方法可以自动发现尽可能多的越狱策略,无需任何人工干预或预定义范围(例如,指定的候选策略),并将其用于红队对抗测试。结果表明,AutoDAN-Turbo显著优于基线方法,在公共基准测试中平均攻击成功率提高了74.3%。值得注意的是,AutoDAN-Turbo在GPT-4-1106-turbo上的攻击成功率达到了88.5%。此外,AutoDAN-Turbo是一个统一的框架,可以即插即用地整合现有人工设计的越狱策略。通过整合人工设计的策略,AutoDAN-Turbo在GPT-4-1106-turbo上的攻击成功率甚至可以达到93.4%。
近年来,扩散模型在学习数据先验以解决逆问题方面取得了显著进展。它们利用扩散采样步骤来诱导数据先验,同时在每一步使用测量引导梯度来强加数据一致性。对于一般的逆问题,当使用无条件训练的扩散模型时,由于测量似然性难以处理,需要进行近似,这会导致后验采样不准确。换句话说,由于这些近似,这些方法未能保留由扩散先验定义的数据流形上的生成过程,从而导致图像恢复等应用中出现伪影。为了提高扩散模型在解决逆问题中的性能和鲁棒性,我们提出了扩散状态引导投影梯度法 (DiffStateGrad),该方法将测量梯度投影到扩散过程中间状态的低秩近似子空间上。DiffStateGrad作为一个模块,可以添加到各种基于扩散的逆解算器中,以改善对先验流形上扩散过程的保持,并滤除产生伪影的成分。我们强调,DiffStateGrad提高了扩散模型在测量引导步长和噪声选择方面的鲁棒性,同时提高了最坏情况下的性能。最后,我们证明了DiffStateGrad在線性和非线性图像恢复逆问题上优于现有技术。
在复杂的听觉环境中,人类听觉系统具有非凡的能力,可以专注于特定说话者而忽略其他说话者。本研究提出了一种名为SWIM的新模型,这是一种与Mamba集成的短时窗卷积神经网络(CNN),用于从脑电图(EEG)信号中识别听觉注意的轨迹(左或右),而无需依赖语音包络。SWIM由两部分组成。第一部分是短时窗CNN(SWCNN),它充当短期EEG特征提取器,在广泛使用的KUL数据集上,采用留一说话者外的设置,最终准确率达到84.9%。这一改进是由于使用了改进的CNN结构、数据增强、多任务训练和模型组合。第二部分Mamba是一个序列模型,首次应用于听觉空间注意解码,以利用先前SWCNN时间步长的长期依赖性。通过联合训练SWCNN和Mamba,提出的SWIM结构同时利用短期和长期信息,准确率达到86.2%,与之前的最先进结果相比,分类错误减少了31.0%。源代码可在https://github.com/windowso/SWIM-ASAD获取。
这篇立场文件探讨了在先进制造(工业4.0的基石)领域将人工智能(AI)集成到力控机器人任务中的问题。人工智能在增强机器人机械臂(第四次工业革命的关键驱动力)方面的作用正在迅速推动智能制造领域的重大创新。本文的目的是将这些创新应用于实际的力控应用中,例如去毛刺、抛光和装配任务(例如销孔装配),并强调其对维持高质量生产标准的必要性。通过报告最近基于人工智能的方法,本文对它们进行了对比,并确定了未来研究中需要解决的当前挑战。分析最后对未来的研究方向进行了展望,强调需要采用共同的性能指标来验证人工智能技术,集成各种增强功能以优化性能,以及在相关场景中验证其重要性。这些未来的方向旨在与已采用的方法保持一致,以便与制造标准兼容,从而提高人工智能驱动方法在学术和工业领域的相关性。
检索增强生成 (RAG) 越来越多地被认为是通过整合外部知识来减轻大型语言模型 (LLM) 幻觉的有效方法。虽然已有大量研究,但大多数研究都集中于单一类型的外部知识源。然而,在实际应用中,大多数情况都涉及来自各种来源的多种知识,而这方面却鲜有研究。主要难题在于缺乏包含多个知识源并预先探索相关问题的合适数据集。为了应对这些挑战,我们标准化了一个基准数据集,该数据集结合了来自不同互补领域的结构化和非结构化知识。基于此数据集,我们进一步开发了一个即插即用的 RAG 框架 PruningRAG,其主要特点是采用多粒度剪枝策略来优化相关信息的整合并最大限度地减少误导性上下文。基于标准化数据集和 PruningRAG,我们还报告了一系列实验结果以及有见地的发现。我们的数据集和代码已公开发布,旨在推动 RAG 社区未来的研究。
大型语言模型 (LLM) 的出现为人工智能搜索引擎(例如 SearchGPT)铺平了道路,展示了人机交互的新范式。然而,目前大多数人工智能搜索引擎仅限于纯文本环境,忽略了多模态用户查询以及网站信息中文本和图像交织的特性。最近,大型多模态模型 (LMM) 取得了令人瞩目的进展。然而,它们能否作为人工智能搜索引擎发挥作用仍未得到充分探索,这使得 LMM 在多模态搜索中的潜力成为一个悬而未决的问题。为此,我们首先设计了一个精细的流程 MMSearch-Engine,赋予任何 LMM 多模态搜索能力。在此基础上,我们引入了 MMSearch,这是一个全面的评估基准,用于评估 LMM 的多模态搜索性能。精心策划的数据集包含 300 个手动收集的实例,涵盖 14 个子领域,并且与当前 LMM 的训练数据没有重叠,确保正确答案只能通过搜索获得。通过使用 MMSearch-Engine,对 LMM 进行评估,执行三个单独的任务(重新查询、重新排序和摘要),以及一个具有完整搜索过程的具有挑战性的端到端任务。我们对闭源和开源 LMM 进行了广泛的实验。在所有测试模型中,配备 MMSearch-Engine 的 GPT-4o 取得了最佳结果,在端到端任务中超过了商业产品 Perplexity Pro,证明了我们提出的流程的有效性。我们进一步进行了错误分析,以揭示当前 LMM 仍然难以完全掌握多模态搜索任务,并进行了消融研究,以表明扩展 AI 搜索引擎测试时计算的潜力。我们希望 MMSearch 能够提供独特的见解,以指导未来多模态人工智能搜索引擎的发展。
本文介绍了一种多模态喉镜视频分析系统(MLVAS),该系统利用音频和视频数据自动提取原始喉部视频频闪镜检查中的关键片段和指标,以辅助临床评估。该系统集成了基于视频的声门检测和音频关键词识别方法,以分析视频和音频数据,识别患者的发声并细化视频重点,以确保最佳地检查声带运动。此外,MLVAS还具有先进的频闪视频提取模块,该模块通过分析色相、饱和度和亮度波动,专门识别喉部视频频闪镜检查中的频闪帧。除了关键片段提取之外,MLVAS还提供用于声带麻痹(VFP)检测的有效指标。它采用了一种新颖的两阶段声门分割过程,使用U-Net进行初始分割,然后进行基于扩散的细化以减少误报,从而为后续任务提供更好的分割掩码。MLVAS根据分割的声门掩码估计左右声带的振动动力学,通过测量与估计的声门中线的角度偏差来检测单侧VFP。通过比较左右动力学的方差,系统有效地区分左右VFP。我们进行了几项消融研究,以证明MLVAS中每个模块的有效性。在公共分割数据集上的实验结果表明了我们提出的分割模块的有效性。此外,在真实世界临床数据集上的VFP分类结果表明,MLVAS能够提供可靠和客观的指标以及可视化结果,以辅助临床诊断。
以往许多人工智能研究都集中于开发单体模型以最大化其智能,其主要目标是提高特定任务的性能。相比之下,这项工作尝试研究使用基于大型语言模型 (LLM) 的智能体来自主设计协作式人工智能系统。为了探索这个问题,我们首先介绍了 ComfyBench,用于评估智能体在 ComfyUI 中设计协作式人工智能系统的能力。ComfyBench 是一个全面的基准,包含 200 个不同的任务,涵盖各种指令遵循生成挑战,以及对 3205 个节点和 20 个工作流程的详细注释。基于 ComfyBench,我们进一步开发了 ComfyAgent,这是一个新颖的框架,使基于 LLM 的智能体能够通过生成工作流程来自主设计协作式人工智能系统。ComfyAgent 基于两个核心概念。首先,它用代码表示工作流程,这些代码可以可逆地转换为工作流程,并由解释器作为协作系统执行。其次,它构建了一个多智能体系统,该系统合作学习现有工作流程并为给定任务生成新的工作流程。虽然实验结果表明 ComfyAgent 达到了与 o1-preview 相当的解决率,并且在 ComfyBench 上显著超过其他智能体,但 ComfyAgent 只解决了 15% 的创造性任务。基于大型语言模型的智能体在自主设计协作式人工智能系统方面还有很长的路要走。ComfyBench 的进展为更智能、更自主的协作式人工智能系统铺平了道路。