arXiv:2504.10527v1 宣布类型: 新
摘要: 人工智能(AI)已成为分析复杂数据和解决高度挑战性任务的重要工具。它已被广泛应用于计算机科学之外的众多学科,包括食品工程,其中准确和可靠的预测需求不断增长,以满足严格的食品质量标准。然而,这需要日益复杂的AI模型,从而引发可靠性的担忧。为此,可解释的人工智能(XAI)已经出现,以提供对AI决策的洞察,帮助开发者和用户解释模型。尽管如此,XAI在食品工程中的应用仍然较少,限制了模型的可靠性。例如,在食品质量控制中,使用光谱成像的AI模型可以检测污染物或评估新鲜度水平,但其不透明的决策过程阻碍了其应用。XAI技术如SHAP(Shapley值添加解释)和Grad-CAM(梯度加权类别激活映射)可以指明哪些光谱波长或图像区域对预测贡献最大,从而增强透明度,并帮助质量控制检查员验证AI生成的评估结果。本文综述了使用XAI技术分类食品质量研究的分类法,按数据类型和解释方法组织,以指导研究人员选择合适的方法。我们还强调了趋势、挑战和机遇,以促进XAI在食品工程中的应用。
arXiv:2504.10519v1 声明类型: 新
摘要:由大型语言模型驱动的AI代理正在通过广泛的应用改变世界。一个超级代理有能力通过准确理解用户意图并利用适当的工具来解决任务,从而满足多样化的用户需求,例如摘要、编码和研究。然而,为了使这样的代理能够在现实世界中部署,并实现规模化,以确保高效率和低成本,需要进行大量的优化。本文提出了超级代理系统的架构设计。在接收到用户提示后,系统首先检测用户意图,然后将请求路由到具有必要工具的专业任务代理,或者自动生成代理工作流。实践中,大多数应用直接作为边缘设备(如手机和机器人)上的AI助手运行。由于不同的语言模型在能力上存在差异,基于云的模型通常会带来较高的计算成本、延迟和隐私问题,因此我们探索了一种混合模式,根据任务复杂度动态选择本地或基于云的模型。最后,我们介绍了增强云功能的边缘设备超级代理的蓝图。随着多模态模型和边缘硬件的进步,我们设想大部分计算可以在本地完成,仅在需要时进行云协作。这种架构为超级代理在未来无缝融入日常生活铺平了道路。
arXiv:2504.08727v2 通告类型: replace-cross
摘要: 我们提出了一种使用多模态大语言模型 (MLLM) 的系统,用于分析包含数以十亿计的在不同时间拍摄的图像的大数据库,旨在发现时间变化中的模式。具体而言,我们旨在捕捉某个时期内整个城市中频繁共现的变化(“趋势”)。与之前的视觉分析不同,我们的分析能够回答开放性查询(例如,“城市中频繁出现的变化类型是什么?”)而不设定任何预定的目标主题或训练标签。这些特性使得以前的学习基于或无监督的视觉分析工具不再适用。我们确定MLLM作为一种新的工具,因为它们具有开放性语义理解能力。然而,我们的数据集规模远远超过了MLLM可以作为上下文消化的量级。因此,我们引入了一种自底向上的方法,将大规模的视觉分析问题分解为更可处理的子问题。我们精心设计了基于MLLM的解决方案来解决每个子问题。在使用我们系统的实验和消融研究中,我们发现它显著优于基准模型,并能够从大城市的图像中发现有趣的趋势(例如,“室外用餐区的增加”,“立交桥被涂成蓝色”等)。更多结果和交互式演示请参见https://boyangdeng.com/visual-chronicles。
arXiv:2504.08593v2 宣布类型: replace-cross
摘要:本文解决了连续手语分割的挑战,这是一个在手语翻译和数据标注方面具有巨大影响的关键任务。我们提出了一种基于变换器的架构,使用 Begin-In-Out (BIO) 标记方案将手语的时间动态和帧分割问题建模为序列标签问题。我们的方法利用了 HaMeR 手部特征,并结合了3D角度。广泛的实验表明,我们的模型在DGS语料库上达到了最先进的结果,而我们的特征在BSL语料库上超过了先前的基准。
arXiv:2504.08300v2 宣告类型: replace-cross
摘要:多项选择题(MCQ)基准在评估大型语言模型(LLMs)方面广泛应用,但它们的可靠性受到基准污染的影响。在这项研究中,我们将污染重新定义为学习的固有方面,并寻求在LLM评估中解开真正的能力获取与表面的记忆化之间的关系。首先,通过分析在不同记忆条件下模型的表现,我们揭示了一个出乎意料的趋势:LLMs在记忆化的MCQ上表现不如在非记忆化的MCQ上,这表明了两种不同的学习现象共存,即机械记忆和真正的能力学习。为了解开这些现象,我们提出了TrinEval,一种新颖的评估框架,将MCQ重新格式化为一种替代的三位一体格式,减少了记忆化的同时保留了知识评估。实验证明了TrinEval在重新格式化方面的有效性,并且其评估结果显示,常见的LLMs可能通过机械记忆平均保留了知识点的20.5%。
arXiv:2504.08256v2 宣告类型: replace-cross
摘要:近年来,大型语言模型(LLMs)为虚拟现实(VR)中的上下文理解提供了新的机会。然而,VR上下文往往高度本地化和个性化,限制了一般用途LLM的有效性。为了解决这一挑战,我们提出了RAG-VR,这是一种结合了检索增强生成(RAG)的首个3D问答系统,该系统通过从本地化的知识数据库中检索外部知识来增强LLM,以提高答案质量。RAG-VR包括一个管道,用于提取关于虚拟环境和用户条件的全面知识,以实现准确的答案生成。为了确保高效的检索,RAG-VR将检索过程卸载到附近的边缘服务器,并在检索过程中仅使用必要的信息。此外,我们训练检索器有效地区分与问题相关的、无关的以及难以区分的信息。与两个基线系统相比,RAG-VR将答案准确性提高了17.9%-41.8%,并将端到端延迟降低了34.5%-47.3%。
arXiv:2504.08201v2 宣布类型: replace-cross
摘要:近期的工作表明,大规模的多动物模型是表征神经活动与行为之间关系的强大工具。然而,目前的大规模方法仅专注于从行为预测神经活动(编码)或从神经活动预测行为(解码),限制了它们捕获神经活动与行为之间的双向关系的能力。为了弥合这一差距,我们介绍了一种多模态、多任务模型,该模型能够大规模同时进行神经编码和解码(NEDS)。我们方法的核心是一个新颖的多任务遮罩策略,该策略交替进行神经遮罩、行为遮罩、模态内遮罩和跨模态遮罩。我们在国际大脑实验室(IBL)重复站点数据集上预训练了我们的方法,该数据集包括83只动物在同一视觉决策任务中的记录。与现有的其他大规模模型相比,我们展示了当NEDS在多动物数据上预训练然后在新动物上微调时,它在编码和解码方面均实现了最先进的性能。令人惊讶的是,NEDS学习到的嵌入表现出一些新兴特性:即使在没有显式训练的情况下,它们对每个记录中的大脑区域也具有很高的预测性。总体而言,我们的方法朝着神经活动与行为之间无缝转换的大脑基础模型迈出了一步。
arXiv:2504.07983v2 宣告类型:替换交叉
摘要:随着社交媒体平台上心理健康危机的增加,识别和防止潜在危害已成为一项紧迫的挑战。本研究介绍了一种基于大规模语言模型(LLM)的文本转移识别方法,该方法结合了领域特定的心理健康知识,适用于社交媒体危机干预。我们提出了一种多级框架,该框架结合了使用BERT进行迁移学习,并集成了心理健康知识、情感分析和行为预测技术。该框架包括一个基于真实事件社交媒体数据集训练的危机标注工具,使模型能够检测细微的情感线索并识别心理危机。实验结果表明,所提出的方法在危机检测准确性方面优于传统模型,并且在细微的情感和上下文变化方面表现出更高的敏感性。
arXiv:2504.07822v2 通知类型: 替换-交叉
摘要:时空交通预测对于智能交通系统至关重要。准确预测的关键挑战在于如何建模复杂的时空依赖关系,并适应数据中的固有动态。传统的图卷积网络(GCNs)往往难以处理静态邻接矩阵引入的领域偏差或可学习的矩阵可能过拟合于特定模式。当考虑多任务学习(MTL)时,这一挑战变得更为复杂。虽然MTL有潜力通过任务协同效应提高预测准确性,但也可能因任务干扰而遇到重大障碍。为了克服这些挑战,本研究引入了一种新的MTL框架,动态组时空多任务学习(DG-STMTL)。DG-STMTL提出了一种混合邻接矩阵生成模块,该模块通过任务特定的门控机制结合静态矩阵和动态矩阵。我们还引入了一种组GCN模块,以增强时空依赖关系的建模能力。我们在两个真实数据集上进行了广泛的实验以评估我们的方法。结果表明,我们的方法优于其他最先进的方法,表明了其有效性和鲁棒性。
arXiv:2504.07334v2 宣告类型: 替换-交叉
摘要: 本文介绍了Objaverse++,这是一份由人类专家增加详细属性注解的Objaverse精选子集。3D内容生成的最近进展得益于大规模数据集,如Objaverse,其中包含来自互联网的超过80万的3D对象。尽管Objaverse代表了最大的可用3D资产集合,但其用途受限于低质量模型的主导地位。为解决这一限制,我们手动为10,000个3D对象加上了详细的属性注解,包括美学质量评分、纹理颜色分类、多对象组合标志、透明度特性等。然后,我们训练了一个能够为Objaverse数据集中的其余部分进行注解的神经网络。通过实验和生成结果的用户研究,我们证明,基于我们质量导向子集预训练的模型,在图像到3D生成任务中比基于Objaverse较大数据集训练的模型表现更好。此外,通过比较由我们标签筛选的不同训练数据子集,我们的结果显示,数据质量越高,训练损失收敛速度越快。这些发现表明,仔细筛选和丰富的注解可以弥补原始数据集规模的不足,可能提供一条更高效的3D生成模型开发路径。我们发布了大约包含50万个精心筛选的3D模型的增强数据集,以促进3D计算机视觉各种下游任务的研究。在未来,我们计划将注解扩展至整个Objaverse数据集。