arXiv:2409.18653v2 标题替换类型: replace-cross
摘要:本研究探讨了Segment Anything Model 2 (SAM2) 在具有挑战性的视频伪装目标分割 (VCOS) 任务中的应用和性能。VCOS 是指由于色调和纹理相似、光照条件差等原因,视频中难以区分与周围环境融合的物体。与普通场景中的物体相比,伪装物体的检测难度更大。SAM2 是一种视频基础模型,在各种任务中显示出了潜力。但在动态伪装场景中的有效性仍待进一步探索。本研究对 SAM2 在 VCOS 中的能力进行了全面的研究。首先,我们使用不同的模型和提示(点击、框和掩码)评估了 SAM2 在伪装视频数据集上的性能。其次,我们探讨了 SAM2 与现有的多模态大型语言模型 (MLLMs) 和 VCOS 方法的集成。第三,我们专门对 SAM2 进行了调整,通过在视频伪装数据集上进行微调。我们全面的实验表明,SAM2 具有出色的零样本检测视频中伪装物体的能力。我们还展示了通过专门调整 SAM2 的参数,这一能力可以进一步提高。代码可在 https://github.com/zhoustan/SAM2-VCOS 获取。
arXiv:2409.13746v2 声明类型:replace-cross
摘要:本研究评估了大型语言模型(LLMs)将生物医学本体术语映射到人类表型本体(HPO)、基因本体(GO)和UniProtKB术语对应的本体ID的能力。我们使用PubMed Central(PMC)数据集中本体ID的计数作为生物医学文献中其流行程度的代理,检查了本体ID的流行程度与映射准确性之间的关系。结果表明,本体ID的流行程度强烈预测HPO术语到HPO ID、GO术语到GO ID以及蛋白质名称到UniProtKB访问号的准确映射。生物医学文献中本体ID的高流行程度与更高的映射准确性相关联。基于受试者操作特征(ROC)曲线建立的预测模型确认了这种关系。
相比之下,这种模式不适用于将蛋白质名称映射到人类基因组织(HUGO)基因符号。GPT-4在将蛋白质名称映射到HUGO基因符号方面达到了很高的基线性能(95%),而映射准确性不受流行程度的影响。我们认为,文献中HUGO基因符号的高流行程度导致这些符号被词法化,从而使GPT-4能够以高精度将蛋白质名称映射到HUGO基因符号。这些发现突显了LLMs在映射低流行度本体ID时的局限性,并强调了在生物医学应用中训练和评估LLMs时考虑本体ID流行程度的重要性。
arXiv:2409.11055v4 映射类型: 替换-交叉
摘要:量化已引起广泛关注,作为大规模和小型语言模型经济有效的部署解决方案。然而,大多数先前的工作仅限于困惑度或基本知识任务,并缺乏对近期模型如Llama-3.3的全面评估。在这篇论文中,我们对参数量从1B到405B的指令调整模型进行了全面评估,应用了四种量化方法来跨越13个数据集。我们的发现显示:(1) 量化模型通常超过较小的FP16基线,但在指令跟随和幻觉检测方面经常遇到困难;(2) FP8在各任务中始终是最为稳健的选择,并且AWQ在仅权重量化中往往优于GPTQ;(3) 小型模型在4位量化时可能会遭受严重的准确度下降,而70B规模的模型则能保持稳定性能;(4) 显著的是,困难任务并不总是遭受最大的准确度损失,这表明量化放大了模型固有的弱点,而不仅仅是与任务难度相关;(5) 一个基于大语言模型的裁判机构(MT-Bench)在编程和STEM任务中显示出显著的性能下降,尽管偶尔会在推理方面报告改进。
arXiv:2409.10297v3 公告类型:替换交叉
摘要:纹理对机器学习模型的影响一直是一个持续的研究主题,特别是在纹理偏差/学习、解释性和鲁棒性方面。然而,由于缺乏大量多样化的纹理数据,这些研究的发现受到了限制,因为进行更全面的评估并不现实。图像生成模型能够提供大量数据的创建,但将这些模型用于纹理合成尚未得到探索,且在创建准确的纹理图像以及验证这些图像方面带来了额外的挑战。在本文中,我们引入了一种可扩展的方法和相应的全新数据集,用于生成高质量、多样化的纹理图像,以支持广泛基于纹理的任务。我们的工作流程包括:(1) 从一系列描述符中开发提示,作为文本到图像模型的输入;(2) 采用并适应 Sd 管道生成并过滤相应的图像;以及 (3) 进一步过滤以保留最高质量的图像。通过这种方式,我们创建了提示纹理数据集 (PTD),一个包含涵盖 56 种纹理的 246,285 张纹理图像的数据集。在生成图像的过程中,我们发现图像生成管道中的 NSFW 安全过滤器对纹理非常敏感(我们的纹理图像中有高达 60% 被标记),揭示了这些模型中潜在的偏差,并在处理纹理数据时提出了独特的挑战。通过标准度量和人工评估,我们发现我们的数据集质量高且多样化。我们的数据集可在 https://zenodo.org/records/15359142 下载。
arXiv:2409.09787v4 宣布类型: replace-cross
摘要: 开发一个能够从玻尔兹曼分布中生成独立同分布(IID)样本的有效采样器是科学研究中的一个关键挑战,例如分子动力学。在这项工作中,我们旨在学习基于能量函数的神经采样器,而不是直接从玻尔兹曼分布中采样数据。通过学习噪声数据的能量,我们提出了一种基于扩散的采样器——噪声能量匹配(NEM),在理论上相比相关工作具有更低的方差和更高的复杂性。此外,我们还应用了一种新颖的自助技术来平衡NEM的偏差和方差。我们在二维40高斯混合模型(GMM)和四粒子双阱势(DW-4)上评估了NEM和BNEM。实验结果表明,BNEM可以实现最先进的性能并且更具鲁棒性。
arXiv:2409.06953v4 宣告类型: replace-cross
摘要:神经算法推理(NAR)将经典算法扩展到高维数据。然而,NAR的经典实现仅训练神经网络返回单一解决方案,即使存在多个正确解决方案,例如单源最短路径问题也是如此。对于某些应用来说,恢复多个正确解决方案是必要的。为此,我们提供了第一个处理多个解决方案的NAR方法。我们在这两种经典算法上展示了该方法:贝尔曼-福德算法(BF)和深度优先搜索(DFS),侧重于这两算法的深入理解,而不仅仅是算法范围的广泛调查。该方法包括生成适当的训练数据以及从模型输出中采样和验证解决方案。我们的方法中的每一步都可以作为超越本文所述任务的神经算法推理的框架,其中每一步可能对领域本身具有独立的兴趣,我们的结果代表了NAR文献中对这一任务的首次尝试。
arXiv:2409.05808v2 宣告类型: 替换交叉
摘要:软件测试是软件开发生命周期(SDLC)中的一个关键阶段,确保产品在发布前达到必要的功能性、性能和质量标准。尽管自动化技术取得了进步,传统的测试案例生成和验证方法仍然面临重大挑战,包括漫长的测试时间、人为错误、测试覆盖面不完整以及手动干预的高成本。这些限制往往导致产品延迟发布和未被发现的缺陷,从而影响软件质量和用户满意度。将人工智能(AI)整合到软件测试中提供了一种解决这些长期挑战的有前景的解决方案。基于AI的测试方法能够自动创建全面的测试案例,动态适应变化,并利用机器学习识别代码库中的高风险区域。这种方法提高了回归测试的效率,同时扩大了整体的测试覆盖面。此外,AI驱动的工具能够实现持续测试和自我修复的测试案例,显著减少手动监控,并加速反馈循环,从而最终加快并提高软件发布的可靠性和速度。本文探讨了AI在提高测试案例生成和验证方面的变革潜力,重点关注其在测试过程中提高效率、准确性和可扩展性的能力。同时,本文还讨论了将AI适应测试时面临的关键挑战,包括需要高质量的训练数据、确保模型透明性以及在自动化和人工监控之间保持平衡的需求。通过案例研究和实际应用示例,本文展示了AI如何在古老和现代软件系统中显著提高测试效率。
arXiv:2408.14806v2 宣告类型: 交叉替换
摘要: 对地理空间对象进行编码是地理空间人工智能(GeoAI)应用的基础,这些应用利用机器学习(ML)模型来分析空间信息。常见的方法是将每个对象转换为图像和文本等已知格式,以与ML模型兼容。然而,这个过程往往会丢弃一些关键的空间信息,例如对象相对于整个空间的位置,从而降低下游任务的效果。为特定数据对象设计的保留了一些空间属性的替代编码方法通常仅适用于特定类型的数据(例如,点编码),而不适用于涉及不同类型数据的任务(即点、多段线和多边形)。为了解决这一问题,我们提出了一种Poly2Vec,这是一种基于傅里叶的统一编码方法,能够同时表示地理空间对象,同时保留关键的空间属性。Poly2Vec结合了一个学习融合模块,该模块能够根据不同任务和几何形状适应性地整合傅里叶变换的幅度和相位。我们通过五个不同的任务对Poly2Vec进行了评估,这些任务分为两类。第一类实验证明,在保留拓扑、方向和距离这三种关键空间关系方面,Poly2Vec始终优于特定对象的基线方法。第二类实验表明,将Poly2Vec整合到最先进的GeoAI工作流程中,可以提高两个流行任务的表现:人口预测和土地使用推断。
arXiv:2408.05093v4 论文类型: 替换-交叉
摘要:自大型语言模型(LLMs)问世以来,它们在学术和工业各个领域引起了广泛关注,并找到了广泛的应用。然而,这些模型常常受到所谓的“幻觉问题”的困扰,即输出虽然在语法和逻辑上是连贯的,但缺乏事实准确性或完全是虚构的。最近发现并广泛讨论的一个特别令人担忧的问题是,在多个LLMs错误地推断出“9.11>9.9”时发生的数字比较错误。我们发现,LLMs生成答案和推理的顺序对其一致性产生了影响。具体而言,在LLMs先生成答案然后提供推理与先提供推理过程然后生成结论的情况下,结果差异显著。受此启发,我们提出了一种新的评估LLMs一致性的基准方法:通过这两种不同方法生成的响应进行比较。该基准有效地识别了LLMs生成虚构答案并随后生成论证的情况。此外,我们还引入了一种新颖且简单的提示策略,旨在缓解这一问题。实验结果表明,与直接提问相比,这种方法在各种LLMs中提高了性能。这项工作不仅揭示了LLMs的一个关键缺陷,而且还提供了一种实用的解决方案来增强其可靠性。
arXiv:2408.00540v3 通告类型: replace-cross
摘要:人工智能(AI)正在被整合到多种优化、调度、编排以及原生通信网络功能中。虽然这一范式转变会导致能源消耗的增加,但量化将智能添加到这些系统中的端到端能源消耗特别具有挑战性。传统的度量标准主要关注通信、计算基础设施或模型开发。为了解决这个问题,我们提出了一种新的度量标准,即系统的单个AI模型的人工智能生命周期能源成本(eCAL)。eCAL 捕获了从开发到部署 AI 模型整个过程中的能源消耗,通过分析单个组件的数据收集和操作复杂性来确定整体和每比特的能源消耗。我们的研究表明,模型越优秀且使用越频繁,推理过程就越节能。对于一个简单的案例研究,进行100次推理的eCAL是进行1000次推理的2.73倍。此外,我们还开发了一个模块化且可扩展的开源仿真工具,以使研究人员、从业者和工程师能够使用各种配置并在不同系统中计算端到端的能源成本,从而确保能够适应多样化用例的需求。