LLM2D

arXiv 论文列表

作者: Musfiqur Rahman, SayedHassan Khatoonabadi, Ahmad Abdellatif, Haya Samaana, Emad Shihab
arXiv:2408.02825v2 宣布类型: 重置交叉 摘要: 现如今,软件系统倾向于包含人工智能(AI)组件。已知操作环境的变化会通过导致AI增强软件系统的行为意外变化,从而对其稳定性产生负面影响。然而,环境配置如何影响此类系统的运行行为尚未被探讨。理解并量化由不同环境设置引起的不稳定程度可以帮助从业者决定最适合的环境配置以获得最稳定的AI系统。为了实现这一目标,我们在Travis CI平台上对30个开源AI增强系统进行了实验,使用了三个关键环境变量(操作系统、Python版本和CPU架构)的八种不同组合。我们使用三个指标确定每种配置引入的不稳定性和程度:系统中AI组件的输出(模型性能)、构建和运行系统所需的时间(处理时间)以及与构建和运行系统相关的成本(费用)。结果显示,环境配置的变化会导致所有这三个指标上的不稳定;然而,观察到的频率较高的是处理时间和成本,而不是模型性能。例如,在Linux和MacOS之间,分别有23%、96.67%和100%的研究项目在模型性能、处理时间和成本方面出现了不稳定现象。我们的研究结果强调了识别能够减轻模型性能下降和减少处理时间和成本的理想环境配置设置的重要性,在部署AI增强系统之前。
发布时间: 4/18/2025
查看原文
作者: Martin Lindstr\"om, Borja Rodr\'iguez-G\'alvez, Ragnar Thobaben, Mikael Skoglund
arXiv:2407.07664v2 宣告类型: replace-cross 摘要: 超球面原型学习(HPL)是一种监督式的表示学习方法,它在单位超球面上设计类别原型。这些原型使表示在比例不变且已知的几何结构下偏向于类别分离。此前的HPL方法存在以下缺点之一:(i) 采用一种不合原则的优化程序;或(ii) 在理论上是正确的,但只局限于一个可能的潜在维度。在本文中,我们解决了这两个缺点。为了应对(i),我们提出了一个合原则的优化程序,并证明其解是优化的。为了应对(ii),我们使用线性块码在宽范围的维度中构造了良好的分离原型。此外,我们从可实现和对偶界的角度完整地表征了最佳原型放置,展示了我们提出的方案几乎是最佳的。
发布时间: 4/18/2025
查看原文
作者: Tayab Uddin Wara, Ababil Hossain Fahad, Adri Shankar Das, Md. Mehedi Hasan Shawon
arXiv:2405.11008v3 宣告类型: replace-cross 摘要:睡眠对人们的身心健康至关重要,良好的睡眠可以帮助他们更好地专注于日常生活。因此,包含睡眠模式和睡眠障碍的研究对于提升我们对个人健康状况的认识至关重要。本研究旨在提供一份全面的系统综述,分析睡眠研究中的不同方法及其结果,其中包括使用人工智能的“睡眠阶段分类”和“睡眠障碍检测”作品。在这项综述中,最初从不同期刊中选取了183篇文章,其中80条记录进行了明确的审查,时间范围从2016年到2023年。脑电波是最常用的生理参数,用于睡眠阶段和障碍研究(近29%的研究仅使用脑活动信号,而77%的研究则将其与其他信号结合使用)。在34种不同的人工智能模型中,最广泛使用的是卷积神经网络(CNN),占27%。其他模型包括长短期记忆(LSTM)、支持向量机(SVM)、随机森林(RF)和循环神经网络(RNN),分别占11%、6%、6%和5%。在性能指标方面,准确率在83.75%的案例中被广泛使用,F1分数为45%,Kappa为36.25%,敏感性为31.25%,特异性为30%以及其他指标。这篇文章将帮助医生和研究人员了解人工智能对睡眠研究的贡献及其工作的可行性。
发布时间: 4/18/2025
查看原文
作者: Nearchos Potamitis, Lars Klein, Roland Aydin, Robert West, Caglar Gulcehre, Akhil Arora
arXiv:2405.06691v2 宣布类型: replace-cross 摘要:虽然已经开发出了许多框架来增强大型语言模型(LLMs)的推理能力,但在成本和质量之间的权衡方面,有效的解决方法相对缺乏。本文中,我们引入了Fleet of Agents(FoA),这是一种新颖且直观并在原则上利用LLMs作为代理,在动态树搜索中导航的新框架。FoA 使用了一种遗传类型的粒子滤波方法。FoA 生成了大量代理,每个代理自主探索搜索空间,随后是一个选择阶段,在该阶段中,基于启发式价值函数的重采样优化探索和利用之间的平衡。这种机制允许动态分支,并根据发现的解决方案调整探索策略。我们在三个基准任务“24点游戏”、“迷你填字游戏”和“WebShop”上进行了广泛的实验,使用了四种不同的LLM,“GPT-3.5”、“GPT-4”、“LLaMA3.2-11B”和“LLaMA3.2-90B”。在所有任务和LLM的平均成本上,FoA 的质量改进约为5%,而在成本上仅需要前SOTA方法的大约40%的成本。值得注意的是,我们的分析表明:(1)FoA 在所有基准方法中实现了最佳的成本-质量权衡;(2)FoA + LLaMA3.2-11B 超过了 Llama3.2-90B 模型。FoA 已在 https://github.com/au-clan/FoA 公开可用。
发布时间: 4/18/2025
查看原文
作者: Elahe Khatibi, Mahyar Abbasian, Zhongqi Yang, Iman Azimi, Amir M. Rahmani
arXiv:2405.01744v2 更新类型: 替换-交叉 摘要: 在高维数据集上进行有效的因果推理时,初始过程中的因果发现是必不可少的,在此过程中,基于观察数据生成因果图。然而,获得完整且准确的因果图是一个棘手的挑战,被认作是一个NP难问题。最近,大型语言模型(LLMs)的兴起标志着这一领域的新时代,表明它们在促进跨医学、金融和科学等不同领域的因果推理方面展现出新兴能力和广泛应用潜力。大型语言模型的丰富知识库有可能通过提高解释性、进行推理、增强泛化能力和揭示新的因果结构来提升因果推理领域。本文介绍了一个新的框架,名为自主大型语言模型增强因果发现框架(ALCM),旨在将数据驱动的因果发现算法与大型语言模型相结合,以自动化生成更稳健、准确和易于解释的因果图。ALCM由三个关键组件组成:因果结构学习、因果包裹器和大型语言模型驱动的因果精炼器。这些组件在动态环境中自主协作,以解决因果发现问题并提供合理的因果图。我们通过在七个已知数据集上实施两个演示来评估ALCM框架。实验结果表明,ALCM优于现有大型语言模型方法和传统数据驱动的因果推理机制。这项研究不仅证明了ALCM的有效性,还强调了利用大型语言模型因果推理能力的新研究方向。
发布时间: 4/18/2025
查看原文
作者: Yian Li, Wentao Tian, Yang Jiao, Jingjing Chen, Tianwen Qian, Bin Zhu, Na Zhao, Yu-Gang Jiang
arXiv:2404.12966v5 宣传类型: 替换交叉 摘要:最近,多模态大型语言模型(MLLMs)由于其卓越的指令跟随能力和广泛的世界知识,在多个学科中取得了显著的成果。然而,这些MLLMs是否具备类似人类的组合推理能力仍然是一个开放的问题。为了解开它们的推理行为,我们在本文中首先策展区际多模态假设推理基准(MARS-Bench)。有趣的是,我们发现大多数流行的MLLMs可以通过引入预设问题轻易地被误导,而这样的预设对人类推理来说显得很幼稚。此外,我们还提出了一种简单而有效的方法——主动推导(AD),这是一种新颖的强化学习范式,旨在鼓励模型在做出最终决定之前主动进行组合推理。通过提出AD方法的加持,一个MLLM在假设推理能力方面取得了显著提升,而不会损害其通用问题回答性能。我们还对开源和私有MLLMs在MARS-Bench上的进行了广泛的评估,并对AD方法进行了实验分析。
发布时间: 4/18/2025
查看原文
作者: Kafeng Wang, Jianfei Chen, He Li, Zhenpeng Mi, Jun Zhu
arXiv:2404.10445v4 Announce Type: replace-cross 摘要:扩散模型是广泛用于图像和视频生成的强大生成模型家族。然而,部署耗时、推断时间长以及对大量内存的要求限制了它们在资源受限设备上的应用。在本文中,我们提出了一种基于改进的Straight-Through Estimator的方法,以提高扩散模型的部署效率。具体来说,我们在预训练的扩散模型中的卷积层和线性层中添加稀疏掩码,然后在微调阶段转移学习稀疏模型,并在推断期间启用稀疏掩码。基于Transformer和UNet的扩散模型的实验结果表明,我们的方法在保持FID的同时减少了50%的MACs。在GPU上,稀疏模型加速约1.2倍。在其他MACs条件下,与其他方法相比,FID也低于1。
发布时间: 4/18/2025
查看原文
作者: Hwiyeol Jo, Taiwoo Park, Hyunwoo Lee, Nayoung Choi, Changbong Kim, Ohjoon Kwon, Donghyeon Jeon, Eui-Hyeon Lee, Kyoungho Shin, Sun Suk Lim, Kyungmi Kim, Jihye Lee, Sun Kim
arXiv:2404.08672v3 宣传类型: 交叉替换 摘要:尽管各行各业对企业服务中整合生成性大语言模型的兴趣日益浓厚,但有限的经验和资源稀缺性阻碍了大规模生成性大语言模型服务的推出和维护。在本文中,我们分享了在国家级搜索引擎中开发和运营生成性AI模型的经验,特别关注用户的查询敏感性。我们提出了一种敏感搜索查询的分类方法,概述了我们的方法,并呈现了来自实际用户的敏感查询的全面分析报告。我们认为,我们构建生成性大语言模型搜索系统的经验有助于降低构建生成性大语言模型服务的障碍。
发布时间: 4/18/2025
查看原文
作者: Huy Pham, Hoang Ta, Hoa T. Vu
arXiv:2403.19867v4 宣告类型: replace-cross 摘要: 在这项工作中,我们提出了数据流算法来计算决策树学习中的最优分割。特别地,给定一系列观测值 \(x_i\) 及其相应的标签 \(y_i\) 的数据流,不考虑独立同分布假设,目标是识别出能最小化均方误差(对于回归任务)或错误分类率和基尼不纯度(对于分类任务)的最优分割 \(j\)。我们提出了几种高效的流算法,这些算法需要亚线性空间,并且只需要少量遍历来解决这些问题。这些算法还可以扩展到MapReduce模型。我们的结果,虽然不直接可比,但补充了Domingos-Hulten (KDD 2000) 和 Hulten-Spencer-Domingos (KDD 2001) 的开创性工作。
发布时间: 4/18/2025
查看原文
作者: Weitao Li, Junkai Li, Weizhi Ma, Yang Liu
arXiv:2402.16063v4 生成类型:replace-cross 摘要:大型语言模型(LLMs)在各种场景中展现了强大的通用智能,包括将其集成到聊天机器人中。然而,基于LLM的聊天机器人的一个重要挑战是它们可能会在响应中生成虚构的内容,这极大地限制了它们的应用性。已经做出了各种努力来减轻虚构内容的问题,例如检索增强生成和基于人类反馈的强化学习,但其中许多方法需要额外的训练和数据标注。本文中,我们提出了一种新的后处理增强引用生成(CEG)方法,结合了检索论证。与之前专注于生成过程中防止虚构内容的研究不同,我们的方法以后处理的方式解决这一问题。它包含一个检索模块,用于搜索与生成内容相关的支持文档,并采用基于自然语言推理的引用生成模块。一旦生成内容中的声明缺乏参考,我们的模型可以重新生成响应,直到所有声明都有引用支持。需要注意的是,我们的方法是一个无需训练的即插即用插件,能够应用于各种LLM。在各种虚构内容相关的数据集上的实验表明,我们的框架在三个基准上的虚构内容检测和响应再生方面均优于当前最先进的方法。我们的代码和数据集将公开提供。
发布时间: 4/18/2025
查看原文