arXiv 论文列表

作者: Jeremy Stephen Gabriel Yee, Pai Chet Ng, Zhengkui Wang, Ian McLoughlin, Aik Beng Ng, Simon See

这篇论文对在小型和中型企业（SME）中部署大型语言模型（LLM）的设备端基础设施需求进行了系统的回顾，重点关注硬件和软件方面。从硬件角度来看，我们讨论了GPU和TPU等处理单元的利用、高效的内存和存储解决方案以及有效的部署策略，并解决了SME环境中计算资源有限的挑战。从软件角度来看，我们探讨了框架兼容性、操作系统优化以及针对资源受限环境的专用库的使用。这篇综述首先确定了SME在设备端部署LLM时面临的独特挑战，然后探讨了硬件创新和软件适配为克服这些障碍提供的机遇。这种结构化的综述提供了实际的见解，通过增强SME在集成LLM方面的技术韧性，为社区做出了重大贡献。

发布时间: 10/23/2024

查看原文

普罗米修斯：一个以人为本的流水线，用于简化基于大型语言模型的系统评价

作者: Jo\~ao Pedro Fernandes Torres, Catherine Mulligan, Joaquim Jorge, Catarina Moreira

学术出版物的数量不断增长，给研究人员进行及时且准确的系统文献综述带来了巨大挑战，尤其是在人工智能等快速发展的领域。这种学术文献的增长也使得普通人越来越难以有效地获取科学知识，这意味着学术文献在大众媒体以及更广泛的社会中常常被误读。传统的文献综述方法费时费力且容易出错，难以跟上新研究的快速步伐。为了解决这些问题，我们开发了PROMPTHEUS：一个基于人工智能的流水线解决方案，它利用大型语言模型自动化文献综述过程。我们的目标是通过减少人工工作量来提高效率，同时保持全面文献综述所需的精确性和连贯性。PROMPTHEUS 自动化了文献综述过程的关键阶段，包括系统搜索、数据提取、使用BERTopic进行主题建模以及使用Transformer模型进行摘要。在五个研究领域的评估表明，PROMPTHEUS 减少了综述时间，实现了高精度，并提供了连贯的主题组织，为在日益拥挤的研究环境中进行文献综述提供了一个可扩展且有效的解决方案。此外，此类工具还可以通过使摘要更容易被外行人理解来减少对科学日益增长的不信任。

发布时间: 10/23/2024

查看原文

动态智能评估：以模型置信度为重点，在通往通用人工智能的道路上对大型语言模型进行基准测试

作者: Norbert Tihanyi, Tamas Bisztray, Richard A. Dubniczky, Rebeka Toth, Bertalan Borsos, Bilel Cherif, Mohamed Amine Ferrag, Lajos Muzsai, Ridhi Jain, Ryan Marinelli, Lucas C. Cordeiro, Merouane Debbah

随着机器智能的发展，测试和比较不同人工智能模型解决问题能力的需求日益增长。然而，目前的基准测试往往过于简单，导致模型表现一致良好，难以区分其能力。此外，基准测试通常依赖于静态的问答对，模型可能会记住或猜测答案。为了解决这些限制，我们引入了动态智能评估 (DIA)，这是一种使用动态问题模板和改进的指标来测试人工智能模型的新方法，涵盖数学、密码学、网络安全和计算机科学等多个学科。配套的 DIA-Bench 数据集包含 150 个多样化且具有挑战性的任务模板，这些模板的参数是可变的，并以文本、PDF、编译后的二进制文件和视觉谜题等多种格式呈现。我们的框架引入了四个新的指标来评估模型在多次尝试中的可靠性和置信度。这些指标揭示，即使是简单的题目，当以不同的形式提出时，也经常会被错误回答，这突出了模型可靠性方面的显著差距。值得注意的是，像 GPT-4o 这样的模型往往会高估其数学能力，而 ChatGPT-4o 则通过有效地使用工具展现了更好的决策能力和性能。我们使用 DIA-Bench 评估了八个最先进的大型语言模型 (LLM)，结果表明，当前模型难以处理复杂任务，并且即使面对较简单的题目，也常常表现出出乎意料的低置信度。DIA 框架为评估模型的解决问题能力、适应性智能以及评估自身局限性的能力设定了新的标准。该数据集已在我们项目的网站上公开发布。

发布时间: 10/23/2024

查看原文

基于交叉通道注意力机制的U-Net多层特征融合用于肾脏肿瘤分割

作者: Fnu Neha, Arvind K. Bansal

肾脏肿瘤，尤其是肾细胞癌（RCC），具有显著的异质性，这给使用MRI、超声心动图和CT扫描等放射影像进行诊断带来了挑战。基于U-Net的深度学习技术正在成为一种很有前景的方法，用于对肾脏肿瘤进行微创诊断的自动化医学图像分割。然而，目前的这些技术需要进一步提高准确性才能在临床上为放射科医生提供实用价值。在这项研究中，我们提出了一种改进的基于U-Net的模型，用于对CT扫描图像进行端到端的自动化语义分割以识别肾脏肿瘤。该模型在卷积层之间使用了残差连接，在编码器块内集成了多层特征融合（MFF）和跨通道注意力（CCA），并结合了由MFF和CCA衍生的附加信息的跳跃连接。我们在KiTS19数据集上评估了我们的模型，该数据集包含来自210名患者的数据。在肾脏分割方面，我们的模型实现了0.97的Dice相似系数（DSC）和0.95的Jaccard指数（JI）。在肾脏肿瘤分割方面，我们的模型实现了0.96的DSC和0.91的JI。基于对现有DSC分数的比较，我们的模型优于当前领先的模型。

发布时间: 10/23/2024

查看原文

基于梯度离散优化的</s>大语言模型中故障标记的挖掘

作者: Zihui Wu, Haichang Gao, Ping Wang, Shudong Zhang, Zhaoxiang Liu, Shiguo Lian

大型语言模型 (LLM) 中的故障标记可能会引发不可预测的行为，从而影响模型的可靠性和安全性。现有的检测方法通常依赖于人工观察来推断故障标记的先验分布，这效率低下且缺乏跨不同模型架构的适应性。为了解决这些限制，我们引入了 GlitchMiner，这是一个基于梯度的离散优化框架，旨在高效地检测 LLM 中的故障标记。GlitchMiner 利用基于熵的损失函数来量化模型预测中的不确定性，并将一阶泰勒近似与局部搜索策略相结合，以有效地探索标记空间。我们在各种主流 LLM 架构上的评估表明，GlitchMiner 在检测精度和适应性方面都优于现有方法。与之前的最先进技术相比，GlitchMiner 在故障标记检测的 precision@1000 上平均提高了 19.07%。通过实现对故障标记的高效检测，GlitchMiner 为评估和减轻 LLM 中潜在漏洞提供了一种宝贵的工具，从而提升了它们的整体安全性。

发布时间: 10/23/2024

查看原文

大型语言模型在指令遵循方面是否能够很好地估计不确定性？

作者: Juyeon Heo, Miao Xiong, Christina Heinze-Deml, Jaya Narain

大型语言模型（LLM）可以成为各个领域宝贵的个人 AI 代理，前提是它们能够精确地遵循用户指令。然而，最近的研究表明，LLM 遵循指令的能力存在显著局限性，这引发了人们对其在高风险应用中的可靠性的担忧。准确估计 LLM 在遵守指令方面的不确定性对于减轻部署风险至关重要。据我们所知，我们首次对 LLM 在遵循指令方面的 uncertainty estimation 能力进行了系统的评估。我们的研究指出了现有指令遵循基准的关键挑战，其中多个因素与指令遵循产生的不确定性纠缠在一起，使得方法和模型之间的隔离和比较变得复杂。为了解决这些问题，我们引入了一个受控的评估设置，其中包含两个版本的基准数据，从而能够在各种条件下对不确定性估计方法进行全面的比较。我们的研究结果表明，现有的不确定性方法难以奏效，尤其是在模型在遵循指令时出现细微错误的情况下。虽然内部模型状态提供了一些改进，但在更复杂的场景中仍然不足。我们受控评估设置的见解为了解 LLM 在指令遵循任务中的局限性和不确定性估计的潜力提供了关键信息，为构建更值得信赖的 AI 代理铺平了道路。

发布时间: 10/23/2024

查看原文

大型语言模型（LLM）是否“知道”自身何时遵循指令？

作者: Juyeon Heo, Christina Heinze-Deml, Oussama Elachqar, Shirley Ren, Udhay Nallasamy, Andy Miller, Kwan Ho Ryan Chan, Jaya Narain

大型语言模型 (LLM) 的指令遵循能力对于构建人工智能代理至关重要，因为这些模型必须严格遵守用户提供的约束和指南。然而，LLM 往往无法遵循甚至简单明了的指令。为了改进指令遵循行为并防止不良输出，需要更深入地理解 LLM 内部状态如何与其结果相关联。我们对 LLM 内部状态的分析揭示了输入嵌入空间中与成功遵循指令相关的一个维度。我们证明，沿此维度修改表示可以提高指令遵循的成功率，而不会影响响应质量，这与随机更改相比有所改进。进一步的研究表明，该维度与提示的措辞更密切相关，而不是与任务或指令的固有难度相关。这一发现也解释了为什么 LLM 有时无法遵循清晰的指令，以及为什么提示工程通常有效，即使内容基本保持不变。这项工作深入了解了 LLM 指令遵循的内部机制，为构建可靠的 LLM 代理铺平了道路。

发布时间: 10/23/2024

查看原文

基于贪婪算法的旅游路线规划问题研究

作者: Yiquan Wang

基于贪婪算法的路径规划问题代表了一种在给定起点和终点之间识别最优或近似最优路径的方法。本文首先采用PCA方法对城市评价指标进行降维，提取关键主成分，然后利用KMO和TOPSIS算法对数据进行降维，所有这些都基于MindSpore框架。其次，对于未通过KMO检验的数据集，将采用熵权法和TOPSIS法进行综合评价。最后，提出并优化了一种基于贪婪算法的路径规划算法，根据游客的不同需求提供个性化的路径定制。此外，还考虑了当地旅游效率、游览景点所需时间和必要的每日休息时间，以降低成本并避免陷入局部最优解。

发布时间: 10/23/2024

查看原文

ACPBench：关于动作、变化和规划的推理

作者: Harsha Kokel, Michael Katz, Kavitha Srinivas, Shirin Sohrabi

大型语言模型 (LLM) 越来越多地被用作协调工作流程并在需要规划和多步骤推理的领域做出决策的主体。因此，必须评估LLM在规划所需的核心技能方面的能力。在这项工作中，我们提出了ACPBench，这是一个用于评估规划领域推理任务的基准。该基准包含跨越13个规划领域的7个推理任务。该集合是从用形式语言描述的规划领域构建的。这使我们能够综合具有可证明正确解的跨多个任务和领域的难题。此外，它使我们能够在无需额外人力的情况下进行扩展，即可以自动创建许多额外的难题。我们对22个LLM和OpenAI o1推理模型的广泛评估突出了LLM在推理能力方面的显著差距。我们对OpenAI o1（一种多轮推理模型）的研究结果表明，在多项选择题上的性能有了显著提高，但令人惊讶的是，在布尔问题上没有取得显著进展。ACPBench集合可在https://ibm.github.io/ACPBench 获取。

发布时间: 10/23/2024

查看原文

基于大型语言模型的图形用户界面自动化动态规划

作者: Shaoqing Zhang, Zhuosheng Zhang, Kehai Chen, Xinbei Ma, Muyun Yang, Tiejun Zhao, Min Zhang

大型语言模型 (LLM) 的出现激发了人们对推进基于 LLM 的自主代理的兴趣，尤其是在智能手机图形用户界面 (GUI) 中引人入胜的应用方面。当面对任务目标时，这些代理通常会在 GUI 环境中模拟人类行为，直到任务完成。然而，一个关键的挑战在于设计有效的计划来指导 GUI 任务中的动作预测，尽管规划已被广泛认为可以有效地将复杂的任务分解成一系列步骤。具体来说，鉴于动作执行后环境 GUI 的动态特性，根据环境反馈和动作历史动态调整计划至关重要。我们发现广泛使用的 ReAct 方法由于历史对话过长而失败。为了解决这一挑战，我们提出了一种名为动态规划思想 (D-PoT) 的新方法，用于基于 LLM 的 GUI 代理。D-PoT 涉及基于环境反馈和执行历史动态调整规划。实验结果表明，所提出的 D-PoT 在准确率上显著超过强大的 GPT-4V 基线 +12.7% (34.66% → 47.36%)。分析突出了动态规划在不同主干 LLM 中的通用性，以及在减轻幻觉和适应未见任务方面的优势。代码可在 https://github.com/sqzhang-lazy/D-PoT 获取。

发布时间: 10/23/2024

查看原文