arXiv 论文列表

作者: Xiaotian Lu, Jiyi Li, Koh Takeuchi, Hisashi Kashima

大型语言模型（LLMs）已在众多自然语言处理任务中取代了传统方法。然而，在命名实体识别（NER）中，现有的基于LLMs的方法...

发布时间: 10/3/2024

作者: Haolin Jin, Zechao Sun, Yiheng Yang, Huaming Chen

大型语言模型（LLM）在代码生成任务中展现出惊人的潜力，而最近在提示工程方面的研究增强了LLM对文本信息的理解能力。然而，确保生成代码的准确性通常需要程序员进行大量的测试和验证。虽然LLM通常可以根据任务描述生成代码，但它们的准确性仍然有限，特别是对于需要更深入理解问题陈述和代码生成过程的复杂任务而言。这种局限性主要是由于LLM需要同时理解文本并生成语法和语义上正确的代码，而没有自动细化代码的能力。在现实世界的软件开发中，程序员很少能根据任务描述在一次尝试中就生成完美的代码，他们依靠迭代反馈和调试来改进他们的程序。受此过程的启发，我们提出了一种用于代码生成和自动调试的基于LLM的代理的新型架构：细化和引导调试（RGD）。RGD框架是一个基于多LLM的代理调试器，它利用三个不同的LLM代理——引导代理、调试代理和反馈代理。RGD将代码生成任务分解成多个步骤，确保更清晰的工作流程，并能够基于自我反省和反馈进行迭代代码细化。实验结果表明，RGD展现出非凡的代码生成能力，在HumanEval数据集上取得了最先进的性能，与最先进的方法和传统的直接提示方法相比，分别提高了9.8%和16.2%。我们强调了RGD框架在增强LLM自主生成和细化代码的能力方面的有效性。

发布时间: 10/3/2024

查看原文

看我，相信我：医疗保健中证词不公正的因果性和交叉性

作者: Kenya S. Andrews, Mesrob I. Ohannessian, Elena Zheleva

在医疗环境中，确保所有需要护理的人都能被正确地倾听和理解至关重要。当由于听者的偏见导致这种情况无法实现时，说话者便经历了“证词不公”，我们根据最近的研究，通过医疗记录中存在的几类不公正词汇来量化这种不公。在本文中，我们使用 FCI，一种因果发现方法，来研究某些人口统计特征（例如年龄、性别和种族）通过导致证词不公而导致边缘化的程度。为了实现这一点，我们审查了每位患者的医生笔记，识别出不公正词汇的出现以及存在的的人口统计特征，并使用因果发现来构建一个将这些人口统计特征与证词不公联系起来的结构因果模型 (SCM)。我们分析和讨论了由此产生的 SCM，以展示这些因素的相互作用以及它们如何影响不公正的体验。尽管可能存在一些混杂变量，但我们观察到一个促成因素如何使一个人更容易经历另一个导致证词不公的因素。不公正没有单一的根源，因此不能忽视交叉性。这些结果呼吁在分析和改善人们对偏见和不公正的体验时，要考虑一个人身份的多种属性，而不仅仅是单一的或平等的属性。因此，这项工作是利用因果发现来理解患者在医疗环境中微妙体验的首次尝试，其见解可用于指导整个医疗保健的设计原则，以建立信任并促进更好的患者护理。

发布时间: 10/3/2024

查看原文

面向地下多模式 CO2 存储监测的不确定性感知数字孪生

作者: Abhinav Prakash Gahlot, Rafael Orozco, Ziyi Yin, Felix J. Herrmann

地质碳封存（GCS）可以说是唯一可行的可扩展负排放二氧化碳技术。尽管前景光明，但储层性质的地下复杂性和非均质性要求在优化生产和减轻储存风险时采用系统的方法来量化不确定性，其中包括对注入的超临界二氧化碳的封存和一致性的保证。作为设计和实施用于监测地下储存运营的数字孪生的第一步，本文介绍了一个基于机器学习的数据同化框架，并在精心设计的现实数值模拟中对其进行了验证。由于我们的实现基于贝叶斯推断，但尚未支持控制和决策，因此我们将我们的方法称为不确定性感知数字影子。为了表征以多模态延时数据为条件的二氧化碳羽流状态的后验分布，设想的影子结合了基于模拟的推断 (SBI) 和集成贝叶斯滤波技术，以建立概率基线并同化多模态数据，用于受大量自由度、非线性多物理场、非高斯性和计算量大的流体流动和地震模拟挑战的 GCS 问题。为了使 SBI 适用于动态系统，提出了一种递归方案，其中数字影子神经网络在其状态和观测数据（井和/或地震）的模拟集成上进行训练。训练完成后，当延时现场数据可用时，系统状态将被推断。在本计算研究中，我们观察到，对渗透率场的知识缺乏可以被纳入数字影子的不确定性量化。据我们所知，这项工作代表了第一个概念验证，证明了一种不确定性感知的、原则上可扩展的数字影子。

发布时间: 10/3/2024

查看原文

RS-FME-SwinT：一种基于定制SwinT与残差和空间CNN的猴痘诊断特征图增强框架

作者: Saddam Hussain Khan (Artificial Intelligence Lab, Department of Computer Systems Engineering, University of Engineering,Applied Sciences), Rashid Iqbal (Artificial Intelligence Lab, Department of Computer Systems Engineering, University of Engineering,Applied Sciences)

猴痘（MPox）已成为全球关注的重大问题，病例每天都在稳步增加。传统的检测方法，包括聚合酶链反应 (PCR) 和人工检查，存在灵敏度低、成本高、工作量大等挑战。因此，深度学习提供了一种自动化解决方案；然而，数据集存在数据稀缺、纹理、对比度、类间类内差异以及与其他皮肤传染病的相似性等问题。为此，提出了一种新颖的混合方法，将残差学习和空间利用卷积神经网络 (CNN) 的学习能力与定制的 Swin Transformer (RS-FME-SwinT) 相结合，以捕获多尺度全局和局部相关特征，用于猴痘诊断。所提出的 RS-FME-SwinT 技术采用了一种基于迁移学习的特征图增强 (FME) 技术，将定制的 SwinT 用于全局信息捕获，将残差块用于纹理提取，将空间块用于局部对比度变化。此外，在所提出的 SwinT 中加入新的逆残差块，可以有效地捕获局部模式并减轻梯度消失问题。所提出的 RS-FME-SwinT 具有强大的学习潜力，能够系统地减少类内猴痘变异，并能够从其他皮肤病中进行精确区分。最后，所提出的 RS-FME-SwinT 在一个多样化的猴痘数据集上进行了留一交叉验证，并在最先进的 CNN 和 ViT 上取得了优异的性能。所提出的 RS-FME-SwinT 在猴痘检测中取得了可喜的成绩，准确率为 97.80%，灵敏度为 96.82%，精确率为 98.06%，F 分数为 97.44%。RS-FME-SwinT 可以成为医疗保健从业人员的宝贵工具，能够实现快速准确的猴痘诊断，并为缓解工作做出重大贡献。

发布时间: 10/3/2024

查看原文

从代码到正确性：用分层调试弥合代码生成的最后一步

作者: Yuling Shi, Songsong Wang, Chengcheng Wan, Xiaodong Gu

尽管大型语言模型在代码生成方面取得了重大进展，但生成的代码通过率却受到细微错误的限制，通常需要人工干预才能通过测试，尤其是在处理复杂问题时。现有的基于大型语言模型的调试系统将生成的程序视为整体单元，无法解决从低级语法错误到高级算法缺陷等不同粒度的错误。本文介绍了多粒度调试器 (MGDebugger)，这是一种通过隔离、识别和解决不同粒度级别的错误来实现的层次化代码调试器。MGDebugger 将有问题的代码分解为一个层次化的子函数树结构，每一层代表着特定粒度的错误。在调试过程中，它会分析每个子函数并以自底向上的方式迭代地解决错误。为了有效地测试每个子函数，我们提出了一种基于大型语言模型的模拟 Python 执行器，它可以跟踪代码执行并跟踪重要变量状态，以准确地定位错误。大量的实验表明，MGDebugger 的性能优于现有的调试系统，在 HumanEval 中比种子生成实现了 18.9% 的准确率提升，在 HumanEvalFix 中的修复成功率达到了 97.6%。此外，MGDebugger 可以有效地修复不同类别和难度级别的错误，这证明了其鲁棒性和有效性。

发布时间: 10/3/2024

查看原文

用于负载型金属催化剂颗粒高通量分析的多功能机器学习工作流程

作者: Arda Genc, Justin Marlowe, Anika Jalil, Libor Kovarik, Phillip Christopher

准确高效地表征纳米粒子（NPs），特别是其粒度分布，对于深入理解其结构-性质关系以及促进其在各种应用中的设计至关重要。在本研究中，我们介绍了一种新颖的两阶段人工智能 (AI) 驱动的 NP 分析工作流程，该流程利用来自最先进的单阶段目标检测和大型视觉Transformer (ViT) 架构的提示工程技术。该方法应用于非均相催化剂的透射电子显微镜 (TEM) 和扫描 TEM (STEM) 图像，能够对负载型金属催化剂的粒度分布进行高分辨率、高通量分析。该模型在检测和分割 NPs 方面的性能已在各种非均相催化剂体系中得到验证，包括各种金属（Cu、Ru、Pt 和 PtCo）、载体（二氧化硅 (SiO2)、γ-氧化铝 (γ-Al2O3) 和炭黑）以及平均值为 2.9 ± 1.1 纳米、1.6 ± 0.2 纳米、9.7 ± 4.6 纳米和 4 ± 1.0 纳米的粒径分布。此外，所提出的机器学习 (ML) 方法成功地检测和分割了锚定在非均匀催化载体材料上的重叠 NPs，为其空间排列和相互作用提供了关键见解。我们的人工智能辅助 NP 分析工作流程展示了在各种数据集中的强大泛化能力，并且可以轻松应用于类似的 NP 分割任务，而无需昂贵的模型重新训练。

发布时间: 10/3/2024

查看原文

Polyp-SES：基于自增强语义模型的自动息肉分割

作者: Quang Vinh Nguyen, Thanh Hoang Son Vo, Sae-Ryung Kang, Soo-Hyung Kim

自动息肉分割对于结肠镜检查图像的有效诊断和治疗至关重要。由于特征表示的局限性和息肉外观变化的处理，传统方法在准确勾勒息肉方面面临着重大挑战。包括 CNN 和基于 Transformer 的方法在内的深度学习技术已被探索以提高息肉分割精度。然而，现有的方法往往忽略了额外的语义，限制了它们获取结肠镜检查图像中息肉足够上下文的能力。在本文中，我们提出了一种名为“基于自增强语义模型的自动息肉分割”的创新方法来解决这些局限性。首先，我们从输入图像中提取一系列特征，并解码高级特征以生成初始分割掩码。使用提出的自增强语义模块，我们查询潜在的语义并用额外的语义增强深度特征，从而帮助模型更有效地理解上下文。大量实验表明，在五个息肉基准测试中，该方法在学习能力和泛化能力方面均优于最先进的息肉分割基线，具有优越的分割性能。

发布时间: 10/3/2024

查看原文

循环神经网络就足够了吗？

作者: Leo Feng, Frederick Tung, Mohamed Osama Ahmed, Yoshua Bengio, Hossein Hajimirsadegh

由于 Transformer 模型在序列长度方面存在可扩展性限制，人们重新对可并行训练的循环序列模型产生了兴趣。因此，许多新颖的循环架构，如 S4、Mamba 和 Aaren，被提出，并取得了可比较的性能。在这项工作中，我们重新审视了十多年前的传统循环神经网络 (RNN)：LSTM (1997) 和 GRU (2014)。虽然这些模型由于需要通过时间反向传播 (BPTT) 而速度很慢，但我们表明，通过从其输入、遗忘和更新门中去除其隐藏状态依赖关系，LSTM 和 GRU 不再需要 BPTT，并且可以高效地并行训练。在此基础上，我们引入了最小版本 (minLSTM 和 minGRU)，它们 (1) 比其传统对应物使用明显更少的参数，并且 (2) 在训练期间完全可并行 (对于长度为 512 的序列，速度快 175 倍)。最后，我们表明，这些简化的十年老 RNN 版本在经验上与最近的序列模型相匹配。

发布时间: 10/3/2024

查看原文

面向大语言模型推理时类别安全引导

作者: Amrita Bhattacharjee, Shaona Ghosh, Traian Rebedea, Christopher Parisien

尽管大型语言模型 (LLM) 在各种用例中取得了前所未有的能力和应用进步，但这些模型的安全对齐仍然是活跃的研究领域。LLM 的脆弱性，即使是经过广泛对齐和安全训练的模型，也需要通过无训练、推理时的方法来采取额外的安全引导步骤。虽然最近在机制可解释性领域的工作已经研究了潜在表示空间中的激活如何编码概念，并随后执行表示工程以在 LLM 输出中诱导这些概念，但这种方法在安全方面的适用性尚待探索。与最近的推理时安全引导工作不同，本文探索了使用以下方法对 LLM 输出进行安全引导：(i) 类别特定的引导向量，从而能够对引导进行细粒度控制，以及 (ii) 用于提取信息引导向量的复杂方法，以实现更有效的安全引导，同时保留生成文本的质量。我们在多个 LLM 和数据集上展示了我们的探索，并展示了所提出的引导方法的有效性，以及对影响和最佳实践的讨论。

发布时间: 10/3/2024

查看原文