arXiv 论文列表

作者: Md Meftahul Ferdaus, Mahdi Abdelguerfi, Elias Ioup, David Dobson, Kendall N. Niles, Ken Pathak, Steven Sloan

我们提出了一种名为KANICE（具有交互卷积元素的Kolmogorov-Arnold网络）的新型神经网络架构，它结合了卷积神经网络（CNN）和Kolmogorov-Arnold网络（KAN）原理。KANICE将交互式卷积块（ICB）和KAN线性层集成到CNN框架中。这利用了KAN的通用逼近能力和ICB的自适应特征学习能力。KANICE能够捕捉复杂非线性数据关系，同时能够基于Kolmogorov-Arnold表示定理进行动态的、依赖于上下文的特征提取。我们在四个数据集（MNIST、Fashion-MNIST、EMNIST和SVHN）上评估了KANICE，并将其与标准CNN、CNN-KAN混合模型和ICB变体进行了比较。KANICE始终优于基线模型，在MNIST数据集上达到99.35%的准确率，在SVHN数据集上达到90.05%的准确率。此外，我们还介绍了KANICE-mini，这是一种为提高效率而设计的紧凑型变体。全面的消融研究表明，KANICE-mini在参数显著减少的情况下，实现了与KANICE相当的性能。KANICE-mini在SVHN数据集上取得了90.00%的准确率，参数数量为2,337,828，而KANICE的参数数量为25,432,000。这项研究突出了基于KAN的架构在图像分类任务中平衡性能和计算效率的潜力。我们的工作促进了自适应神经网络的研究，将数学定理融入深度学习架构，并探讨了模型复杂度和性能之间的权衡，从而推动了计算机视觉和模式识别领域的发展。本文的源代码已通过我们的GitHub仓库（https://github.com/m-ferdaus/kanice）公开访问。

发布时间: 10/23/2024

查看原文

分层LA-MAPF：一种大型Agent多智能体路径规划问题实例的分解方法，用于加速求解且不影响可解性

作者: Zhuo Yao

近年来，多智能体路径规划 (MAPF) 问题得到了广泛的研究。然而，大多数现有的 MAPF 算法假设智能体仅占据网格地图中的单个网格。这一假设限制了它们在许多现实世界领域的应用，因为在这些领域中，智能体具有几何形状，而不是点状的。这种可以同时占据多个单元格的智能体被称为“大型”智能体。当在 MAPF 中考虑智能体的形状和大小时，随着智能体数量的增加，计算复杂度会显著增加，这主要是由于几何智能体之间冲突检测的开销增加。在本文中，我们针对大型智能体多智能体路径规划 (LA-MAPF) 问题提出了两种子问题：\textbf{集群}（对解的顺序没有约束）和\textbf{层次}（对解的顺序施加约束）。我们介绍了\textbf{分层 LA-MAPF} 方法，该方法将涉及几何智能体的 MAPF 实例分解为集群，然后将每个集群进一步分解为层次。这种方法旨在降低求解 LA-MAPF 问题的时间复杂度。我们的结果证明了该方法在不同地图上随着智能体数量增加时的性能，以及它如何加速 LA-MAPF 方法，例如 LA-CBS 和 LA-LaCAM。实验表明，我们的具有实例分解的 LA-MAPF 方法\textbf{将求解时间成本降低了一半（从平均 40 秒减少到 20 秒），并将成功率提高了两倍（从平均 0.27 提高到 0.80）}，在 60 秒内找到解。为了促进进一步的研究，我们已将分层 LA-MAPF 的源代码公开发布在 \url{https://github.com/JoeYao-bit/LayeredMAPF/algorithm/LA-MAPF}。

发布时间: 10/23/2024

查看原文

通用大型语言模型能否泛化到英泰机器翻译？

作者: Jirat Chiaranaipanich, Naiyarat Hanmatheekuna, Jitkapat Sawatphol, Krittamate Tiankanon, Jiramet Kinchagawat, Amrest Chinkamol, Parinthapat Pengpun, Piyalitt Ittichaiwong, Peerat Limkonchotiwat

大型语言模型 (LLM) 在常见任务上表现良好，但在低资源和低计算环境下的泛化能力却很差。我们通过在英泰机器翻译和代码切换数据集上测试各种 LLM 和专用翻译模型来检验这一局限性。我们的研究结果表明，在更严格的计算约束下，例如 4 位量化，LLM 无法有效翻译。相比之下，具有相当或更低计算需求的专用模型始终优于 LLM。这凸显了专用模型在资源受限条件下保持性能的重要性。

发布时间: 10/23/2024

查看原文

迈向自动化渗透测试：LLM基准测试、分析及改进

作者: Isamu Isozaki, Manil Shrestha, Rick Console, Edward Kim

黑客攻击对网络安全构成重大威胁，每年造成数十亿美元的损失。为了减轻这些风险，人们采用合规黑客攻击或渗透测试来识别系统和网络中的漏洞。大型语言模型 (LLM) 的最新进展已显示出在包括网络安全在内的各个领域的潜力。然而，目前尚缺乏一个全面、开放、端到端的自动化渗透测试基准来推动进展并评估这些模型在安全环境中的能力。本文介绍了一个用于基于 LLM 的自动化渗透测试的新型开放基准，以解决这一关键差距。我们首先使用最先进的 PentestGPT 工具评估了包括 GPT-4o 和 Llama 3.1-405B 在内的 LLM 的性能。我们的研究结果表明，虽然 Llama 3.1 表现优于 GPT-4o，但这两个模型目前都无法执行完全自动化、端到端的渗透测试。接下来，我们推进现有技术水平，并提出消融研究，以深入了解如何改进 PentestGPT 工具。我们的研究阐明了 LLM 在渗透测试的各个方面（例如枚举、利用和权限提升）所面临的挑战。这项工作为不断发展的 AI 辅助网络安全知识体系做出了贡献，并为未来使用大型语言模型进行自动化渗透测试的研究奠定了基础。

发布时间: 10/23/2024

查看原文

基于强化学习的大型语言模型在形式语言任务中的训练研究（使用程序化奖励）

作者: Alexander G. Padula, Dennis J. N. J. Soemers

基于人类反馈的强化学习中，近端策略优化 (PPO) 常用于使大型语言模型 (LLM) 与下游任务对齐。本文研究了使用 PPO 直接从显式编程的奖励信号进行强化学习 (RL)，而不是通过中间奖励模型间接地从人类反馈中学习的可行性。我们关注通过形式语言（如数学和编程）表达的任务，其中可以编程显式奖励函数来自动评估生成输出的质量。我们将此方法应用于情感对齐任务、简单的算术任务和更复杂的博弈合成任务。情感对齐任务复制了之前的研究，并用于验证我们的实验设置。我们的结果表明，针对这两个形式语言任务的纯基于 RL 的训练具有挑战性，即使对于简单的算术任务，成功也是有限的。我们提出了一种新的批量熵正则化项来辅助探索，尽管训练尚未完全稳定。我们的研究结果表明，直接对 LLM 进行 RL 训练可能更适合于相对较小的更改（例如对齐），而不是完全学习新任务，即使可以以编程方式表达信息丰富的奖励信号。

发布时间: 10/23/2024

查看原文

用于多种脑血管疾病标志物的自动化神经放射学支持系统——系统综述和荟萃分析

作者: Jesse Phitidis, Alison Q. O'Neil, William N. Whiteley, Beatrice Alex, Joanna M. Wardlaw, Miguel O. Bernabeu, Maria Vald\'es Hern\'andez

脑血管疾病 (CVD) 可导致中风和痴呆。中风是全球第二大致死原因，痴呆症的发病率逐年上升。脑影像学检查可见多种 CVD 标志物，包括：白质高信号 (WMH)、急性及慢性缺血性卒中病灶 (ISL)、腔隙性梗死、扩张的血管周围间隙 (PVS)、急性及慢性出血性病灶以及脑微出血 (CMB)。CVD还会导致脑萎缩。这些标志物对患者管理和干预至关重要，因为它们提示未来中风和痴呆的风险增加。我们系统地回顾了旨在支持放射科医生报告这些 CVD 影像学发现的自动化系统。我们考虑了市售软件和研究出版物，这些软件和出版物至少识别出两种 CVD 标志物。总共，我们纳入了 29 种商业产品和 13 篇研究出版物。两种不同类型的商业支持系统可用：一种是从计算机断层扫描 (CT) 图像中识别急性卒中病灶（出血性和缺血性），主要用于患者分诊；另一种是区域性和纵向地测量 WMH 和萎缩。在研究中，WMH 和 ISL 是最常一起分析的标志物，来自磁共振成像 (MRI) 扫描；腔隙性梗死和 PVS 各仅被研究两次，CMB 仅被研究一次。对于中风，市售系统主要支持急诊环境，而研究系统也考虑了随访和常规扫描。量化 WMH 和萎缩的系统侧重于神经退行性疾病的支持，这些 CVD 标志物在其中也具有重要意义。目前，无论是商业上还是研究中，都没有公开验证的系统能够对所有 CVD 标志物（WMH、ISL、腔隙性梗死、PVS、出血性病灶、CMB 和萎缩）进行全面的联合分析。

发布时间: 10/23/2024

查看原文

Ryu团队提交给2024年SIGMORPHON子词分词共享任务的成果

作者: Zilong Li

这篇论文提交给已取消的SIGMORPHON 2024子词分词共享任务（Ryu团队），探讨了是否可以将形态切分方法用作子词分词器的一部分。论文采用两种方法：基于统计的切分方法Morfessor和基于Transformer的序列到序列（seq2seq）切分模型。预测结果表明，形态切分方法与常用的子词分词器一样有效。此外，论文还研究了分词器的词汇表如何影响语言模型的性能，发现具有平衡词频分布的分词器往往表现更好，而保持高频词作为唯一词元可以实现平衡的词元词汇表。

发布时间: 10/23/2024

查看原文

科学走出象牙塔：利用强化学习提升可访问性

作者: Haining Wang, Jason Clark, Hannah McKelvey, Leila Sterman, Zheng Gao, Zuoyu Tian, Sandra K\"ubler, Xiaozhong Liu

海量的学术论文每天都在发表，但其中许多由于专业术语和复杂的语言而无法为公众所理解。为了应对科学传播中的这一挑战，我们引入了一个强化学习框架，该框架微调语言模型以将学术摘要改写成更易于理解的版本。在仔细平衡的单词级和句子级可访问性奖励的指导下，我们的语言模型有效地将专业术语替换为更易于理解的替代词，而通过监督微调或传统可读性度量指导的模型难以完成这项任务。我们最好的模型将学术摘要的可读性水平提高了大约六个美国年级水平——换句话说，从研究生水平提高到高中水平。这意味着相对于监督微调基线，性能提升了大约 90%，同时保持了事实准确性和高质量的语言。对我们方法的深入分析表明，平衡的奖励会导致基础模型发生系统性修改，这可能有助于优化平滑度和提高性能。我们认为这项工作是弥合学术研究与公众之间差距的一步，特别是对于年轻读者和没有大学学历的人。

发布时间: 10/23/2024

查看原文

UnStar：基于自学反例推理的大语言模型遗忘学习

作者: Yash Sinha, Murari Mandal, Mohan Kankanhalli

大型语言模型（LLM）的关键组成部分包括用于训练的数据样本、用于学习模式的模型以及用于优化准确性的损失函数。类似地，反学习可以通过反数据样本（或反样本）、反学习方法和反向损失函数来实现。虽然之前的研究已经探索了反学习方法和反向损失函数，但反样本的潜力在很大程度上尚未开发。本文介绍了 UnSTAR：一种针对大型语言模型 (LLM) 的基于自学反样本推理的反学习方法。我们的贡献有三方面：首先，我们提出了一种新颖的反样本诱导反学习概念；其次，我们利用误导性理由生成反样本，这有助于反转学习到的关联并加速反学习过程；第三，我们实现了细粒度的目标反学习，允许选择性地移除特定关联而不影响相关知识——这是以前的工作无法实现的。结果表明，反样本为 LLM 提供了一种高效、有针对性的反学习策略，为隐私保护机器学习和模型修改开辟了新的途径。

发布时间: 10/23/2024

查看原文

锂离子电池SOC预测中基线模型与Transformer网络的比较

作者: Hadeel Aboueidah, Abdulrahman Altahhan

准确预测锂离子电池的荷电状态对于电动汽车电池管理系统的性能至关重要。电动汽车全球推广缓慢的主要原因之一是续航里程焦虑。电池管理系统准确估计荷电状态的能力有助于缓解这一问题。本文对数据驱动的荷电状态估计方法进行了比较。本文比较了不同的基于神经网络的模型和常用的回归模型用于荷电状态估计。这些模型包括几种消融的Transformer网络、一个神经网络、一个Lasso回归模型、一个线性回归模型和一个决策树。在BMW i3电池自然驾驶循环数据上进行的各种实验结果表明，决策树的性能优于所有其他模型，包括具有自注意力和位置编码的更复杂的Transformer网络。

发布时间: 10/23/2024

查看原文