arXiv:2409.14274v1 公告类型: 交叉 摘要: 交互式定理证明器如Coq是正式保证软件正确性的强大工具。然而,使用这些工具需要大量的手动努力和专业知识。尽管大型语言模型(LLMs)在自动生成自然语言的非正式证明方面显示出潜力,但它们在生成交互式定理证明器中的正式证明方面效果较差。在本文中,我们进行了一项形成性研究,以识别LLMs在生成正式证明时常见的错误。通过分析GPT-3.5生成的520个证明错误,我们发现GPT-3.5通常能够识别证明的高层次结构,但在低层次细节上遇到困难。基于这一洞察,我们提出了PALM,一种新颖的生成-修复方法,首先提示LLM生成初始证明,然后利用有针对性的符号方法迭代修复低层次问题。我们在包含超过10K个定理的大型数据集上评估了PALM。结果显示,PALM显著优于其他最先进的方法,成功证明了76.6%到180.4%更多的定理。此外,PALM证明了1270个现有方法无法证明的定理。我们还展示了PALM在不同LLMs之间的通用性。
arXiv:2409.14248v1 公告类型: 交叉 摘要: 求解偏微分方程 (PDEs) 是许多科学和工程发现中重要且不可或缺的组成部分。深度学习赋能的常见方法之一是物理信息神经网络 (PINNs)。最近,一种新型基础神经网络模型,Kolmogorov-Arnold 网络 (KANs),被提出作为多层感知器 (MLPs) 的替代品,并具有可训练的激活函数。为了提高 KANs 的拟合精度,有人建议对 KANs 进行修改,称为 ReLU-KANs,使用“ReLU 的平方”作为其激活函数的基础。在这项工作中,我们提出了另一种激活函数的基础,即高阶 ReLU,它比 KANs 中使用的激活函数基础(即 B 样条)更简单;允许高效的 KAN 矩阵操作;并且具有平滑且非零的高阶导数,这对于物理信息神经网络至关重要。我们在两个标准且典型的 PDE 上进行了详细实验,即线性泊松方程和具有粘性的非线性 Burgers 方程,结果表明我们提出的高阶 ReLU-KANs (HRKANs) 在 KANs、ReLU-KANs 和 HRKANs 中实现了最高的拟合精度和训练鲁棒性,并且训练时间显著降低。
arXiv:2409.14237v1 公告类型: 交叉 摘要: 近年来科学出版物的指数级增长对有效且高效的分类提出了重大挑战。本文介绍了一种结合实例学习和集成学习技术的新方法,用于将科学论文分类到相关的研究领域。在一个包含多个研究领域的分类系统中,首先手动将一些典型的种子论文分配到每个领域。然后,对于每篇需要分类的论文,我们将其与每个领域的所有种子论文进行比较。内容和引用分别考虑。随后,采用基于集成的方法做出最终决策。通过对DBLP数据集的实验,我们的实验结果表明,所提出的分类方法在将论文分类到各个研究领域中是有效且高效的。我们还发现,内容和引用特征对于科学论文的分类都是有用的。
arXiv:2409.14219v1 公告类型: 交叉 摘要: 渗透测试是应对日益严重的网络安全事件的主动防御手段。传统的手动渗透测试方法耗时、资源密集且易受人为错误影响。当前的自动化渗透测试趋势也不切实际,面临维度灾难、可扩展性问题以及对网络变化缺乏适应性等重大挑战。为了解决这些问题,我们提出了MEGA-PT,一种元游戏渗透测试框架,该框架具有用于节点级局部交互的微战术游戏和用于网络范围攻击链的宏观策略过程。微观和宏观层面的建模实现了分布式、自适应、协作和快速的渗透测试。MEGA-PT为各种安全方案提供了灵活的解决方案,包括最佳局部渗透计划、紫色团队解决方案和风险评估,为指导未来的自动化渗透测试提供了基本原则。我们的实验通过提供改进的防御策略和对局部和网络层面变化的适应性,证明了我们模型的有效性和灵活性。
arXiv:2409.14216v1 公告类型: 交叉 摘要: 尽管研究已经产生了令人鼓舞的结果,证明了主动推理(AIF)在马尔可夫决策过程(MDPs)中的实用性,但在部分可观察马尔可夫决策过程(POMDPs)的环境和问题背景下构建AIF模型的研究相对较少。在POMDP场景中,代理必须从原始感官观察(例如图像中的像素)推断未观察到的环境状态。此外,在研究最困难的POMDP中心控制形式——稀疏奖励信号下的连续动作空间POMDPs方面的工作也较少。在这项工作中,我们通过引入新颖的先验偏好学习技术和自我修订计划来解决AIF建模范式面临的问题,以帮助代理在稀疏奖励、连续动作、基于目标的机器人控制POMDP环境中表现出色。实证结果表明,我们的代理在累积奖励、相对稳定性和成功率方面优于最先进的模型。支持这项工作的代码可以在https://github.com/NACLab/robust-active-inference找到。
arXiv:2409.14194v1 公告类型: 交叉 摘要: 初级卫生保健是实现全民健康覆盖的关键策略。南亚国家正通过与其国家特定政策相结合的方式,努力改进其初级卫生保健系统,这些政策是根据世界卫生组织的卫生系统框架设计的,涵盖了六个主题支柱:卫生融资、卫生服务提供、卫生人力资源、卫生信息系统、治理、基本药物和技术,以及一个额外的跨部门联系领域。衡量当前医疗设施的可及性和卫生人力资源的可用性,对于提高卫生标准和在发展中国家实现全民健康覆盖至关重要。需要数据驱动的监测方法,这些方法能够提供快速、可靠且地理上可扩展的解决方案,以了解:a) 哪些社区和地区最容易面临不公平的医疗访问风险以及何时;b) 存在哪些医疗访问障碍;c) 如何针对各个社区面临的特定挑战,量身定制克服这些障碍的方法。我们建议利用地球观测(EO)技术的当前突破,这些技术能够生成准确、最新、公开可访问且可靠的数据,这对于公平访问规划和资源分配至关重要,以确保疫苗和其他干预措施在正常和危机时期能够覆盖所有人,特别是那些最需要的人。这需要各国之间的合作,以确定基于证据的解决方案,塑造卫生政策和干预措施,并推动该地区的创新和研究。
近年来,大型语言模型(LLMs)得到了广泛应用,同时也引发了对其安全性的日益关注。传统的越狱攻击依赖于模型的内部细节,或在探索受害模型的不安全行为时存在局限性,限制了其通用性。本文介绍了一种名为PathSeeker的新型黑箱越狱方法,灵感来源于逃离安全迷宫的概念。这项工作受到老鼠逃离迷宫游戏的启发。我们认为每个LLM都有其独特的“安全迷宫”,攻击者试图通过接收到的反馈和积累的经验来找到出口,以破坏目标LLM的安全防御。我们的方法利用多智能体强化学习,其中较小的模型协作引导主LLM执行变异操作以实现攻击目标。通过根据模型的反馈逐步修改输入,我们的系统诱导出更丰富、有害的响应。在我们手动尝试进行越狱攻击时,我们发现目标模型的响应词汇逐渐变得丰富,最终产生了有害的响应。基于这一观察,我们还引入了一种奖励机制,利用LLM响应中词汇丰富性的扩展来削弱安全约束。我们的方法在测试13个商业和开源LLM时,优于五种最先进的攻击技术,实现了高攻击成功率,特别是在安全对齐较强的商业模型如GPT-4o-mini、Claude-3.5和GLM-4-air中表现尤为突出。本研究旨在加深对LLM安全漏洞的理解,并希望这一研究能为开发更强大的防御措施做出贡献。
arXiv:2409.14175v1 公告类型: 交叉 摘要: 大型语言模型(LLMs)在问答(QA)系统领域取得了显著进展。这些模型在处理各个学科的复杂问题时表现出色。然而,由于特定领域的词汇、复杂的技术概念以及对精确回答的需求,将LLMs应用于电信等专业领域面临额外挑战。最近的研究中,GPT-3.5在检索增强生成(RAG)框架下,对电信相关问题的回答取得了显著的准确性。尽管如此,GPT-3.5等模型的实际应用受到其专有性质和高计算需求的限制。本文介绍了QMOS,一种创新方法,通过使用问题掩码损失和选项洗牌技巧,提高LLMs在电信领域多选题回答中的表现。我们的重点是利用开源、较小的语言模型(Phi-2和Falcon-7B)在增强的RAG框架内。我们的多方面方法涉及对整个LLM-RAG管道的微调、检索、提示工程和推理的多个改进。我们的方法显著优于现有结果,使用Falcon-7B将准确率从基线的24.70%提高到49.30%,使用Phi-2从42.07%提高到84.65%。
arXiv:2409.14154v1 公告类型: 交叉 摘要: 糖尿病足神经病变(DFN)是导致糖尿病足溃疡的关键因素之一,这是糖尿病最常见且严重的并发症之一,与高截肢率和死亡率相关。尽管其重要性,现有数据集并未直接来源于足底数据,且缺乏连续、长期的足部特定信息。为了推进DFN研究,我们收集了一个新的数据集,包含连续的足底压力数据,用于识别糖尿病足神经病变。该数据集包括94名患有DFN的糖尿病患者和41名未患DFN的糖尿病患者的数据。此外,传统方法按个体划分数据集,可能导致某些特征空间中因缺乏中间域数据而出现显著的域差异。本文提出了一种有效的域适应方法来解决这一问题。我们基于卷积特征统计分割数据集,并选择合适的子源域以提高效率并避免负迁移。然后,我们在特定特征空间中对齐每个源域和目标域对的分布,以最小化域差距。综合结果验证了我们的方法在新的DFN识别数据集和现有数据集上的有效性。
arXiv:2409.14128v1 公告类型: 交叉 摘要: 随着新型和更优图像生成模型的不断发布,对合成图像检测器的需求也随之增加。在这一动态领域中,检测器需要具备广泛的泛化能力,并能抵御不受控制的改变。本文的研究动机源于此背景,探讨了时间、图像变换和数据源在检测器泛化中的作用。实验结果表明,没有任何一个检测器是万能的,但结果暗示了集成方法的可能性。对从实际环境中收集的数据进行的实验显示,这一任务比大规模数据集定义的任务更具挑战性,这表明实验与实际应用之间存在差距。最后,我们观察到一种竞赛均衡效应,即更好的生成器催生更好的检测器,反之亦然。我们假设这推动了生成器与检测器之间持续接近的竞赛。