arXiv 论文列表

SugarcaneNet2024：一种优化的加权平均集成方法，用于甘蔗病害分类的LASSO正则化预训练模型

甘蔗是全球糖业的关键作物，容易受到多种病害的侵袭，这些病害对甘蔗的产量和质量有着显著的负面影响。为了有效管理和实施预防措施，必须及时准确地检测病害。在本研究中，我们提出了一种名为sugarcaneNet2024的独特模型，该模型在通过叶片图像处理自动快速检测甘蔗病害方面优于以往的方法。我们提出的模型整合了七个定制化并经过LASSO正则化的预训练模型的优化加权平均集成，特别是InceptionV3、InceptionResNetV2、DenseNet201、DenseNet169、Xception和ResNet152V2。最初，我们在这些预训练模型的底部添加了三个具有0.0001 LASSO正则化的密集层、三个30%的dropout层以及三个启用了重归一的批量归一化层，以提高性能。通过这一添加，甘蔗叶病害分类的准确性大大提高。随后，我们进行了平均集成模型与单个模型之间的多项对比研究，结果表明集成技术表现更佳。所有经过修改的预训练模型的平均集成产生了出色的结果：f1分数、精度、召回率和准确率分别为100%、99%、99%和99.45%。通过结合网格搜索实现的优化加权平均集成技术，性能进一步提升。这一优化的sugarcaneNet2024模型在检测甘蔗病害方面表现最佳，分别实现了99.67%、100%、100%和100%的准确率、精度、召回率和F1分数。

发布时间: 9/24/2024

查看原文

GeNet：一种基于图神经网络的抗噪声任务导向语义通信范式

传统的语义通信任务方法依赖于信噪比（SNR）的知识来减轻信道噪声。此外，这些方法需要在特定的SNR条件下进行训练，耗费大量时间和计算资源。在本文中，我们提出了GeNet，一种基于图神经网络（GNN）的语义通信范式，旨在对抗噪声，从而促进任务导向的通信（TOC）。我们提出了一种新颖的方法，首先将输入数据图像转换为图结构。然后我们利用基于GNN的编码器从源数据中提取语义信息。这些提取出的语义信息随后通过信道传输。在接收端，使用基于GNN的解码器从源数据中重建相关的语义信息以进行TOC。通过实验评估，我们展示了GeNet在抗噪TOC中的有效性，同时解耦了对SNR的依赖。我们进一步通过改变节点数量评估了GeNet的性能，揭示了其作为语义通信新范式的多功能性。此外，我们通过在不同旋转角度下进行测试，展示了GeNet在几何变换下的鲁棒性，而无需依赖数据增强。

发布时间: 9/24/2024

查看原文

DreamSampler：统一扩散采样和分数蒸馏用于图像处理

反向采样和评分蒸馏在最近几年已经成为使用潜在扩散模型（LDMs）进行图像处理的主要方法。尽管反向扩散采样通常需要调整LDM架构或特征工程，评分蒸馏则提供了一种简单但强大的与模型无关的方法，但它经常容易发生模式崩溃。为了应对这些局限性并利用两种方法的优势，我们引入了一种名为{\em DreamSampler}的新框架，通过正则化潜在优化无缝集成这两种不同的方法。与评分蒸馏类似，DreamSampler是一种适用于任何LDM架构的与模型无关的方法，但它允许在图像编辑和重建中进行蒸馏和反向采样并提供额外的指导。通过涉及图像编辑、SVG重建等实验，我们证明了DreamSampler相对于现有方法的竞争性能，同时提供了新的应用。代码：https://github.com/DreamSampler/dream-sampler

发布时间: 9/24/2024

查看原文

P2LHAP：基于可穿戴传感器的人体活动识别、分割和预测的Patch-to-Label Seq2Seq Transformer

传统的深度学习方法在同时分割、识别和预测传感器数据中的人类活动方面存在困难。这限制了它们在许多领域的实用性，例如医疗保健和辅助生活，在这些领域中，实时了解正在进行和即将发生的活动至关重要。本文介绍了一种名为 P2LHAP 的新颖 Patch-to-Label Seq2Seq 框架，它在一个高效的单任务模型中解决了这三项任务。P2LHAP 将传感器数据流划分为一系列“补丁”，作为输入标记，并输出包括预测未来活动在内的一系列补丁级活动标签。提出了一种基于周围补丁标签的独特平滑技术，以准确识别活动边界。此外，P2LHAP 通过传感器信号通道独立的 Transformer 编码器和解码器学习补丁级表示。所有通道在所有序列中共享嵌入和 Transformer 权重。在三个公共数据集上的评估表明，P2LHAP 在三项任务中显著优于现有的最先进方法，展示了其在现实世界应用中的有效性和潜力。

发布时间: 9/24/2024

查看原文

多模态自回归建模通过视觉词汇

大型语言模型（LLMs），通过对大规模未标注文本语料库进行自回归建模，展现了强大的感知和推理能力。然而，将自回归建模扩展到多模态场景以构建大型多模态模型（LMMs）时，存在一个重大难题，即图像信息在LMM中被处理为连续的视觉嵌入，无法获得用于分类的离散监督标签。在本文中，我们首次成功地以统一目标实现了多模态自回归建模。具体而言，我们提出了视觉令牌的概念，将视觉特征映射到LLM词汇表上的概率分布，为视觉建模提供监督信息。我们进一步探索了LMM中视觉特征在语义空间中的分布以及使用文本嵌入表示视觉信息的可能性。在5个视觉问答任务和4个基准工具包上的实验结果和消融研究验证了我们提出方法的强大性能。

发布时间: 9/24/2024

查看原文

DiabetesNet：一种用于糖尿病诊断的深度学习方法

糖尿病，由于胰岛素生产或利用不足而引起，对身体造成广泛的损害。现有的诊断方法通常是侵入性的，并伴有成本限制等缺点。尽管有像类内最近邻（CkNN）和广义回归神经网络（GRNN）这样的机器学习模型，它们在处理不平衡数据时表现不佳，导致性能下降。借助传感器技术和机器学习的进步，我们提出了一种使用带有批量归一化的反向传播神经网络（BPNN）进行非侵入性糖尿病诊断的方法，结合数据重新采样和归一化来实现类别平衡。我们的方法解决了传统机器学习方法中存在的性能有限等挑战。在三个数据集上的实验结果表明，与传统方法相比，我们的方法在整体准确性、敏感性和特异性方面有显著提高。值得注意的是，我们在Pima糖尿病数据集上实现了89.81%的准确率，在CDC BRFSS2015数据集上实现了75.49%的准确率，在Mesra糖尿病数据集上实现了95.28%的准确率。这突显了深度学习模型在稳健糖尿病诊断中的潜力。详见项目网站 https://steve-zeyu-zhang.github.io/DiabetesDiagnosis/

发布时间: 9/24/2024

查看原文

法庭代理人：通过法庭辩论模拟和法律知识增强构建司法决策代理人

随着深度学习的发展，自然语言处理技术有效地提高了传统司法行业各方面的效率。然而，目前的大多数工作都集中在单个司法阶段的任务上，难以处理跨多个阶段的复杂任务。随着由大型语言模型驱动的自主代理变得越来越智能，能够在现实世界环境中做出复杂决策，为司法智能提供了新的见解。在本文中，（1）我们提出了一种新颖的多代理框架，AgentsCourt，用于司法决策。我们的框架遵循经典的庭审过程，包括庭审辩论模拟、法律资源检索和决策优化，以模拟法官的决策过程。（2）我们引入了SimuCourt，一个包含420份中国判决文书的司法基准，涵盖了三种最常见的司法案件类型。此外，为了支持这一任务，我们构建了一个大规模的法律知识库Legal-KB，包含多资源的法律知识。（3）大量实验表明，我们的框架在各个方面都优于现有的先进方法，特别是在生成法律条文方面，我们的模型在一审和二审设置中分别取得了8.6%和9.1%的F1分数显著提升。

发布时间: 9/24/2024

查看原文

编辑医疗大语言模型的事实知识和解释能力

模型编辑旨在精准地改变大语言模型（LLMs）在特定知识层面的行为，同时保持与之无关的知识不受影响。这种方法已被证明在解决LLMs中的幻觉和过时信息问题上行之有效。然而，利用模型编辑来修改医学领域的知识的潜力仍然大多未被探索，尽管解决幻觉问题在该领域是一个迫切需求。我们的观察表明，当前方法在处理医学领域的专业和复杂知识时面临重大挑战。因此，我们提出了MedLaSA，一种用于医学模型编辑的新颖的分层可扩展适配器策略。MedLaSA结合了添加额外参数和定位-编辑方法的优点，用于医学模型编辑。我们利用因果追踪来识别不同层中神经元知识的关联，并根据每条知识的关联值生成相应的比例集。随后，我们将可扩展适配器整合到LLMs的密集层中。这些适配器根据相应的特定知识被分配比例值，从而允许调整适配器的权重和等级。内容越相似，它们之间的比例越一致。这确保了对语义相同知识的精准编辑，同时避免影响无关知识。为了评估编辑对LLMs行为的影响，我们提出了两个医学领域的模型编辑研究：（1）编辑医学专业的事实知识和（2）编辑复杂知识的解释能力。我们构建了两个新的医学基准数据集，并引入了一系列具有挑战性和全面性的指标。对医学LLMs的大量实验表明，MedLaSA在不影响无关知识的情况下具有编辑效率。

发布时间: 9/24/2024

查看原文

停止推理！当具有链式推理的多模态大语言模型遇到对抗性图像时

多模态大语言模型（MLLMs）在文本和图像理解方面表现出色，受到了广泛关注。为了在MLLMs中实现更好的推理，链式推理（CoT）已被广泛探索，通过提供中间推理步骤进一步提升了MLLMs的可解释性。尽管MLLMs在多模态推理中表现出强大的能力，最近的研究表明它们仍然容易受到对抗性图像的影响。这引出了如下开放性问题：CoT是否也能增强MLLMs的对抗鲁棒性？在对抗性攻击下，CoT的中间推理步骤包含了什么？为了解答这些问题，我们首先通过攻击两个主要组件，即推理和答案，将现有攻击方法推广到基于CoT的推理中。我们发现，CoT确实通过利用多步推理过程在一定程度上提高了MLLMs对现有攻击方法的对抗鲁棒性，但提升并不显著。基于我们的发现，我们进一步提出了一种新颖的攻击方法，称为停止推理攻击，该方法在绕过CoT推理过程的同时对模型进行攻击。对三个MLLMs和两个视觉推理数据集的实验验证了我们提出方法的有效性。我们展示了停止推理攻击可以导致误导性预测，并且相比基线攻击方法表现出显著优势。

发布时间: 9/24/2024

查看原文

通过在线学习与自适应推测实现自动化安全响应

我们研究了 IT 基础设施的自动化安全响应，并将攻击者和防御者之间的互动建模为一个部分可观察的、非平稳的博弈。我们放宽了博弈模型正确指定的标准假设，考虑每个玩家对模型有一个概率性的猜测，而这种猜测可能是错误的，即真实模型的概率为 0。这个模型允许我们捕捉对基础设施和玩家意图的不确定性和误解。为了在线学习有效的博弈策略，我们设计了推测在线学习（COL）方法，这是一种新颖的方法，玩家通过贝叶斯学习迭代地调整其猜测，并通过展开更新其策略。我们证明了这些猜测会收敛到最佳拟合，并提供了展开在猜测模型中所带来的性能提升的界限。为了描述博弈的稳态，我们提出了 Berk-Nash 均衡的一个变体。我们通过一个高级持续性威胁的案例展示了 COL。测试平台的评估显示，COL 产生了有效的安全策略，能够适应不断变化的环境。我们还发现，COL 比当前的强化学习技术收敛速度更快。

发布时间: 9/24/2024

查看原文