arXiv 论文列表

作者: Guofeng Yang, Yu Li, Yong He, Zhenjiang Zhou, Lingzhen Ye, Hui Fang, Yiqi Luo, Xuping Feng

无人机遥感技术已成为作物育种的关键技术，能够实现作物表型数据的髙通量、无损采集。然而，育种的多学科性质给知识挖掘带来了技术壁垒和效率挑战。因此，开发一种智能育种目标工具以挖掘跨领域多模态数据至关重要。本研究基于不同的预训练开源多模态大型语言模型（MLLM）（例如，Qwen-VL、InternVL、Deepseek-VL），利用监督微调（SFT）、检索增强生成（RAG）和来自人类反馈的强化学习（RLHF）技术将跨领域知识注入MLLM，从而构建多个用于小麦育种的多模态大型语言模型（WBLM）。利用本研究新创建的评估基准对上述WBLM进行了评估。结果表明，使用SFT、RAG和RLHF技术以及InternVL2-8B构建的WBLM具有领先的性能。然后，使用WBLM进行了后续实验。消融实验表明，SFT、RAG和RLHF技术的组合可以提高整体生成性能，增强生成质量，平衡生成答案的时效性和适应性，并减少幻觉和偏差。WBLM在同时使用跨领域数据（遥感、表型、天气、种质）进行小麦产量预测方面表现最佳，R²和RMSE分别为0.821和489.254 kg/ha。此外，WBLM可以为表型估计、环境胁迫评估、目标种质筛选、栽培技术推荐和种子价格查询任务生成专业的决策支持答案。

发布时间: 11/26/2024

查看原文

超越视觉理解：用于视觉语言模型基准测试的 PARROT-360V

作者: Harsha Vardhan Khurdula, Basem Rizk, Indus Khaitan, Janit Anjaria, Aviral Srivastava, Rajvardhan Khaitan

当前用于评估视觉语言模型 (VLMs) 的基准测试往往无法彻底评估模型理解和处理复杂视觉和文本内容的能力。它们通常侧重于简单的任务，这些任务不需要深度推理或整合多种数据模式来解决原始问题。为了解决这一差距，我们引入了 PARROT-360V 基准测试，这是一个新颖而全面的基准测试，包含 2487 个具有挑战性的视觉谜题，旨在测试 VLMs 在复杂视觉推理任务上的能力。我们使用 PARROT-360V 评估了领先的模型：GPT-4o、Claude-3.5-Sonnet 和 Gemini-1.5-Pro，以评估它们结合视觉线索和语言技能解决任务的能力，其方式类似于人类解决问题。我们的研究结果揭示了一个显著的性能差距：最先进的模型在我们的基准测试中的得分在 28% 到 56% 之间，远低于它们在流行基准测试中的表现。这突显了当前 VLMs 在处理复杂的多步骤推理任务方面的局限性，并强调了需要更强大的评估框架来推动该领域发展。

发布时间: 11/26/2024

查看原文

基于深度学习的儿童多动性运动障碍分类

作者: Nandika Ramamurthy, Dr Daniel Lumsden, Dr Rachel Sparks

儿童高动力运动障碍（HMD），包括肌张力障碍（异常扭转）和舞蹈症（不规则、随机运动），由于临床特征重叠，带来了巨大的诊断挑战。肌张力障碍的患病率为百万分之2到50，舞蹈症为每10万人中5到10人。这些疾病的诊断通常会延迟平均4.75到7.83年。传统的诊断方法依赖于临床病史和专家体格检查，但由于这些疾病的病理生理机制复杂，专业检查无效。本研究开发了一种神经网络模型，用于根据儿童患者进行运动任务的视频记录来区分肌张力障碍和舞蹈症。该模型集成了图卷积网络 (GCN) 以捕捉空间关系，并集成了长短期记忆 (LSTM) 网络以解释时间动态。加入注意力机制以提高模型的可解释性。该模型在盖伊和圣托马斯 NHS 基金会信托基金获得监管批准下收集的 50 个视频数据集（31 个以舞蹈症为主，19 个以肌张力障碍为主）上进行了训练和验证。该模型在每秒 15 帧的情况下实现了 85% 的准确率、81% 的灵敏度和 88% 的特异性。注意力图突出了模型正确识别不随意运动模式的能力，误分类通常是由于身体部位遮挡或细微的运动变化造成的。这项工作证明了深度学习在提高 HMD 诊断准确性和效率方面的潜力，并可能有助于开发更可靠、更可解释的临床工具。

发布时间: 11/26/2024

查看原文

自适应可控扩散模型用于高效的条件图像生成

作者: Yucheng Xing, Xiaodong Liu, Xin Wang

随着人工智能的发展，越来越多的注意力集中在生成模型上，生成模型代表了创造力，这是智能的一个非常重要的方面。近年来，扩散模型已被研究并证明比以前的方法更合理有效。然而，常见的扩散框架存在可控性问题。虽然一些工作已经考虑了额外的条件来指导扩散过程以生成特定目标，但这只控制了生成结果，而不是其过程。在这项工作中，我们提出了一种新的自适应框架，即自适应可控扩散 (AC-Diff) 模型，来自动且完全控制生成过程，不仅包括生成结果的类型，还包括生成过程的长度和参数。输入和条件将首先被送入条件时间步长 (CTS) 模块以确定生成所需的步数。然后，根据过程的长度，将通过我们的自适应混合噪声调度 (AHNS) 模块估计扩散率参数。我们进一步使用相应的自适应采样机制训练网络，以学习如何根据条件调整自身以提高整体性能。为了实现其实际应用，AC-Diff 有望在保持与文献中扩散模型相同的性能的同时，大幅减少平均生成步骤和执行时间。

发布时间: 11/26/2024

查看原文

基于改进ADMM的K均值无监督特征选择

作者: Ziheng Sun, Chris Ding, Jicong Fan

特征选择对于高维数据分析至关重要，但在诸如降维和聚类等无监督学习问题中并非易事。无监督特征选择的目的是找到一个特征子集，使得来自不同聚类的数据点能够很好地分离。本文提出了一种名为基于K均值的无监督特征选择（K-means UFS）的新方法。与大多数现有的基于谱分析的无监督特征选择方法不同，我们使用K均值的客观函数来选择特征。我们开发了一种乘子交替方向法（ADMM）来解决K-means UFS模型的NP难优化问题。在真实数据集上的大量实验表明，我们的K-means UFS在选择用于聚类的特征方面比基线方法更有效。

发布时间: 11/26/2024

查看原文

基于图神经网络的复杂知识图谱中实体抽取与关系推理

作者: Junliang Du, Guiran Liu, Jia Gao, Xiaoxuan Liao, Jiacheng Hu, Linxiao Wu

基于图神经网络的知识图谱实体抽取与关系推理算法研究。该研究提出了一种基于图神经网络的知识图谱实体抽取和关系推理算法，利用图卷积网络和图注意力网络对知识图谱中的复杂结构进行建模，构建端到端联合模型，实现对实体和关系的高效识别和推理。实验中，将该模型与多种深度学习算法进行对比，并通过AUC、召回率、精确率和F1值等指标验证了其优越性。实验结果表明，该模型在各项指标上均表现良好，尤其在复杂知识图谱中，具有更强的泛化能力和稳定性，为知识图谱的进一步研究提供了有力支撑，也展现了图神经网络在实体抽取和关系推理方面的应用潜力。

发布时间: 11/26/2024

查看原文

基于图神经网络的引导式文字方程求解（扩展技术报告）

作者: Parosh Aziz Abdulla, Mohamed Faouzi Atig, Julie Cailler, Chencheng Liang, Philipp R\"ummer

本文提出了一种基于著名的 Nielsen 变换分解方程的图神经网络引导算法来求解单词方程。该算法迭代地重写方程每一侧的第一个项，从而产生一个树状搜索空间。在树的每个分裂点处路径的选择会显著影响求解时间，这促使我们使用图神经网络 (GNN) 来进行高效的分裂决策。分裂决策被编码为多分类任务，并且引入了五种单词方程的图表示来为 GNN 编码其结构信息。该算法被实现为名为 DragonLi 的求解器。实验在人工和真实世界的基准上进行。该算法在可满足性问题上表现尤其出色。对于单个单词方程，DragonLi 可以求解比已建立的字符串求解器多得多的问题。对于多个单词方程的合取，DragonLi 与最先进的字符串求解器具有竞争力。

发布时间: 11/26/2024

查看原文

梯度加权特征反投影：一种快速替代三维高斯体绘制中特征蒸馏的方法

作者: Joji Joseph, Bharadwaj Amrutur, Shalabh Bhatnagar

我们提出了一种无需训练的基于高斯散射的特征场渲染方法。我们的方法利用加权求和（基于每个高斯函数在最终渲染中的影响）将二维特征反投影到预训练的三维高斯函数中。虽然大多数基于训练的特征场渲染方法在二维分割方面表现出色，但在三维分割方面却表现不佳（除非进行后处理），但我们的方法在二维和三维分割中都取得了高质量的结果。实验结果表明，我们的方法快速、可扩展，并且性能与基于训练的方法相当。

发布时间: 11/26/2024

查看原文

针对不同轴承故障振动数据集调整宽卷积核卷积神经网络的超参数

作者: Dan Hudson, Jurgen van den Hoogen, Martin Atzmueller

最先进的算法据报道几乎能够完美地区分来自健康和损坏机器轴承的振动，至少根据基准数据集是这样的。然而，它们在新数据上的应用情况如何呢？本文证实，用于轴承故障检测的神经网络可能会因超参数设置不正确而失效，并且在转换到新数据时，正确的超参数设置实际上也可能发生变化。本文结合多种方法来解释宽核卷积神经网络超参数的行为以及如何设置它们。由于针对小批量大小等通用超参数的指导已经存在，我们重点关注如何设置特定于架构的超参数，例如卷积核的宽度，否则这个主题可能会比较模糊。我们通过融合来自七个不同基准数据集的信息来反映不同的数据属性，我们的结果表明，第一层的核大小尤其容易受到数据变化的影响。更深入地研究，我们使用了一个数据集的修改副本，试图找出为什么有时需要更改核大小。通过使用不同级别的重采样来研究采样率的相关性，并通过逐渐滤除高频来研究频谱内容。在本文的最后，我们总结并明确说明了如何设置我们神经网络架构的超参数。

发布时间: 11/26/2024

查看原文

只需排序：用于类别数据聚类的必要条件

作者: Yiqun Zhang, Mingjie Zhao, Hong Jia, Yiu-ming Cheung

在知识发现和数据挖掘任务中，由名义属性值构成的分类数据无处不在。由于缺乏明确定义的度量空间，分类数据分布难以直观理解。聚类是一种适用于数据分析的常用技术。然而，聚类的成功往往依赖于合理的距离度量，而这恰恰是分类数据天然缺乏的。因此，分类数据的聚类分析被认为是一个至关重要但极具挑战性的问题。本文提出了一种新的发现：属性值之间的顺序关系是聚类准确性的决定性因素，也是理解分类数据聚类的关键。为了自动获得这些顺序，我们提出了一种新的学习范式，它允许联合学习聚类和顺序。结果表明，结合顺序学习的聚类方法能够获得更高的聚类精度，并且学习到的顺序为理解分类数据的聚类分布提供了直观解释。大量的实验、统计证据和案例研究验证了新的“顺序即一切”的洞见以及所提出方法的有效性。

发布时间: 11/26/2024

查看原文