arXiv:2504.02880v1 交叉刊物类型: cross
摘要: 开发基于计算机视觉的水稻表型技术对于精准田间管理、加快育种并持续提升水稻产量至关重要。在表型任务中,区分图像组件是描述器官尺度的植物生长和发育的关键前提,有助于更深入地了解生态生理过程。然而,由于水稻器官的细微结构和林冠内的复杂照明,这项任务仍然极具挑战性,强调了高质量训练数据集的必要性。这类数据集稀缺,主要原因在于缺乏大型、代表性的水稻田图像集合,以及注释过程的繁琐性。为解决这一问题,我们建立了首个全面的多类水稻语义分割数据集——RiceSEG。我们从五个主要水稻种植国家(中国、日本、印度、菲律宾和坦桑尼亚)收集了近50,000张高分辨率、地基的图像,涵盖了超过6,000种基因型的所有生长阶段。从这些原始图像中选择了3,078个代表性样本,并按六个类别(背景、绿色植被、衰老植被、稻穗、杂草和水葫芦)进行注释,形成了RiceSEG数据集。值得注意的是,来自中国的子数据集涵盖了从东北到南部的所有主要基因型和水稻种植环境。使用当前最先进的卷积神经网络和基于变换器的语义分割模型作为基线。虽然这些模型在分割背景和绿色植被方面表现得相当好,但在生殖阶段时,当林冠结构更复杂且涉及多个类别时,它们会遇到困难。这些发现突显了我们数据集对开发专门用于水稻及其他作物的分割模型的重要性。
arXiv:2504.02872v1 类型: cross
摘要:暗网市场(DNMs)在全球范围内促进了非法商品的交易。收集DNMs的数据对于确保执法机构能够有效打击犯罪至关重要。手动从DNMs中提取数据是一个容易出错且耗时的任务。为了自动化这一过程,我们开发了一个从DNMs中提取数据的框架,并评估了三个最先进的命名实体识别(NER)模型,即ELMo-BiLSTM [Shah et al., 2022]、UniversalNER [Zhou et al., 2024] 和 GLiNER [Zaratiana et al., 2023] 在从DNM产品Listing页面提取复杂实体方面的应用。我们提出了一组新的标注数据集,该数据集用于训练、微调和评估这些模型。我们的研究发现表明,最先进的NER模型在从DNMs中提取信息方面表现良好,达到了91%的精确率、96%的召回率和94%的F1分数。此外,微调提高了模型性能,UniversalNER表现最佳。
arXiv:2504.02871v1 宣布类型:交叉
摘要:使用大规模语言模型进行生成式信息提取,特别是在少 Shot 学习中,已经成为一种流行的方法。最近的研究表明,提供详细的人类可读指南——类似于传统上用于训练人类注释员的标注指南——可以显著提高性能。然而,构建这些指南既劳动密集又知识密集。此外,这些定义通常是为了满足具体需求而定制的,使它们高度任务特定且往往不可重用。处理这些微妙的差异需要大量努力和细节关注。在本研究中,我们提出了一种自改进方法,利用 LLM 的知识总结和文本生成能力来合成标注指南,几乎不需要人类输入。我们在临床命名实体识别基准测试中进行了无提示实验,包括 2012 i2b2 EVENT、2012 i2b2 TIMEX、2014 i2b2 和 2018 n2c2,分别在严格 F1 分数上提高了 25.86%、4.36%、0.20% 和 7.75%。LLM 合成的指南在大多数任务上与人类撰写的指南相比,表现相当于或更好,差异在 1.15% 到 4.14% 之间。总之,本研究提出了一种新的 LLM 自我改进方法,需要极少的知识和人类输入,并适用于多个生物医学领域。
arXiv:2504.02870v1 交叉发布类型:cross
摘要:简历筛选是人才招聘中一个关键但耗时的过程,需要招聘人员分析大量求职申请,同时保持客观、准确和公平。随着大型语言模型(LLMs)的发展,它们的推理能力和广泛的知识库展示了简化和自动化招聘工作流程的新机会。在本文中,我们提出了一种多代理框架,利用LLMs系统地处理和评估简历。该框架包括四个核心代理,即简历提取器、评估器、摘要生成器和评分格式化器。为了增强候选人评估的相关性,我们在简历评估器中整合了检索增强生成(RAG),允许整合外部知识来源,如行业特定的专业知识、专业认证、大学排名和公司特定的招聘标准。这种动态适应性使招聘个性化,弥补了AI自动化与人才招聘之间的差距。我们通过将AI生成的评分与人力资源专业人员在匿名在线简历数据集上提供的评级进行比较,来评估我们方法的有效性。研究结果强调了多代理RAG-LLM系统在自动化简历筛选方面的潜力,使其招聘流程更加高效和可扩展。
arXiv:2504.02867v1 类型: 内容交叉
摘要:大型语言模型(LLMs)已在多种领域展示了令人印象深刻的性能,但它们仍然面临诸如领域特定知识不足、偏见和幻觉等挑战。这突显了需要具备稳健评估方法的需求,以便准确评估基于LLM的应用程序。传统的评估方法依赖于词重叠或文本嵌入,对于捕捉用于评估动态、开放式文本生成所需要的细微语义信息来说是不够的。最近的研究探讨了利用LLMs模拟人类推理和决策过程来实现评估,这被称为LLM-as-a-judge框架。然而,这些现有的框架有两个重要限制。首先,它们缺乏适应不同文本风格的灵活性,包括各种答案和真实世界的风格,从而降低了其泛化性能。其次,这些框架产生的评估分数常常偏离且难以解释,与人类判断的相关性较低。为了应对这些挑战,我们提出了一种新颖的动态多代理系统,该系统能够自动为各种自然语言生成应用设计个性化的LLM裁判。该系统迭代地优化评估提示,并在下游任务的适应需求和与人类感知的对齐之间寻求平衡。我们的实验结果表明,所提出的多代理LLM裁判框架不仅在评估准确性上比现有方法更高,而且还产生了更符合人类感知的评估分数。
arXiv:2504.02860v1 交叉公告类型:交叉学科
摘要:在扩展现实(XR)平台上,4D视频的前景是巨大的且令人振奋的,它开辟了全新的人类计算机交互方式以及我们感知现实和消费多媒体的方式。在这篇论文中,我们展示了在Microsoft混合现实平台上渲染4D视频的可能性。这使我们能够轻松地将任何来自CVSSP的3D表演捕捉移植到像HoloLens这样的XR产品中。然而,如果3D模型过于复杂,由数百万个顶点组成,那么由于当前硬件和通信系统的限制,移植模型所需的数据带宽将是一个严重限制。因此,在这个项目中,我们还开发了一种基于深度学习模型的4D视频序列的紧凑表示,以有效学习4D视频序列的紧凑表示,并在不影响视频序列的形状和外观的情况下重构它。
arXiv:2504.02855v1 类型:交叉
摘要:向智能低碳电力系统转变需要先进的优化策略来管理可再生能源集成、储能和碳排放。生成型大型模型(GLMs)通过处理多源数据并捕捉复杂系统动力学,提供了一种数据驱动的方法来增强预测、调度和市场运营。本文探讨了GLMs在优化负荷侧管理、储能利用和电力碳排放方面的作用,重点关注智能广域混合能源系统与储能和碳(SGLSC)。通过利用时空建模和强化学习,GLMs能够实现动态能源调度、提高电网稳定性、改善碳交易策略,并增强对极端天气事件的韧性。所提出的框架突显了GLMs在实现高效、适应性和低碳电力系统运营方面的变革潜力。
arXiv:2504.02843v1 Announce Type: cross
摘要:具有复杂非稳态动力学的物理系统,如流体流动,通常无法由单一的平均解充分表征。对于许多实际应用而言,访问所有可能状态的完整分布至关重要,从中可以推导出相关统计量(例如,均方根和两点关联)。在这里,我们提出了一种基于图的潜在扩散(或可选地,流匹配)模型,该模型能够在给定系统及其物理参数的网格离散化后,直接从系统的平衡分布中采样状态。这使得在无需运行长时间且昂贵的数值模拟的情况下,能够高效地计算流体统计量。基于图的结构使操作能够应用于不规则网格,这对于表示具有空间局部化高梯度的复杂几何结构至关重要,而多尺度GNN的潜在空间扩散模型则允许高效学习和推断整个解的分布。一个关键发现是,所提出的网络即使在基于相对较短的模拟的不完全数据训练时,也能准确学习完整的分布。我们将该方法应用到一系列流体动力学任务中,例如在湍流流动中预测3D机翼模型的压力分布,展示了在挑战性场景中的准确性和计算效率。可以直接采样准确的解,并从短期的真实数据模拟中捕获其多样性,这对于复杂的科学建模任务极具前景。
arXiv:2504.00091v1 宣告类型:交叉
摘要:生成型人工智能(AI)在内容创作和决策支持方面实现了前所未有的自动化,但也带来了新的风险。本文提出了一个基于IEEE P3396推荐实践的AI风险、安全、可靠性和责任的基础风险评估框架。我们区分了过程风险(源于AI系统构建或操作的风险)和结果风险(表现在AI系统输出及其现实世界影响的风险),认为生成型AI治理应优先考虑结果风险。我们方法的核心是一个信息为中心的本体论,将AI生成的输出分类为四大基本类别:(1) 感知级信息,(2) 知识级信息,(3) 决策/行动计划信息,以及(4) 控制令牌(访问或资源指令)。这种分类使得系统性识别危害和根据所生成信息的性质精确归咎责任成为可能,从而为开发者、部署者、用户和监管者分配责任。我们说明了每种信息类型所包含的独特结果风险(例如:欺诈、错误信息、不安全的建议、安全漏洞)及其需要定制的风险指标和缓解措施。通过将框架建立在信息的本质、人类代理和认知的基础上,我们将风险评估与AI输出对人类理解和行动的影响相契合。结果是,本文提供了一种有原则的AI风险管理方法,支持明确的责任分配和有针对性的保护措施,而不是广泛的基于应用程序的风险分类。我们还提供了示例表格,将信息类型映射到风险和责任。本文旨在通过一个严谨且基于第一性原理的基础框架来指导IEEE P3396推荐实践和更广泛的AI治理,从而促进生成型AI风险的评估和负责任的创新。
arXiv:2504.03635v1 通知类型: 新
摘要: 大型语言模型(LLMs)在广泛的任务中展示了出色的能力,这些任务需要复杂的推理。然而,规模对其推理能力的影响仍然不够理解。在本文中,我们介绍了一个合成的多跳推理环境,旨在紧密复制现实世界大规模知识图谱的结构和分布。我们的推理任务涉及补全图中的缺失边,这需要高级的多跳推理,并模仿现实世界中的推理场景。为了评估这一点,我们从不完整的图的三元组中从头开始预训练语言模型(LMs),并评估它们推断缺失边的能力。有趣的是,我们发现过度参数化可能会因为过度记忆而损害推理性能。我们研究了影响这一U形损失曲线的不同因素,包括图结构、模型大小和训练步数。为了预测特定知识图谱的最优模型大小,我们发现了一种经验上可行的平滑,它线性地将知识图谱搜索熵映射到最优模型大小。本文提供了有关 LLMs 中规模与推理之间关系的新见解,揭示了可能优化其推理任务性能的方法。