arXiv 论文列表

作者: Harsh Singh, Rocktim Jyoti Das, Mingfei Han, Preslav Nakov, Ivan Laptev

大型语言模型 (LLM) 在包括机器人操作和导航在内的各个领域都展现出非凡的规划能力。虽然最近机器人领域的努力利用 LLM 进行高级和低级规划，但这些方法往往面临着重大挑战，例如长时序任务中的幻觉以及由于单次生成计划而缺乏实时反馈导致的适应性有限。为了解决这些限制，我们提出了一种新颖的多智能体 LLM 框架，即用于操作的多智能体大型语言模型 (MALMM)，该框架将高级规划和低级控制代码生成分布到专门的 LLM 智能体中，由一个额外负责动态管理转换的智能体进行监督。通过在每个步骤之后结合来自环境的观察结果，我们的框架有效地处理了中间故障并实现了自适应重新规划。与现有方法不同，我们的方法不依赖于预训练的技能策略或上下文学习示例，并且可以推广到各种新任务。我们在九个 RLBench 任务（包括长时序任务）上评估了我们的方法，并证明了其在零样本设置下解决机器人操作问题的能力，从而克服了现有基于 LLM 的操作方法的关键限制。

发布时间: 11/27/2024

查看原文

基于反应物-产物比对的化学反应表示学习

作者: Kaipeng Zeng, Xianbin Liu, Yu Zhang, Xiaokang Yang, Yaohui Jin, Yanyan Xu

有机合成是化学工业的基石。开发强大的机器学习模型来支持与有机反应相关的任务具有重要意义。然而，当前的方法依赖于手工设计的特征或来自其他领域的模型架构的直接改编，这在数据规模增加时缺乏可行性，或者忽略了反应中固有的丰富化学信息。为了解决这些问题，本文介绍了一种名为{\modelname}的新型化学反应表示学习模型，该模型适用于各种与有机反应相关的任务。通过整合反应物和产物之间的原子对应关系，我们的模型能够辨别反应过程中发生的分子转化，从而增强对反应机理的理解。我们设计了一种适配器结构，将反应条件融入化学反应表示中，使模型能够处理不同的反应条件，并适应各种数据集和下游任务，例如反应性能预测。此外，我们引入了一种反应中心感知注意力机制，使模型能够集中于关键官能团，从而生成有效的化学反应表示。我们的模型已在一系列下游任务中进行了评估，包括反应条件预测、反应产率预测和反应选择性预测。实验结果表明，我们的模型在所有任务上都明显优于现有的化学反应表示学习架构。值得注意的是，在USPTO\_CONDITION数据集上进行反应条件预测时，我们的模型在准确率方面显著优于所有基线，最高提升了25%（top-1）和16%（top-10）。我们计划在论文被接受后开源代码。

发布时间: 11/27/2024

查看原文

森林碳储量估算中的机器学习与多源遥感：综述

作者: Autumn Nguyen, Sulagna Saha

量化森林碳储量对于制定保护地球的决策和政策至关重要。机器学习 (ML) 和遥感 (RS) 技术已被用于更有效地完成这项任务，然而，目前缺乏对最新 ML 方法和 RS 组合的系统性综述，尤其是在考虑森林特征的情况下。本研究系统地分析了 80 多项相关研究中符合严格纳入标准的 25 篇论文，确定了 28 种 ML 方法和 RS 数据的关键组合。随机森林出现频率最高（88% 的研究），而极端梯度提升在 75% 与其他方法进行比较的研究中表现出优越的性能。Sentinel-1 成为最常用的遥感数据源，多传感器方法（例如，Sentinel-1、Sentinel-2 和激光雷达）被证明特别有效。我们的研究结果为推荐在集成机器学习和遥感以实现准确且可扩展的森林碳储量估算方面的最佳实践提供了依据。

发布时间: 11/27/2024

查看原文

电子学位论文章节级自动分类

作者: Bipasha Banerjee, William A. Ingram, Edward A. Fox

传统的电子学位论文（ETD）存档实践依赖于宽泛的高级元数据方案，这些方案无法捕捉到这些冗长学术作品的深度、复杂性和跨学科性质。缺乏详细的章节级内容描述阻碍了研究人员查找特定章节或主题的能力，从而降低了可发现性和整体可访问性。通过提供章节级元数据信息，我们提高了ETD作为研究资源的有效性。这使得学者更容易高效地浏览它们并提取有价值的见解。此类元数据的缺失进一步阻碍了跨学科研究，掩盖了各个领域之间的联系，阻碍了新的学术发现和合作。在本文中，我们提出了一种机器学习和人工智能驱动的解决方案，用于自动对ETD章节进行分类。该解决方案旨在提高可发现性并促进对章节的理解。我们的方法通过提供丰富的上下文描述来丰富传统的存档实践，从而促进有针对性的导航和改进访问。我们的目标是支持跨学科研究，并使ETD更容易访问。通过提供章节级分类标签并在我们开发的原型系统中使用它们进行索引，我们使ETD章节中的内容更易于发现，并可用于各种学术需求。实施这种人工智能增强的方法允许档案馆更好地为研究人员服务，从而能够高效地访问相关信息并支持更深入地参与ETD。这将提高ETD作为研究工具的影响力，促进跨学科探索，并加强档案馆在数据密集型学术环境中在学术交流中的作用。

发布时间: 11/27/2024

查看原文

混合态量子去噪扩散概率模型

作者: Gino Kwun, Bingzhi Zhang, Quntao Zhuang

生成式量子机器学习因其能够产生具有所需分布的量子态而受到了广泛关注。在各种量子生成模型中，量子去噪扩散概率模型 (QuDDPM) [Phys. Rev. Lett. 132, 100602 (2024)] 提供了一种很有前景的方法，其逐步学习解决了训练问题。然而，QuDDPM 中对高保真扰动幺正变换的要求给近期的实现带来了挑战。我们提出了混合态量子去噪扩散概率模型 (MSQuDDPM) 以消除对扰动幺正变换的需求。我们的方法侧重于将量子噪声通道适应模型架构，该架构在正向扩散过程中整合了退极化噪声通道，并在反向去噪步骤中使用了带有投影测量的参数化量子电路。我们还引入了几种技术来改进 MSQuDDPM，包括余弦指数噪声插值调度、单量子比特随机辅助量子比特的使用以及基于超保真度的代价函数以增强收敛性。我们在量子系综生成任务上评估了 MSQuDDPM，证明了其成功的性能。

发布时间: 11/27/2024

查看原文

让历史易于阅读

作者: Bipasha Banerjee, Jennifer Goyne, William A. Ingram

弗吉尼亚理工大学图书馆 (VTUL) 数字图书馆平台 (DLP) 托管着数字馆藏，为用户提供了访问各种具有历史和文化重要性的文献的途径。这些馆藏不仅具有学术意义，也让用户得以一窥当地历史事件。我们的 DLP 包含由具有复杂布局、褪色图像和难以阅读的手写文本的数字对象组成的馆藏，这使得向这些材料提供在线访问变得极具挑战性。为了解决这些问题，我们将 AI 集成到我们的 DLP 工作流程中，并将数字对象中的文本转换为机器可读格式。为了增强用户在我们历史馆藏中的体验，我们使用定制的 AI 代理进行手写识别、文本提取，以及使用大型语言模型 (LLM) 进行摘要。本海报重点介绍了三个馆藏，分别侧重于手写信件、报纸和数字化地形图。我们讨论了每个馆藏的挑战，并详细介绍了我们解决这些挑战的方法。我们提出的方法旨在通过使这些馆藏中的内容更容易搜索和浏览来增强用户体验。

发布时间: 11/27/2024

查看原文

赋能型人工智能：提升可持续发展目标贡献识别精度

作者: William A. Ingram, Bipasha Banerjee, Edward A. Fox

随着研究机构越来越致力于支持联合国可持续发展目标 (SDG)，准确评估其研究成果与这些目标的契合度变得迫在眉睫。当前的方法主要依赖于基于关键词的布尔搜索查询，这种方法混淆了偶然的关键词匹配和真正的贡献，降低了检索精度，并使基准测试工作复杂化。本研究调查了使用自回归大型语言模型 (LLM) 作为评估代理来识别学术出版物中对 SDG 目标的相关学术贡献的应用。使用通过 SDG 特定关键词查询检索到的学术摘要数据集，我们证明了小型本地托管的 LLM 可以区分对 SDG 目标的语义相关贡献与由于偶然关键词匹配而检索到的文档，从而解决了传统方法的局限性。通过利用 LLM 的上下文理解能力，这种方法提供了一个可扩展的框架，用于改进 SDG 相关的研究指标并为机构报告提供信息。

发布时间: 11/27/2024

查看原文

教育文献的差异化特征：基于Transformer和计算语言学的跨模态融合方法

作者: Jordan J. Bird

将新文学融入英语课程仍然是一个挑战，因为教育者往往缺乏可扩展的工具来快速评估可读性和根据不同的课堂需求调整文本。本研究提出通过一种多模态方法来解决这一差距，该方法结合基于转换器的文本分类和语言特征分析，以使文本与英国关键阶段对齐。八个最先进的Transformer模型在分段文本数据上进行了微调，其中BERT实现了最高的单模态F1分数0.75。同时，搜索了500种深度神经网络拓扑结构来对语言特征进行分类，实现了0.392的F1分数。这些模态的融合显示出显著的改进，所有多模态方法都优于所有单模态模型。特别是，ELECTRA Transformer与神经网络融合后，实现了0.996的F1分数。该方法最终被封装在一个面向利益相关者的网络应用程序中，为非技术利益相关者提供对文本复杂性、阅读难度、课程对齐以及学习年龄范围建议的实时洞察。该应用程序通过将基于人工智能的建议整合到英语文学的课程计划中，从而增强数据驱动的决策能力并减少人工工作量。

发布时间: 11/27/2024

查看原文

基于临床医生信息表征的可解释治疗策略学习：一种实用方法

作者: Johannes O. Ferstad, Emily B. Fox, David Scheinker, Ramesh Johari

数字健康干预（DHIs）和远程病人监控（RPM）在改善慢性病管理，特别是通过个性化护理方面，展现出巨大的潜力。然而，诸如疗效有限和工作量过大等障碍阻碍了现有DHIs的采用；同时，有限的样本量和缺乏可解释性也限制了纯黑盒算法DHIs的有效性和采用率。本文通过开发一个学习可解释治疗策略的流程来解决这些挑战，该流程用于支持RPM的DHIs。我们将我们的方法应用于使用DHI改善1型糖尿病青少年血糖控制的真实世界RPM环境中。我们的主要贡献在于揭示了临床领域知识在开发有效、高效和可解释的目标策略的状态和行动表征中的重要性。我们观察到，从临床医生提供的表征中学习到的策略，比从黑盒表征中学习到的策略更有效率和有效性。这项工作强调了机器学习研究人员和临床医生之间合作，以在现实世界中开发有效的DHIs的重要性。

发布时间: 11/27/2024

查看原文

用于精确分割秀丽隐杆线虫重叠区域的双层分割-重组网络

作者: Mengqian Dinga, Jun Liua, Yang Luo, Jinshan Tang

秀丽隐杆线虫（C. elegans）因其寿命短且与人类基因具有高度同源性而成为极佳的模式生物，已广泛应用于各种人类健康和疾病模型。然而，由于以下原因，秀丽隐杆线虫的分割仍然具有挑战性：1）秀丽隐杆线虫的活动轨迹不可控，多个线虫经常重叠，导致秀丽隐杆线虫边界模糊，难以清晰研究特定线虫的生命轨迹；2）在重叠秀丽隐杆线虫的显微镜图像中，边缘的半透明组织相互遮挡，导致边界分割不准确。为了解决这些问题，本文提出了一种用于秀丽隐杆线虫实例分割的双层分割重组网络（BR-Net）。该网络由三部分组成：粗略掩码分割模块（CMSM）、双层分割模块（BSM）和语义一致性重组模块（SCRM）。CMSM用于提取粗略掩码，我们在CMSM中引入了一个统一注意模块（UAM），使CMSM能够更好地感知线虫实例。双层分割模块（BSM）将聚集的秀丽隐杆线虫分割成重叠和非重叠区域。随后，SCRM进行整合，其中引入了语义一致性正则化，以更准确地分割线虫实例。最后，在秀丽隐杆线虫数据集上验证了该方法的有效性。实验结果表明，BR-Net具有良好的竞争力，在处理秀丽隐杆线虫遮挡图像方面优于其他最近提出的实例分割方法。

发布时间: 11/27/2024

查看原文