arXiv 论文列表

作者: Amirabbas Afzali, Hesam Hosseini, Mohmmadamin Mirzai, Arash Amini

时间序列数据分析广泛应用于金融、医疗和环境监测等各个领域。传统的时序聚类方法往往难以捕捉这类数据中固有的复杂时间依赖性。本文提出了一种基于图的时序聚类方法——变分混合图自编码器 (VMGAE)，该方法利用图的结构优势来捕捉更丰富的数据关系，并生成高斯混合嵌入以提高可分离性。文中包含了与基线方法的比较和实验结果，证明了该方法显著优于最先进的时序聚类技术。我们还在真实的金融数据上验证了该方法，突出了其在金融领域的实际应用。通过揭示股票市场的社区结构，我们的方法可以更深入地了解股票之间的关系，从而有利于市场预测、投资组合优化和风险管理。

发布时间: 11/27/2024

查看原文

RoCoDA：用于数据高效机器人示教学习的反事实数据增强

作者: Ezra Ameperosa, Jeremy A. Collins, Mrinal Jain, Animesh Garg

机器人模仿学习由于机器人环境的复杂性和数据收集的高成本，在泛化方面面临着巨大的挑战。我们引入了RoCoDA，这是一种新颖的方法，它在一个框架内统一了不变性、等变性和因果关系的概念，以增强模仿学习的数据增强。RoCoDA通过修改与任务无关的环境状态子集而不影响策略的输出，从而利用因果不变性。同时，我们通过对物体姿态应用刚体变换并调整相应的动作来生成合成演示，从而利用SE(3)等变性。我们在五个机器人操作任务上进行了广泛的实验来验证RoCoDA，结果表明，与最先进的数据增强方法相比，它提高了策略性能、泛化能力和样本效率。我们的策略对看不见的物体姿态、纹理和干扰物的存在表现出强大的泛化能力。此外，我们观察到诸如重新抓取之类的涌现行为，这表明用RoCoDA训练的策略对任务动力学有更深入的理解。通过利用不变性、等变性和因果关系，RoCoDA为模仿学习中的数据增强提供了一种有原则的方法，弥合了几何对称性和因果推理之间的差距。

发布时间: 11/27/2024

查看原文

对比深度学习揭示皮肤组织病理活检中的年龄生物标志物

作者: Kaustubh Chakradeo (University of Copenhagen, Section of Epidemiology, Department of Public Health, Copenhagen, Denmark), Pernille Nielsen (Technical University of Denmark, Department of Applied Mathematics and Computer Science, Denmark), Lise Mette Rahbek Gjerdrum (Department of Pathology, Copenhagen University Hospital- Zealand University Hospital, Roskilde, Denmark, Department of Clinical Medicine, University of Copenhagen, Copenhagen, Denmark), Gry Sahl Hansen (Department of Pathology, Copenhagen University Hospital- Zealand University Hospital, Roskilde, Denmark), David A Duch\^ene (University of Copenhagen, Section of Epidemiology, Department of Public Health, Copenhagen, Denmark), Laust H Mortensen (University of Copenhagen, Section of Epidemiology, Department of Public Health, Copenhagen, Denmark, Danmarks Statistik, Denmark), Majken K Jensen (University of Copenhagen, Section of Epidemiology, Department of Public Health, Copenhagen, Denmark), Samir Bhatt (University of Copenhagen, Section of Epidemiology, Department of Public Health, Copenhagen, Denmark, Imperial College London, United Kingdom)

随着全球预期寿命的增加，慢性病的负担也在增加，然而个体衰老速度存在显著差异。识别能够区分快速衰老和缓慢衰老的生物标志物对于理解衰老的生物学机制、实现早期疾病检测和改进预防策略至关重要。我们利用对比深度学习方法，证明仅依靠皮肤活检图像就足以确定个体的年龄。然后，我们利用皮肤活检组织病理学切片中的视觉特征构建了一种新的衰老生物标志物。通过与丹麦的综合健康登记数据关联，我们证明皮肤活检组织病理学切片中的视觉特征可以预测死亡率和慢性年龄相关疾病的患病率。我们的工作强调了如何将常规收集的健康数据与深度学习结合使用，从而创造出一种新的衰老生物标志物，并可用于主动确定随时间推移的死亡率。

发布时间: 11/27/2024

查看原文

基于机器学习的NVIDIA Ada Lovelace GEMM性能和能耗分析

作者: Xiaoteng (Frank), Liu (New York University), Pavly Halim (New York University)

用于预测现代GPU上通用矩阵乘法(GEMM)性能的分析框架，重点关注运行时间、功耗和能效。我们的研究采用两种方法：一个用于基础分析的自定义实现的平铺矩阵乘法内核，以及用于跨高级配置收集全面性能数据的NVIDIA CUTLASS库。使用NVIDIA RTX 4070作为我们的实验平台，我们开发了一个基于随机森林的多输出回归预测模型。通过分析具有不同平铺大小（1到32）的朴素平铺矩阵乘法和跨不同配置的16,128个CUTLASS GEMM操作，我们确定了与矩阵维度、线程块配置和内存访问模式相关的关键性能模式。我们的框架实现了极高的精度，运行时间预测的R²得分达到0.98（平均误差15.57%），功耗预测的R²得分达到0.78（中位数误差5.42%）。该系统成功地预测了跨矩阵大小的性能，展现了强大的扩展性。我们的结果表明，最佳平铺大小的选择可以将性能提高高达3.2倍，同时与基线配置相比将功耗降低22%。对共享内存利用率和SM占用率的分析表明，16x16的平铺大小在并行性和资源利用率之间取得了最佳平衡。我们的框架实现，包括预测模型和分析工具，已作为开源项目GPPerf [https://github.com/pavlyhalim/GPPerf]提供。

发布时间: 11/27/2024

查看原文

利用大型语言模型生成基于教育内容的意大利语填字游戏

作者: Kamyar Zeinalipour, Achille Fusco, Asya Zanollo, Marco Maggini, Marco Gori

本研究提出了一种利用先进语言模型（如GPT-4o、Mistral-7B-Instruct-v0.3和Llama3-8b-Instruct）从文本生成意大利语填字游戏的全新工具。该工具专为教育应用而设计，并利用包含超过30,000个条目的综合意大利线索指令数据集（Italian-Clue-Instruct dataset），其中包括各种文本、答案和线索类型。这个精心构建的数据集旨在促进创建与特定文本和关键词相关的各种风格的上下文相关线索。研究深入探讨了四种不同的填字游戏线索风格：无格式限制的线索、限定词短语构成的线索、系表句构成的线索和名词短语构成的线索。每种风格都引入了独特的语言结构，使线索呈现多样化。鉴于缺乏针对意大利语量身定制的先进教育工具，本项目旨在通过一个引人入胜的互动平台来增强学习体验和认知发展。通过将最先进的人工智能与现代教育策略相结合，我们的工具可以动态地从意大利语教育材料中生成填字游戏，从而提供一个愉快且互动的学习环境。这项技术进步不仅重新定义了教育范式，也为互动式和认知语言学习解决方案树立了新的标杆。

发布时间: 11/27/2024

查看原文

ASSERTIFY：利用大型语言模型生成产品代码的断言

作者: Mohammad Jalili Torkamani, Abhinav Sharma, Nikita Mehrotra, Rahul Purandare

生产断言是嵌入代码中的语句，用于帮助开发人员验证他们对代码的假设。它们有助于开发人员进行调试，提供有价值的文档，并增强代码理解能力。当前这方面的研究主要集中于使用静态分析和深度学习等技术生成单元测试的断言。虽然这些技术已显示出前景，但在生成具有不同用途的生产断言方面却存在不足。本预印本通过介绍 Assertify 来解决这一差距，Assertify 是一款自动化端到端工具，它利用大型语言模型 (LLM) 和少量样本学习的提示工程来生成生产断言。通过创建上下文丰富的提示，该工具模拟了开发人员在为其代码创建生产断言时所采取的方法。为了评估我们的方法，我们从 GitHub 上抓取了 22 个成熟的 Java 存储库，编译了一个包含 2810 个方法的数据集。我们的实验通过生成平均 ROUGE-L 分数为 0.526 的断言来证明少量样本学习的有效性，这表明与开发人员编写的断言具有相当高的结构相似性。这项研究证明了大型语言模型在自动化生成类似于原始断言的生产断言方面的潜力。

发布时间: 11/27/2024

查看原文

Transformer 模型真的是机器人技术的基石吗？

作者: James A. R. Marshall, Andrew B. Barron

大型预训练Transformer模型（GPTs）被吹捧为将彻底革新机器人技术。本文对此提出了质疑。用于自主机器人的GPTs需要巨大的计算资源和成本，训练时间过长，并且（通常）需要离线无线控制。我们将最先进的GPT与微小的昆虫大脑如何实现强大的自主性（而没有任何这些限制）进行了对比。我们重点介绍了可以从生物学中学习到的经验教训，以提高GPTs在机器人技术中的实用性。

发布时间: 11/27/2024

查看原文

基于差分变换器深度学习模型并结合像素级仪器响应函数提高荧光寿命参数估计精度

作者: Ismail Erbas, Vikas Pandey, Navid Ibtehaj Nizam, Nanxue Yuan, Amit Verma, Margarida Barosso, Xavier Intes

荧光寿命成像(FLI)是一种重要的分子成像技术，可为生物医学应用提供独特的信息。FLI基于光子到达时间直方图的采集和处理。这些直方图的形状和时间偏移取决于许多因素，例如仪器响应函数(IRF)、光学特性和样品的形貌轮廓。已经开发了几种逆解算分析方法来计算潜在的荧光寿命参数，但大多数方法计算量大且耗时。因此，深度学习(DL)算法逐渐取代了荧光寿命参数估计中的计算方法。通常，DL模型使用简单的通过模拟或简单的实验（其中荧光团表面轮廓大多平坦）生成的数据集进行训练；因此，DL模型在具有复杂表面轮廓的样品（例如离体器官或体内完整动物）上的性能通常不佳。本文中，我们介绍了一种新的DL架构，该架构使用最先进的差分变换器编码器-解码器架构MFliNet（宏观FLI网络），它除了TPSF外还额外输入IRF，从而解决了光子到达时间分布中的差异。我们通过精心设计的复杂组织模拟体模和临床前体内癌症异种移植实验证明了该模型的性能。

发布时间: 11/27/2024

查看原文

通过土壤碳领航员促进再生农业的采用

作者: Margaret Capetz, Swati Sharma, Rafael Padilha, Peder Olsen, Emre Kiciman, Ranveer Chandra

减缓气候变化需要转变农业模式，以最大限度地减少环境影响并增强气候适应能力。再生农业实践能够提高土壤有机碳 (SOC) 水平，从而改善土壤健康状况并封存碳。增加再生农业实践面临的一个挑战是廉价地测量 SOC 随时间的变化，并了解 SOC 如何受再生农业实践以及其他环境因素和农场管理实践的影响。为了应对这一挑战，我们引入了一种人工智能驱动的土壤有机碳副驾驶，它能够自动摄取复杂的多分辨率、多模式数据，从而为土壤健康和再生实践提供大规模的洞察。我们的数据包括极端天气事件数据（例如，干旱和野火事件）、农场管理数据（例如，耕地信息和耕作预测）以及 SOC 预测。我们发现，整合公共数据和专业模型能够进行大规模的本地化可持续农业分析。通过比较加利福尼亚州各县的农业实践，我们发现证据表明，多样化的农业活动可以减轻耕作的负面影响；并且，虽然极端天气条件严重影响 SOC，但堆肥可以减轻 SOC 的损失。最后，实施特定角色的人设能够使农学家、农场顾问、政策制定者和其他利益相关者能够实施基于证据的战略，以促进可持续农业和增强气候适应能力。

发布时间: 11/27/2024

查看原文

基于知识的视觉问答中使用自反射标记增强多模态大型语言模型

作者: Federico Cocchi, Nicholas Moratelli, Marcella Cornia, Lorenzo Baraldi, Rita Cucchiara

多模态大型语言模型 (MLLMs) 是大型语言模型处理多模态输入（结合文本和图像数据）的自然延伸。由于其能够处理涉及两种模态的复杂任务，它们最近受到了广泛关注。然而，它们的有效性仅限于训练期间获得的知识，这限制了它们的实际效用。在这项工作中，我们提出了一种新方法，通过整合外部知识源来增强 MLLMs 的适应性。我们提出的模型，Reflective LLaVA (ReflectiVA)，利用反射标记动态地确定对外部知识的需求，并预测从外部数据库检索到的信息的关联性。标记采用两阶段两模型训练方案进行训练。这最终使 MLLM 能够管理外部知识，同时保持在不需要外部知识的任务上的流畅性和性能。通过我们的实验，我们证明了 ReflectiVA 在基于知识的视觉问答中的有效性，突出了其与现有方法相比的优越性能。源代码和训练好的模型已公开发布在 https://github.com/aimagelab/ReflectiVA。

发布时间: 11/27/2024

查看原文