arXiv 论文列表

基于超过1000万记录构建的心电图基础模型，并在多个领域进行外部评估

作者: Jun Li, Aaron Aguirre, Junior Moura, Che Liu, Lanhai Zhong, Chenxi Sun, Gari Clifford, Brandon Westover, Shenda Hong

arXiv:2410.04133v3 宣布类型：替换交叉摘要：人工智能（AI）在心电图（ECG）分析和心血管疾病评估方面展示了巨大的潜力。近年来，基础模型在推动医疗AI方面发挥了重要作用。开发ECG基础模型有望将AI-ECG研究提升到新的高度。然而，建立这样的模型面临着多个挑战，包括数据库样本量不足和在多个领域泛化的不足。此外，单导联和多导联心电图分析之间存在明显的性能差距。我们引入了ECG基础模型（ECGFounder），这是一种通用模型，通过利用心脏病学专家的真实世界心电图注解，增强了心电图分析的诊断能力。ECGFounder在哈佛-埃默里心电图数据库上进行了超过100万份心电图的训练，这包括150个标签类别，从而通过心电图分析实现全面的心血管疾病诊断。该模型旨在不仅作为有效的开箱即用解决方案，而且可以针对下游任务进行微调，以最大化其实用性。更重要的是，我们将其应用扩展到了较低等级的心电图，尤其是任意单导联心电图。ECGFounder适用于移动监测场景下的多种下游任务。实验结果显示，ECGFounder在内部验证集上达到了专家级性能，针对80种诊断的AUROC超过0.95。此外，在外部验证集上，ECGFounder在各种诊断分类和泛化方面也表现出强大的性能。经过微调后，ECGFounder在人口统计分析、临床事件检测和跨模态心律诊断方面优于基线模型。经过训练的模型和数据将在发表后通过bdsp.io公开发布。我们的代码可在https://github.com/PKUDigitalHealth/ECGFounder获取。

发布时间: 4/4/2025

查看原文

推测性解码的注意力混合

作者: Matthieu Zimmer, Milan Gritta, Gerasimos Lampouras, Haitham Bou Ammar, Jun Wang

arXiv:2410.03804v2 宣称类型: replace-cross 摘要：大型语言模型（LLMs）参数数量的增长导致了计算需求的显著增加，使得它们的部署变得具有挑战性和成本高昂。推测性解码（SD）利用较小的模型高效地提出未来的令牌，然后由LLM并行验证。目前使用LLM激活的较小模型实现了最快的解码速度。然而，我们识别出SD模型的一些局限性，包括训练过程中的非现行政策性和部分可观测性。为了克服这些不足，我们提出了一种更为现实的较小模型架构，通过引入一种混合注意力机制来实现SD。我们提出的新型架构可以在两种场景中应用：常规的一设备部署和一种新的客户端-服务器部署，其中较小模型托管在消费者设备上，而LLM托管在服务器上。在单设备场景中，我们通过提升EAGLE-2的9.5%的速度和25%的接受长度，展示了最先进的加速效果。在客户端-服务器环境中，我们的实验展示了：1）不同网络条件下具有最小服务器调用的最先进的延迟；2）在完全断开连接的情况下，我们的方法相较于其他SD方法能够保持更高的准确性，并且在无法继续生成过程时，也证明了优于对LLM的API调用的优势。

发布时间: 4/4/2025

查看原文

HUMOS: 基于体型的人体运动模型

作者: Shashank Tripathi, Omid Taheri, Christoph Lassner, Michael J. Black, Daniel Holden, Carsten Stoll

arXiv:2409.03944v2 宣言类型: replace-cross 摘要：生成逼真的人体运动对于许多计算机视觉和图形应用至关重要。人类体型和尺寸的广泛差异极大地影响了人们的移动方式。然而，大多数现有的运动模型忽略了这些差异，依赖于标准化的平均体型。这导致不同体型的人具有相同的均匀运动，其中动作不匹配其物理特征，限制了多样性。为了解决这个问题，我们引入了一种基于体型开发生成运动模型的新方法。我们展示了可以通过应用循环一致性、直观物理和稳定性约束来训练该模型，这些约束捕捉了身份与其运动之间的关系。由此产生的模型生成了多样、物理上合理且动态稳定的真人运动，无论是定量上还是定性上都比当前的最新方法更为逼真。更多详情请参见我们的项目页面 https://CarstenEpic.github.io/humos/。

发布时间: 4/4/2025

查看原文

Tensor树学习数据中的隐藏关系结构以构建生成模型

作者: Kenji Harada, Tsuyoshi Okubo, Naoki Kawashima

arXiv:2408.10669v2 公告类型: replace-cross 摘要：基于 Born 机框架的张量树网络，我们提出了一种构建生成模型的一般方法，即将目标分布函数表示为由张量树表示的量子波函数的振幅。关键思想是动态优化最小化张量网络键间互信息的树结构。所提出的方法具有增强的性能，并揭示了目标数据中的隐含关系结构。我们通过四个示例说明了潜在的实际应用：(i) 随机模式，(ii) QMNIST 手写数字，(iii) 贝叶斯网络，以及(iv) 标普500 股价波动模式。在(i)和(ii)中，强相关变量集中在网络中心附近；在(iii)中，因果关系模式被识别；而在(iv)中，与十一类对应的结构出现了。

发布时间: 4/4/2025

查看原文

使用强化学习的区块链网络可持续广播

作者: Danila Valko, Daniel Kudenko

arXiv:2407.15616v2 Announce Type: 替换交叉摘要：最近的估计表明，比特币和以太坊的年碳足迹分别为6400万和2600万吨二氧化碳。为了解决这一不断增长的问题，文献中提出了几种可能的方法：创建替代的区块链共识机制、应用冗余减少技术、利用可再生能源以及使用节能设备等。在本文中，我们遵循了第二种途径，并提出了一种基于强化学习的有效方法，该方法改进了区块链网络中的区块广播方案。分析和实验结果证实，提出的区块传播方案改进能够巧妙地处理网络动态，并且在结果上优于默认方法。此外，我们对模拟器和技术开发的RL环境的集成可以作为一个完整解决方案，用于进一步研究使用RL或其他机器学习技术的新方案和协议。

发布时间: 4/4/2025

查看原文

代币化的基本原理：统计和计算方面的关注点

作者: Juan Luis Gastaldi, John Terilla, Luca Malagutti, Brian DuSell, Tim Vieira, Ryan Cotterell

arXiv:2407.11606v4 宣告类型: replace-cross 摘要：分词 - 将字母表中的字符字符串转换为词汇表上的一系列令牌的过程 - 是自然语言处理（NLP）管道中的关键步骤。分词表示的使用被广泛认为能够提高模型性能，但也可能导致许多不希望的行为，如虚假的歧义或不一致性。尽管分词作为NLP中的一种标准表示方法被广泛认可，但其理论基础尚未完全阐明。特别是，关于分词对语言模型估计影响的研究主要通过实证手段进行。本文通过提出一个统一的形式化框架来表示和分析分词器模型，旨在弥补这一理论空白。基于随机映射类别，该框架使我们能够确立分词器规范化使用的通用条件，并最重要的是，确定分词器模型能够保留统计估计器一致性的必要和充分条件。此外，本文还讨论了设计和实现分词器模型时至关重要的统计和计算问题，如不一致性、歧义、有限性和序列性。本文提出的方法和结果为神经语言建模中表示的稳健理论基础奠定了基石，并可以指导未来理论和实证研究的发展。

发布时间: 4/4/2025

查看原文

NormTab: 通过表数据规范化提高大型语言模型中的符号推理能力

作者: Md Mahadi Hasan Nahid, Davood Rafiei

arXiv:2406.17961v2 Announce Type: replace-cross 摘要：近年来，大型语言模型（LLMs）在解析文本数据和生成代码方面展现了卓越的能力。然而，在涉及表格数据的任务中，特别是在那些需要符号推理的任务中，它们的性能面临着挑战，因为网页表格中经常存在结构差异和单元格值的一致性问题。在本文中，我们提出了一种名为NormTab的新框架，旨在通过规范化网页表格来增强LLMs的符号推理性能。我们将表格规范化作为一个独立的一次性预处理步骤进行研究，使用LLMs来支持符号推理。我们在WikiTableQuestion和TabFact等具有挑战性的网页表格数据集上进行的实验评估表明，利用NormTab可以显著提高符号推理性能，展示了网页表格规范化对增强基于LLM的符号推理任务的重要性与有效性。

发布时间: 4/4/2025

查看原文

过热烹饪泛化挑战

作者: Constantin Ruhdorfer, Matteo Bortoletto, Anna Penzkofer, Andreas Bulling

arXiv:2406.17949v2 宣告类型: replace-cross 摘要: 我们引入了Overcooked泛化挑战(OGC)——这是第一个研究代理在面对新伙伴和新关卡时的零样本合作能力的基准。这一视角与大量之前仅在相同关卡上训练和评估合作代理的研究形成了鲜明对比，未能捕捉到现实世界中人类与AI合作所需的泛化能力。该挑战采用最先进的双重课程设计(DCD)方法生成自动生成的课程，用于在Overcooked中训练通用代理。这是第一个专门为DCD方法设计的合作多代理环境，因此也是第一个使用最先进的方法进行基准测试的环境。它完全基于GPU加速，并基于DCD基准套件minimax构建，以开源许可证免费提供：https://git.hcics.simtech.uni-stuttgart.de/public-projects/OGC。我们展示了当前的DCD算法在这一新颖的挑战中难以生成有用策略，即使与旨在实现可扩展性和泛化的最近网络架构结合使用。OGC通过使研究界能够研究泛化对合作代理的影响，推动了现实世界中人类与AI合作的界限。

发布时间: 4/4/2025

查看原文

MolX：通过多模态扩展增强大型语言模型的分子学习

作者: Khiem Le, Zhichun Guo, Kaiwen Dong, Xiaobao Huang, Bozhao Nan, Roshni Iyer, Xiangliang Zhang, Olaf Wiest, Wei Wang, Nitesh V. Chawla

arXiv:2406.06777v5 通告类型: replace-cross 摘要：具有强大任务处理能力的大语言模型（LLMs）已经在多个领域展现了显著的进步，超越了自然语言理解的范畴。然而，它们在化学领域的专业能力仍然受限，特别是在解决与分子相关的专业任务方面。这种挑战归因于它们仅使用普通的文本表示（如SMILES字符串）理解分子时固有的局限性。在本研究中，我们旨在通过为LLMs配备一个多模态外部模块，即MolX，来增强其理解分子的能力。特别地，我们不是直接使用SMILES字符串来表示分子，而是使用特定的编码器从SMILES字符串和2D分子图表示中提取细粒度特征，以输入给LLM。此外，还整合了一个手工设计的分子指纹，以利用其嵌入的专业知识。为了建立MolX与LLM文本输入空间之间的对齐，整个模型中的LLM在包括一系列任务的多样化策略下进行了预训练。实验证明，与不进行LLM微调的基准方法相比，我们的提议方法在4个下游的分子相关任务上表现出色，包括分子到文本的翻译和逆合成反应，分别只有0.53%和0.82%的可训练参数数量。

发布时间: 4/4/2025

查看原文

视频异常检测的网络系统：一篇教程与综述

作者: Jing Liu, Yang Liu, Jieyu Lin, Jielin Li, Liang Cao, Peng Sun, Bo Hu, Liang Song, Azzedine Boukerche, Victor C. M. Leung

arXiv:2405.10347v4 Announce Type: replace-cross 摘要：随着智能城市中 surveillance 摄像头的广泛应用以及在线视频应用的激增，公众安全和隐私保护的担忧逐渐增加，这推动了自动视频异常检测（VAD）成为人工智能（AI）社区中的基本研究任务。伴随着深度学习和边缘计算的发展，VAD 在智能城市和视频互联网新兴应用领域取得了显著的进步，逐渐超越了传统算法工程的研究范围，转向可部署的视频异常检测网络系统（NSVAD），成为 AI、IoVT 和计算领域交叉研究的热点。本文阐述了各种基于深度学习的 VAD 路径的基础假设、学习框架和适用场景，为初学者提供了全面的教程。此外，本文通过回顾近期进展和典型解决方案，详细阐述了核心概念，并聚合了可访问的最新研究资源，地址为 https://github.com/fdjingliu/NSVAD。最后，本文预测了未来的发展趋势，并讨论了如何结合 AI 和计算技术来解决现有研究挑战，推动开放机遇，为即将从事研究和工程工作的人员提供有价值的指导。

发布时间: 4/4/2025

查看原文