arXiv 论文列表

作者: Georgia Sovatzidi, Michael D. Vasilakakis, Dimitris K. Iakovidis

arXiv:2408.03745v2 宣告类型：替换交叉摘要：已经提出了多种深度学习（DL）方法来处理图像分类任务。然而，尽管这些方法非常有效，它们缺乏解释性，因为它们无法解释或证明其结果。为了解决可解释图像分类的挑战，本文引入了一个新颖的框架，名为可解释直觉模糊认知图（I2FCMs）。直觉模糊认知图（iFCMs）已被提议作为FCMs的一个扩展，提供了一种自然机制，通过估计犹豫程度来评估其输出的质量，这是一个类似于人类决策犹豫的概念。在图像分类的背景下，犹豫被视为将图像分类到一个类别的不确定性程度。据我们所知，这是首次将iFCMs应用于图像分类。此外，引入的框架还具有以下新颖贡献：a) 一个专注于最具信息量的图像区域的特征提取过程；b) 一个学习算法，用于自动从数据中确定iFCM的直觉模糊互连，从而减少在定义图结构时的人工干预；c) 一种基于图像内容的固有可解释分类方法，使用语言术语提供其预测的理解解释。此外，提出的I2FCM框架可以应用于DL模型，包括卷积神经网络（CNN），使其更加可解释。I2FCM的有效性已经在公开可用的数据集上进行评估，并且结果表明它可以提供增强的分类性能，同时提供可解释的推理。

发布时间: 4/7/2025

查看原文

学习在测试时（学习）：具有表现力的隐藏状态的RNN

作者: Yu Sun, Xinhao Li, Karan Dalal, Jiarui Xu, Arjun Vikram, Genghan Zhang, Yann Dubois, Xinlei Chen, Xiaolong Wang, Sanmi Koyejo, Tatsunori Hashimoto, Carlos Guestrin

arXiv:2407.04620v3 宣告类型: replace-cross 摘要：自注意力在长上下文情况下表现良好，但其复杂度呈平方级增长。现有的RNN层具有线性复杂度，但在长上下文情况下，其性能受限于隐藏状态的表达能力。我们提出了一种实用的框架，用于实例化具有线性复杂度和表达性强的隐藏状态的序列建模层。关键的想法是将隐藏状态本身视作一个机器学习模型，并将更新规则视为自我监督学习中的一步。由于隐藏状态即使在测试序列上也被用于训练，因此我们将这些层称为测试时训练（TTT）层。我们考虑了两种实例化方法：TTT-Linear和TTT-MLP，其中隐藏状态分别是一个线性模型和一个两层MLP。我们在参数量从125M到1.3B的范围内评估了我们的实现，并将其与一个强大的Transformer和现代的RNN——Mamba进行了比较。与Transformer类似，TTT-Linear和TTT-MLP可以通过对更多令牌进行条件处理来持续降低困惑度，而Mamba在16k上下文后无法继续改进。虽然TTT-MLP在内存I/O方面仍存在挑战，但它在长上下文方面展示了更大的潜力，这暗示了未来研究的一个有希望的方向。

发布时间: 4/7/2025

查看原文

实时医疗对话语音摘要

作者: Khai Le-Duc, Khai-Nguyen Nguyen, Long Vo-Dang, Truong-Son Hy

arXiv:2406.15888v2 会议类型：替换交叉摘要：在医生与患者的对话中，识别医学相关的信息至关重要，这提出了对话总结的需求。在本文中，我们提出了一套初步部署的实时语音总结系统，该系统适用于工业领域的实际应用。该系统在每次对话中每N个语音片段后生成局部摘要，在对话结束时生成全局摘要。该系统在商业角度可以提升用户体验，技术角度可以减少计算成本。其次，我们提出了VietMed-Sum，据我们所知，这是第一个用于医疗对话的语音总结数据集。第三，我们首次利用大型语言模型和人类注释员协力创建医疗对话的黄金标准和合成摘要。最后，我们在VietMed-Sum上展示了最先进的模型的基线结果。所有代码、数据（英文翻译和越南文）和模型均可在线获得：https://github.com/leduckhai/MultiMed/tree/master/VietMed-Sum

发布时间: 4/7/2025

查看原文

ORLM: 一个用于自动优化建模的大规模模型训练可定制框架

作者: Chenyu Huang, Zhengyang Tang, Shixi Hu, Ruoqing Jiang, Xin Zheng, Dongdong Ge, Benyou Wang, Zizhuo Wang

arXiv:2405.17743v5 宣布类型: replace-cross 摘要：优化建模在将运筹学（OR）工具应用于解决实际问题中起着关键作用，但它们带来了挑战，并要求运筹学专家具备广泛的专门知识。随着大规模语言模型（LLMs）的出现，出现了新的机会来简化和自动化此类任务。然而，当前的研究主要依赖于闭源LLM，如GPT-4，以及大量的提示工程技术。这种依赖源于优化建模高质量训练数据集的稀缺，导致了成本高昂、处理时间延长以及隐私担忧。为了解决这些挑战，我们的工作是第一个提出了一条可行的道路，用于训练能够进行优化建模和开发求解器代码的开源LLM，最终能够更好地自动化优化建模和求解。特别地，我们设计了名为{\sc OR-Instruct}的半自动化数据合成框架，用于优化建模，它能够针对特定场景或模型类型进行定制化增强。此外，我们还引入了IndustryOR，这是第一个用于评估LLM解决实际OR问题的工业基准。我们使用合成数据（称为ORLMs，https://github.com/Cardinal-Operations/ORLM）训练了多个7B规模的开源LLM，这些LLM展示了显著增强的优化建模能力，并在NL4OPT、MAMO和IndustryOR基准测试中取得了竞争力的表现。另外，我们的实验还强调了扩展律和强化学习在进一步增强ORLM性能方面的潜力。论文还讨论了ORLM在实际工业应用中的工作流程和人机交互范式。

发布时间: 4/7/2025

查看原文

VietMed: Vietnamese 医学领域自动语音识别数据集及基准

作者: Khai Le-Duc

arXiv:2404.05659v3 宣告类型: 替换-交叉摘要：由于隐私限制，医疗领域的公开语音识别数据集短缺。在这项工作中，我们介绍了 VietMed - 一个包含16小时带标签的医疗语音、1000小时未带标签的医疗语音和1200小时未带标签的一般领域语音的越南语音识别数据集。据我们所知，基于七个方面来看，VietMed 是目前世界上规模最大的公共医疗语音识别数据集：总时长、讲者数量、疾病、记录条件、讲者角色、独特的医疗术语和口音。此外，在总时长方面，VietMed 也是目前规模最大的公共越南语音数据集。另外，我们首次展示了涵盖所有ICD-10疾病组和国家内所有口音的医疗语音识别数据集。此外，我们发布了第一个公开的大规模预训练模型 w2v2-Viet 和 XLSR-53-Viet，以及第一个公开的大规模微调模型用于医疗语音识别。即使在预训练阶段没有使用任何医疗数据，我们的最佳预训练模型 XLSR-53-Viet 在测试集上的错误率从 51.8% 降至 29.6%（相对减少超过 40%），非常擅长医疗领域。所有代码、数据和模型都已公开：https://github.com/leduckhai/MultiMed/tree/master/VietMed。

发布时间: 4/7/2025

查看原文

在交换演算中编程分布式集体过程

作者: Giorgio Audrito, Roberto Casadei, Ferruccio Damiani, Gianluca Torta, Mirko Viroli

arXiv:2401.11212v3 宣告类型：replace-cross 摘要：近期趋势，如物联网（IoT），表明在几乎所有类型的环境中，密集且多尺度地部署计算设备的愿景。一个突出的工程挑战是编程此类计算生态系统的集体自适应行为。这需要能够捕捉诸如编队（动态合作设备的集合）和集体任务（由编队共同执行的活动）等概念的抽象。在本文中，我们考虑一组与邻居交互并在几乎同步的感觉-计算-交互轮次中执行设备，其中计算是由单个程序映射传感值和入站消息到输出和出站消息给出的。为了支持编程整个计算集合，我们提出了分布式集合过程的抽象，可以同时定义编队形成逻辑及其集体任务。我们通过eXchange Calculus（XC）对抽象进行形式化，这是一种基于邻域值（从邻域到值的映射）的核心函数语言，其中状态和交互通过单一原始操作交换来处理，并在FCPP语言中提供相应的实现。然后，我们使用两个案例研究来使用分布式集合过程：多跳消息传播和分布式监控空间属性。最后，我们讨论了该抽象的特征及其对不同类型分布式计算应用的适用性。

发布时间: 4/7/2025

查看原文

使用生成模型对数据存储系统进行性能建模

作者: Abdalaziz Rashid Al-Maeeni, Aziz Temirkhanov, Artem Ryzhikov, Mikhail Hushchyn

arXiv:2307.02073v2 宣布类型: 替换-交叉摘要：高精度系统建模是工业数据分析的主要领域之一。系统模型及其数字孪生体被用于在各种条件下预测其行为。我们使用基于机器学习的生成模型开发了多个存储系统的模型。该系统由多个组件组成：具有不同RAID方案的硬盘驱动器（HDD）和固态驱动器（SSD）存储池，以及缓存。每个存储组件由一个概率模型表示，该模型描述了组件在IOPS和延迟方面的性能概率分布，这取决于其配置和外部数据负载参数。实验结果表明，IOPS预测的误差范围为4-10%，延迟预测的误差范围为3-16%，这取决于系统的组件和模型。这些预测与Little's定律的皮尔逊相关系数高达0.99，可用于监督模型的可靠性的检查。此外，我们还提供了一组新的数据集，可用来基准测试回归算法、条件生成模型以及机器学习中的不确定性估计方法。

发布时间: 4/7/2025

查看原文

PaperBench：评估AI复制AI研究的能力

作者: Giulio Starace, Oliver Jaffe, Dane Sherburn, James Aung, Jun Shern Chan, Leon Maksin, Rachel Dias, Evan Mays, Benjamin Kinsella, Wyatt Thompson, Johannes Heidecke, Amelia Glaese, Tejal Patwardhan

arXiv:2504.01848v2 通告类型: 代替摘要: 我们介绍了 PaperBench，这是一个评估 AI 代理复制最新 AI 研究能力的基准测试。代理必须从头开始复制 20 篇 ICML 2024 幕后论文和口头论文，包括理解论文贡献、开发代码库和成功执行实验。为了进行客观评估，我们开发了评分标准，将每个复制任务逐级分解为具有明确评分标准的小子任务。总计，PaperBench 包含 8,316 个个体可评分的任务。评分标准与每篇 ICML 论文的作者共同开发，以确保准确性和现实性。为了实现可扩展的评估，我们还开发了一个基于大语言模型的裁判来自动评分，并对裁判的性能进行评估，创建了一个单独的基准测试。我们对 PaperBench 进行了几个前沿模型的评估，发现经过测试的性能最好的代理，Claude 3.5 Sonnet (New) 配合开源框架，平均复制得分为 21.0%。最后，我们招募了顶级 ML 博士研究生尝试 PaperBench 的一部分，发现模型尚未超越人类基线。我们已将代码开源（链接见 https://github.com/openai/preparedness），以促进未来研究，了解 AI 代理的 AI 工程能力。

发布时间: 4/7/2025

查看原文

物质聊天：一种多模态材料科学LLM

作者: Yingheng Tang, Wenbin Xu, Jie Cao, Jianzhu Ma, Weilu Gao, Steve Farrell, Benjamin Erichson, Michael W. Mahoney, Andy Nonaka, Zhi Yao

arXiv:2502.13107v2 公告类型: 更新摘要：理解并预测无机材料的性质对于加速材料科学的进步以及在能源、电子等领域驱动应用具有重要意义。通过多模态大型语言模型（LLMs）将材料结构数据与基于语言的信息相结合，为这些努力提供了巨大的潜力，通过增强人类与AI的交互。然而，一个关键挑战在于将原子结构的完整信息整合到LLMs中。在本文中，我们介绍了一种名为MatterChat的多功能结构感知多模态LLM，将材料结构数据和文本输入统一到一个一致的模型中。MatterChat使用一个桥梁模块，有效地将预训练的机器学习原子间势与预训练的LLM对接，降低训练成本并增强灵活性。我们的结果显示，MatterChat在材料性质预测和人机交互方面显著提高了性能，超过了诸如GPT-4之类的通用LLM。我们还展示了其在更高级的科学推理和逐步材料合成等应用方面的实用性。

发布时间: 4/7/2025

查看原文

PAFFA: 预谋动作以实现快速 Agents

作者: Shambhavi Krishna, Zheng Chen, Yuan Ling, Xiaojiang Huang, Yingjie Li, Fan Yang, Xiang Li

arXiv:2412.07958v2 宣布类型：替换摘要：现代AI助手在自然语言理解和工具使用方面取得了显著进展，并且正在逐渐与网页界面进行交互。然而，当前高度依赖重复的LLM驱动HTML解析的方法在计算上非常昂贵且容易出错，特别是在处理动态网页界面和多步任务时。我们引入了一种PAFFA（预计算动作以提高快速代理的速度和准确性）方法，这种方法利用了一种新颖的推理期技术来使LLM在互联网上完成任务时更快更准确，而无需针对特定任务进行训练。PAFFA构建了一个“动作库”，利用基础LLM的参数化知识来预计算适用于多种任务的浏览器交互模式。通过在任务之间战略性地重用LLM的推理——无论是通过“Dist-Map”来进行任务无关的关键交互网页元素的识别，还是通过“Unravel”来进行首次接触时对新任务/站点的有状态探索——PAFFA将推理时间减少了87%，同时保持了稳健的性能（相较于基准，步骤准确率分别为0.57和0.50）。此外，“Unravel”能够根据探索更新其动作库的能力使其能够在未见过的网站上进行泛化和适应。总之，这项工作展示了LLM推理序列可以在不同提示之间泛化，提供了一种以次线性词元计数扩展互联网规模数据推理期技术的方法。

发布时间: 4/7/2025

查看原文