arXiv 论文列表

作者: Taibiao Zhao, Xiaobing Chen, Mingxuan Sun

arXiv:2504.07360v1 宣布类型: 交叉摘要: 将大型语言模型（LLMs）适应时间序列预测 presents 独特的挑战，因为时间序列数据本质上是连续的，而 LLMs 在处理时操作的是离散的标记。尽管 LLMs 在自然语言处理（NLP）和其他结构化领域取得了成功，但在保持预测准确性和可解释性的同时将时间序列数据与基于语言的表示形式对齐仍然是一项重大挑战。现有的方法尝试将时间序列数据重新编程为文本形式，但这些方法往往在提供有意义且可解释的结果方面存在不足。在这篇论文中，我们提出了一种用于时间序列预测的多级文本对齐框架，该框架不仅提高了预测准确性，还增强了时间序列表示的可解释性。我们的方法将时间序列分解为趋势、季节性和残差成分，然后将这些成分重新编程为特定组件的文本表示。我们引入了一种多级对齐机制，在该机制中，特定组件的嵌入与预训练的词令牌对齐，从而有助于更具解释性的预测。在多个数据集上的实验表明，我们的方法在准确性和可解释性方面都优于现有的最先进的模型。

发布时间: 4/11/2025

查看原文

一种快速遗传探索与代理利用的平衡方法用于超参数优化

作者: Chul Kim, Inwhee Joe

arXiv:2504.07359v1 交叉类型: 预发布摘要：本文提出了一种新的用于超参数优化（HPO）的方法，该方法平衡了探索和利用。虽然进化算法（EAs）在HPO中显示出潜力，但它们在有效的利用方面经常遇到困难。为了解决这一问题，我们将线性代理模型集成到遗传算法（GA）中，使得多种策略的平滑集成成为可能。这种结合提高了利用性能，在现有的HPO方法上实现了平均1.89个百分点的改进（最大6.55个百分点，最小-3.45个百分点）。

发布时间: 4/11/2025

查看原文

量子启发遗传算法在智慧城市声学中实现稳健的源分离

作者: Minh K. Quan, Mayuri Wijayasundara, Sujeeva Setunge, Pubudu N. Pathirana

arXiv:2504.07345v1 Announce Type: cross 摘要：城市声音的杂乱无章为依赖于准确声景分析的智能城市应用带来了重大挑战。有效地分析这些复杂的声景，它们通常由重叠的声音来源、多样的声学事件和不可预测的噪声水平构成，需要精确的声源分离。当可供使用的训练数据有限时，这一任务变得更加复杂。本文提出了一种新颖的量子启发遗传算法（p-QIGA）进行声源分离，从量子信息理论中汲取灵感，以增强智能城市中的声景分析能力。通过利用量子叠加进行有效的解空间探索，并利用纠缠来处理相关声源，p-QIGA 即使在数据有限的情况下也能实现稳健的分离。这些量子启发的概念被结合到遗传算法框架中，以优化声源分离参数。我们在两个数据集上展示了我们的方法的有效性：TAU Urban Acoustic Scenes 2020 Mobile数据集，代表了典型的城市声景；和Silent Cities数据集，捕捉了COVID-19疫情期间更安静的城市环境。实验结果表明，p-QIGA 在嘈杂环境中实现了与最先进的方法相当的准确率，同时在噪声和有限训练数据的鲁棒性方面表现出色，可在嘈杂环境中实现高达8.2 dB的信干比（SDR），并且仅使用10%的训练数据即可超过基准方法2 dB。这项研究强调了p-QIGA 在推动智能城市中的声信号处理方面，特别是在噪声污染监控和声学监视方面的潜力。

发布时间: 4/11/2025

查看原文

宙斯：零样本LLM指令在多模态医学成像中的联合分割指令

作者: Siyuan Dai, Kai Ye, Guodong Liu, Haoteng Tang, Liang Zhan

arXiv:2504.07336v1 宣布类型: cross 摘要：基于UNet和Transformer为基础架构的医学图像分割已经取得了显著的成功。然而，现实世界的临床诊断往往需要整合领域知识，尤其是文本信息。多模态学习由于提供了视觉和文本模态的解决方案而被视作一种解决方案，但收集配对的视觉-语言数据集既昂贵又耗时，带来了显著的挑战。受大型语言模型（LLMs）在众多跨模态任务中表现出色能力的启发，我们提出了一种新颖的视觉-LLM联合框架来解决这些问题。具体而言，我们引入了冻结的LLM用于根据相应的医学图像进行零样本指令生成，模仿了放射学检查和报告生成的过程。为了更好地逼近实际诊断过程，我们从多模态放射学图像（如T1-w或T2-w MRI和CT）中生成更精确的文本指令。基于LLMs在语义理解和丰富知识方面的出色能力，该过程强调从不同模态中提取特殊特征并整合信息以实现最终的临床诊断。通过生成的文本指令，我们提出的联合分割框架可以在无需预先收集视觉-语言数据集的情况下处理多模态分割。为了评估我们提出的方法，我们进行了全面的实验并与有影响力的基础方法进行了比较，统计结果和可视化案例分析证明了我们新方法的优越性。

发布时间: 4/11/2025

查看原文

Objaverse++: 精选高质量注解的3D对象数据集

作者: Chendi Lin, Heshan Liu, Qunshu Lin, Zachary Bright, Shitao Tang, Yihui He, Minghao Liu, Ling Zhu, Cindy Le

arXiv:2504.07334v1 宣布类型: cross 摘要: 本文介绍了Objaverse++，这是Objaverse的一个精心挑选的子集，该子集增加了由人类专家提供的详细属性注释。大规模3D内容生成的最近进展得益于类似Objaverse这样的大型数据集，Objaverse包含超过80万个从互联网收集的3D对象。尽管Objaverse代表了目前可用的最大3D资产集合，但由于其主要包含低质量模型，其实用性受到限制。为了解决这一限制，我们手动为10,000个3D对象添加了详细的属性注释，包括美学质量评分、纹理颜色分类、多对象组合标志、透明度特性等。然后，我们训练了一个能够为Objaverse数据集其余部分标注标签的神经网络。通过实验和生成结果的用户研究，我们证明了在我们质量导向子集上预训练的模型在图像到3D生成任务中比在Objaverse的大数据集上训练的模型表现更好。此外，通过对我们的标签过滤后的多个数据子集进行比较，我们的结果显示，数据质量越高，训练损失收敛得越快。这些发现表明，仔细的整理和丰富的注释可以弥补原始数据集规模不足的问题，这可能会提供一种更高效的路径来开发3D生成模型。我们发布了包含约50万个精心挑选的3D模型的增强数据集，以促进在3D计算机视觉下游任务方面的进一步研究。在未来，我们计划将注释扩展到整个Objaverse数据集。

发布时间: 4/11/2025

查看原文

识别肾细胞癌Whole Slide Images中的感兴趣区域

作者: Mohammed Lamine Benomar, Nesma Settouti, Eric Debreuve, Xavier Descombes, Damien Ambrosetti

arXiv:2504.07313v1 研究类型: 多领域交叉摘要: 组织病理学图像包含大量的信息，这使得诊断成为一项极其耗时和繁琐的任务。在这项研究中，我们开发了一种完全自动化的系统，用于在肾细胞癌（RCC）的整个切片图像（WSI）中检测感兴趣的区域（ROIs），以减少分析时间并帮助病理学家做出更准确的决策。该提出的方案基于一个高效的纹理描述符——主导旋转局部二值模式（DRLBP）和颜色转换，以揭示和利用在微观高倍放大水平上巨大的纹理变异性。因此，DRLBPs 保留了结构信息，并利用局部区域中的幅度值以增强区分能力。对于相关ROIs的分类，分别在彩色通道上对WSIs patch进行特征提取以形成直方图。接着，我们使用最频繁出现的模式作为特征选择步骤，以丢弃无信息特征。比较和评估了1800个源自12个整个切片图像的肾癌组织块的不同分类器的性能。此外，由于图像数据集较小，可以调查基于迁移学习的深度学习方法以对图像块进行分类，使用深层特征和微调方法。获得了很高的识别准确性，分类器非常有效，最佳精度结果为99.17%，使用SVM实现。此外，迁移学习模型表现出色且具有可比的性能，使用ResNet-50获得的最高精度为98.50%。提出的方案结果表明一种非常有效的图像分类方法，并证明了其在识别ROIs方面的有效性。本研究介绍了一种自动系统，用于在全切片组织病理学图像中检测与肾癌诊断相关的区域。

发布时间: 4/11/2025

查看原文

PAYADOR：面向交互式叙事和角色扮演游戏的结构化数据语言模型接地的一种 minimalist 方法

作者: Santiago G\'ongora, Luis Chiruzzo, Gonzalo M\'endez, Pablo Gerv\'as

arXiv:2504.07304v1 宣布类型：交叉摘要：每当交互式叙事（IS）系统收到玩家输入时，它都会面临世界更新问题。经典的方法是将该输入映射到预先编写的动作，这可能会严重限制玩家的自由意志。当期望的体验强调即兴创作，如角色扮演游戏（RPGs）时，这个问题至关重要。在本文中，我们提出了PAYADOR，这是一种不同的方法，侧重于预测动作的结果而不是表示动作本身。为了实现这一方法，我们将大型语言模型与虚构世界的最小表示相结合，取得了令人鼓舞的结果。我们开源了这一贡献，以便可以对其进行适应和用于其他与RPGs的协同创造力相关的研究。

发布时间: 4/11/2025

查看原文

多智能体LLM系统中响应一致性建模：共享上下文与独立上下文方法的比较分析

作者: Tooraj Helmi

arXiv:2504.07303v1 交叉公告类型摘要：大型语言模型（LLMs）在多智能体系统（MAS）中越来越多地被用于增强协作问题解决和交互式推理。最近的进展使LLMs能够作为自主智能体运行，能够理解多个主题间的复杂交互。然而，在MAS中部署LLMs带来了与上下文管理、响应一致性以及可扩展性相关的问题，尤其是在智能体必须在内存限制下运行并处理噪声输入的情况下。尽管先前的研究已经在基于LLM的MAS中探索了优化上下文共享和响应时延的方法，但这些努力通常重点是集中式配置或去中心化配置，每种配置都有其独特的权衡。在本文中，我们开发了一种概率框架，用于分析共享上下文与独立上下文配置对响应一致性和响应时间的影响。我们引入了响应一致性指数（RCI）作为评估上下文限制、噪声和智能体间依赖性对系统性能影响的指标。我们的方法与现有研究的不同之处在于，我们专注于内存约束与噪声管理之间的相互作用，为我们提供关于在相互依赖的主题环境中优化可扩展性和响应时间的见解。通过这种分析，我们对不同配置如何影响基于LLM的多智能体系统的效率提供了全面的理解，从而指导更稳健架构的设计。

发布时间: 4/11/2025

查看原文

多阶段分析血液培养管理：机器学习预测、专家建议评估和大语言模型自动化

作者: Fatemeh Amrollahi, Nicholas Marshall, Fateme Nateghi Haredasht, Kameron C Black, Aydin Zahedivash, Manoj V Maddali, Stephen P. Ma, Amy Chang, MD Phar Stanley C Deresinski, Mary Kane Goldstein, Steven M. Asch, Niaz Banaei, Jonathan H Chen

arXiv:2504.07278v1 交叉类型公告摘要：血液培养常常缺乏明确的指征而过度进行，这给医疗资源带来了压力，并加剧了由于全球短缺而加重的不适当抗生素使用压力。在对135483份急诊部门（ED）血液培养订单的研究中，我们利用结构化电子医疗记录（EHR）数据和提供者笔记开发了机器学习（ML）模型，借助大型语言模型（LLM）。结构化模型的AUC从0.76提高到0.79，加入了笔记嵌入后达到0.81。与人类审查员应用的专家建议框架以及基于LLM的流程相比，我们的ML方法在不牺牲敏感性的情况下提高了特异性。专家建议框架的敏感性为86%，特异性为57%；而LLM保持了较高的敏感性（96%），但过度分类了阴性结果，降低了特异性（降至16%）。这些发现表明，结合结构化和非结构化数据的ML模型可以在超越现有护理标准的情况下提高诊断监管效果。

发布时间: 4/11/2025

查看原文

评估基于参数的神经网络和变异性量子电路的训练性能

作者: Michael K\"olle, Alexander Feist, Jonas Stein, Sebastian W\"olckert, Claudia Linnhoff-Popien

arXiv:2504.07273v1 Announce Type: cross 摘要：近年来，神经网络（NNs）在机器学习领域推动了重大进展。然而，随着任务的复杂性增加，NNs往往需要大量的可训练参数，这增加了计算和能量需求。变量子电路（VQCs）提供了一个有希望的替代方案：它们利用量子力学捕捉复杂的相互关系，并且通常需要较少的参数。在本文中，我们在简单的监督学习和强化学习任务上评估了NNs和VQCs，检查了具有不同参数规模的模型。我们模拟了VQCs，并在实际的量子硬件上执行了训练过程的选定部分，以近似实际的训练时间。我们的结果表明，尽管训练时间较长，但VQCs可以在性能上与NNs匹敌，同时使用了显著较少的参数。随着量子技术和算法的进步，以及VQC架构的改进，我们认为VQCs有望成为某些机器学习任务的优势选择。

发布时间: 4/11/2025

查看原文