arXiv 论文列表

LeForecast: 企业混合时间序列智能预测

作者: Zheng Tan, Yiwen Nie, Wenfa Wu, Guanyu Zhang, Yanze Liu, Xinyuan Tian, Kailin Gao, Mengya Liu, Qijiang Cheng, Haipeng Jiang, Yingzheng Ma, Wei Zheng, Yuci Zhu, Yuanyuan Sun, Xiangyu Lei, Xiyu Guan, Wanqing Huang, Shouming Liu, Xiangquan Meng, Pengzhan Qu, Chao Yang, Jiaxuan Fan, Yuan He, Hongsheng Qi, Yangzhou Du

arXiv:2503.22747v1 类型：交叉学科摘要：工业领域对多学科预测的需求激增，多个行业需要规划和预测以优化智能业务管理，例如需求预测、产品规划、库存优化等。具体而言，这些任务期待智能方法从依次收集的历史数据中学习，然后预见最可能的趋势，即时间序列预测。该任务的挑战在于解释复杂的商业环境以及模型的效率和泛化能力。鉴于大规模基础模型在众多任务上的出色表现，我们提出了一个针对时间序列任务定制的企业智能平台 \leforecast{}。该平台整合了高级时间序列数据和多源信息的解释，并结合了大型基础模型（Le-TSFM）、多模态模型和混合模型的三支柱建模引擎，以提取见解、预测或推断未来，并驱动企业运营中多个领域的优化。该框架由模型池、模型特征模块以及针对原始模型架构的两种不同的融合方法组成。实验结果验证了我们路线融合概念的有效性：基于路由的融合网络以及大型和小型模型的协调，导致了模型冗余开发和维护的高成本。本文回顾了 \leforecast{} 的部署及其在三个工业应用场景中的表现。我们的全面实验表明，\leforecast{} 是一个深刻且实用的平台，具有高效的竞争性能。我们也希望这项工作能够启发时间序列技术在加速企业中的研究和应用。

发布时间: 4/1/2025

查看原文

大型语言模型在医疗查询中对用户驱动因素的易感性

作者: Kyung Ho Lim, Ujin Kang, Xiang Li, Jin Sung Kim, Young-Chul Jung, Sangjoon Park, Byung-Hoon Kim

arXiv:2503.22746v1 Announce Type: cross 摘要：大型语言模型（LLMs）在医疗保健领域中的应用越来越广泛，但它们的可靠性受到用户驱动因素的影响，如问题表述和临床信息的完整性。在这项研究中，我们探讨了误导性框架、信息来源权威性、模型个性以及关键临床细节的省略如何影响LLM输出的诊断准确性和可靠性。我们进行了两项实验：一项是在不同程度上引入具有不同坚定性的误导性外部意见（扰动测试），另一项是移除特定类别的患者信息（消融测试）。使用公共数据集（MedQA和Medbullets），我们评估了 proprietary 模型（GPT-4o、Claude 3.5 Sonnet、Claude 3.5 Haiku、Gemini 1.5 Pro、Gemini 1.5 Flash）和开源模型（LLaMA 3 8B、LLaMA 3 Med42 8B、DeepSeek R1 8B）。所有模型都对用户驱动的误导性信息敏感，尤其是对具有明确和权威语言的模型影响更大。坚定的语气对准确性的负面影响最大。在消融测试中，省略体检发现和实验室结果导致了最显著的性能下降。尽管 proprietary 模型基线准确性较高，但在误导性信息下的表现急剧下降。这些结果强调了良好结构的提示和完整临床背景的重要性。用户应避免权威性地表述误导性信息，并提供完整的临床细节，尤其是在复杂病例中。

发布时间: 4/1/2025

查看原文

自适应集成分层注意力（AILA）

作者: William Claster, Suhas KM, Dhairya Gundechia

arXiv:2503.22742v1 宣告类型: cross 摘要: 我们提出了一种称为自适应综合分层注意力(AILA)的神经网络架构，它将密集的跳跃连接与不同机制相结合，以适应性地在网络层间重用特征。我们在三个具有挑战性的任务上评估了AILA：各种商品和指数（标普500、黄金、美国期货、咖啡、小麦）的价格预测，使用CIFAR-10数据集进行图像识别，以及使用IMDB电影评论数据集的情感分析。在所有情况下，AILA在与强大的深度学习基线（LSTMs、Transformer和ResNets）进行比较时表现相当，但在训练和推理时间的大幅度减少的情况下达到这一水平。特别地，我们实现了并测试了该模型的两个版本 - AILA-Architecture 1，它在层间使用简单的线性层作为连接机制，以及AILA-Architecture 2，它实现了一种注意力机制，以选择性地关注先前层的输出。在这两种架构中，每个模型独立地针对特定任务进行了单独训练。结果表明，AILA的自适应跨层连接通过在多个网络深度上灵活地重用相关特征，提供了稳健的增益。因此，AILA方法在现有架构的基础上提供了一个延伸，它可以改进长序列建模、优化计算速度的图像识别以及实际中的SOTA分类性能。

发布时间: 4/1/2025

查看原文

CSPO：跨市场协同股票价格运动预测与伪波动性优化

作者: Sida Lin, Yankai Chen, Yiyan Qi, Chenhao Ma, Bokai Cao, Yifei Zhang, Xue Liu, Jian Guo

arXiv:2503.22740v1 横向公告类型：交叉摘要：股票市场作为金融市场的重要基石，在定量金融领域将预测股票价格变动置于核心挑战之中。新兴的学习导向方法已在此方面取得显著进展，捕捉现代市场的复杂且不断演变的数据模式。随着股票市场的迅速扩张，它呈现出两种特性，即股票外生性和波动率异质性，增加了价格预测的复杂性。具体来说，股票外生性反映了外部市场因素对价格变动的影响，而波动率异质性则展现了在价格波动背景下预测难度的差异。在本文中，我们引入了跨市场协同与伪波动优化（CSPO）的框架。具体而言，CSPO 实现了一种有效的深度神经架构，以利用外部期货知识。这丰富了股票嵌入的跨市场洞察，从而增强了 CSPO 的预测能力。此外，CSPO 采用伪波动率来建模特定于股票的预测置信度，使优化过程能动态适应，以提高准确性和鲁棒性。我们广泛的实验涵盖了工业评估和公开基准测试，强调了 CSPO 在现有方法中的优越性能以及所有提出模块的有效性。

发布时间: 4/1/2025

查看原文

半机械数据：融合人类与AI生成的训练数据

作者: Kai North, Christopher Ormerod

arXiv:2503.22736v1 宣言类型: cross 摘要：传统上用于大规模评估的自动评分（AS）系统使用的是小型统计模型，这些模型需要大量的手工评分数据来做出准确的预测，这可能会花费大量时间和成本。生成性大型语言模型在许多任务上进行了训练，并显示出出色的泛化能力，只需少量甚至无需额外数据即可应对新任务。虽然这些模型在做预测时需要大量计算能力，但仍需要一定程度的微调才能满足运营标准。有证据表明，即使在使用少量数据进行微调的情况下，这些模型也能超越人类之间的协议水平。基于此，我们提出了一种模型蒸馏管道，在这种管道中，一个大型生成模型（教师）教授一个小得多的模型（学生）。教师在一小部分训练数据上进行训练，然后用于对剩余的训练数据进行评分，这些评分数据随后用于训练学生模型。我们将由此产生的数据集称为“半机械人数据”，因为它结合了人类和机器评分的响应。我们的研究结果表明，使用“半机械人数据”训练的学生模型在性能上与使用整个数据集训练时相当，但仅需要原始手工评分数据的10%。

发布时间: 4/1/2025

查看原文

祖先毒蛇：通过在线视觉原型学习增强选择性 discriminant 空间模型以实现高效的稳健判别方法

作者: Jiahao Qin, Feng Liu, Lu Zong

arXiv:2503.22729v1 类型: cross 摘要：在计算机图形学领域，能够在非平稳数据流中持续学习，适应新的视觉模式并缓解灾难性遗忘的能力至关重要。现有方法往往难以捕捉和发展变化中的视觉概念的本质特征，这阻碍了其在动态图形任务中的应用。在本文中，我们提出了一种名为 Ancestral Mamba 的新颖方法，该方法将在线原型学习集成到选择性判别空间模型中，以实现高效和鲁棒的在线持续学习。我们方法的关键组件包括 Ancestral Prototype Adaptation (APA)，它持续精炼和构建已学习的视觉原型，以及 Mamba Feedback (MF)，它提供针对性的反馈以适应具有挑战性的视觉模式。APA 允许模型持续适应其原型，并在其祖先知识的基础上解决新的挑战，而 MF 作为一种针对性的反馈机制，则专注于具有挑战性的类别并精炼它们的表示。在针对图形的数据集（如 CIFAR-10 和 CIFAR-100）上的广泛实验表明，相比最先进的基准方法，Ancestral Mamba 能够显著提高准确性和遗忘缓解性能。

发布时间: 4/1/2025

查看原文

零样本大语言模型在环人类循环强化学习中：用以替代奖励塑造的人类反馈

作者: Mohammad Saif Nazir, Chayan Banerjee

arXiv:2503.22723v1 宣传类型:横跨领域摘要：强化学习经常面临着奖励不匹配的挑战，其中智能体优化给定的奖励但未能表现出期望的行为。当奖励函数激励偏离真实目标的代理行为时，这种情况尤为常见。虽然有人类在环（HIL）方法可以有所帮助，但它们可能会加剧这一问题，因为人类容易受到可能导致不一致、主观或不匹配反馈的偏差的影响，这复杂化了学习过程。为了解决这些问题，我们提出了两个关键贡献。首先，我们拓宽了零样本、即用型大语言模型（LLMs）在奖励塑造中的应用，不仅限于自然语言处理（NLP），还扩展到连续控制任务中。利用LLMs直接提供反馈，我们替代了基于人类反馈训练的代理模型，这些模型往往受到其训练数据中的偏差影响。其次，我们引入了一种混合框架（LLM-HFBF），该框架允许LLMs识别并纠正人类反馈中的偏差，同时将这些反馈纳入奖励塑造过程中。LLM-HFBF框架通过解决LLMs（如缺乏领域特定知识）和人类监督（如固有的偏差）的局限性，创建了一个更为平衡和可靠的系统。通过使人类反馈偏差标记和纠正成为可能，我们的方法提高了强化学习的性能并减少了对潜在有偏差的人类指导的依赖。实验证明，有偏差的人类反馈显著降低了性能，平均时段奖励（AER）从无偏方法的28.472下降到有保守偏差的7.039。相比之下，基于LLM的方法即使在自定义边缘案例场景中也能保持与无偏反馈匹配的AER。

发布时间: 4/1/2025

查看原文

为什么 representation 工程有效：视觉-语言模型中的理论与实证研究

作者: Bowei Tian, Xuntao Lyu, Meng Liu, Hongyi Wang, Ang Li

arXiv:2503.22720v1 交叉公告类型：cross 摘要：表示工程化（RepE）已成为通过关注高层次表示而非单个神经元或电路来增强AI透明度的强大范式。它已在改进可解释性和控制方面证明有效，表明表示可以在大规模语言模型（LLMs）中涌现、传播并对最终模型输出产生影响。然而，在视觉-语言模型（VLMs）中，视觉输入可以凌驾于事实性的语言知识之上，导致与现实相悖的幻想式响应。为了解决这一挑战，我们首次尝试将RepE扩展到VLMs，分析了多模态表示的保存和演变。基于我们的发现，并借鉴成功的RepE应用，我们开发了一个理论框架，使用主特征向量来解释跨层神经活动的稳定性，揭示了RepE的潜在机制。我们通过实证验证这些内在特性，展示了它们的广泛适用性和重要性。通过将理论洞察与实证验证相结合，这项工作将RepE从描述工具转变为结构化的理论框架，为提高AI的健壮性、公平性和透明度开辟了新的方向。

发布时间: 4/1/2025

查看原文

TRIDIS：一套全面的中世纪和早期现代手写文本语料库，用于HTR和NER

作者: Sergio Torres Aguilar

arXiv:2503.22714v1 类型: cross 摘要: 本文介绍了TRIDIS（Tria Digita Scribunt），一个开源的中世纪和早期现代手稿语料库。TRIDIS汇集了多个遗留集合（所有出版物均使用了开放许可），并包含了大量元数据描述。虽然之前的研究曾引用了该语料库的某些部分，但在这里我们提供了一个统一的概述，重点在于其构成。我们描述了以下内容：(i) 每个主要子语料库的叙述性、时间性和编辑性背景；(ii) 其半外交通稿规则（扩展、规范化、标点符号）；(iii) 驱动异常检测在联合嵌入空间中的挑战性领域测试拆分策略；以及(iv) 使用TrOCR和MiniCPM2.5进行初步基准实验，比较随机和基于异常的测试分区。总体而言，TRIDIS旨在激发中世纪和早期现代文本遗产领域的 robust 手写文本识别 (HTR) 和命名实体识别 (NER) 联合研究。

发布时间: 4/1/2025

查看原文

基于微调变换器模型的 chirp 定位：一个概念验证研究

作者: Nooshin Bahador, Milad Lankarany

arXiv:2503.22713v1 交叉公告类型摘要：光谱图在时频信号分析中至关重要，广泛应用于音频处理和计算神经科学中。脑电图（EEG）光谱图中的类似调频图案（标记为线性或指数频率扫频）是癫痫动态的关键生物标志物，但缺乏自动化工具用于检测、定位和特征提取。本研究通过在合成光谱图上微调Vision Transformer (ViT)模型，并结合Low-Rank Adaptation (LoRA) 提高适应性，填补了这一空白。我们生成了100000个带有调频参数的合成光谱图，创建了首个大规模的调频定位基准。这些光谱图使用线性或指数频率扫频、高斯噪声和平滑处理来模拟神经调频。一个经过回归适应的ViT模型预测了调频参数。LoRA对注意层进行了微调，使预训练骨干能够高效更新。训练使用了均方误差损失和AdamW优化器，并采用学习率调度和早期停止来防止过拟合。只针对三个特征：调频起始时间（起始时间）、调频起始频率（起始频率）和调频结束频率（结束频率）。性能通过皮尔逊相关系数评估预测和实际标签之间的关系。结果显示出强烈的对齐性：调频起始时间的皮尔逊相关系数为0.9841，推断时间稳定（137至140秒），错误分布中的偏差也最少。该方法提供了一个在EEG时频表示中进行调频分析的工具，填补了关键的方法空白。

发布时间: 4/1/2025

查看原文