arXiv 论文列表

FreqTSF：通过捕捉频域内变量间和变量内的变化进行时间序列预测

时间序列预测（TSF）在电力转换、医疗监控和智能农业等广泛应用中极为重要。尽管深度学习方法已被提出用于处理时间序列数据并取得了优越的性能，但由于忽略了频率域中的变量内和变量间变化，它们在预测长期时间序列方面的能力有限。为解决这一问题，我们提出了FreqBlock，通过频率变换模块获取频率表示。随后，受频率域中固有的Kramer-Kronig关系（KKRs）启发，设计了实部和虚部之间的频率交叉注意力，以获得增强的频率表示并捕捉变量内变化。然后，我们使用inception块混合信息以捕捉变量间的相关性。我们的主干网络FreqTSF通过连接多个FreqBlocks采用残差结构，以避免退化问题。在理论层面上，我们证明了所提出的两个模块可以将每个FreqBlock计算的时间和内存复杂度从$\mathcal{O}(L^2)$显著降低到$\mathcal{O}(L)$。在三个基准数据集上的实证研究表明，与最先进的方法相比，FreqTSF的整体相对MSE降低了15\%，整体相对MAE降低了11\%。代码可在\url{https://github.com/HITshenrj/FreqTSF}获取。

发布时间: 9/20/2024

查看原文

SurgPLAN++：在线与离线推理的通用手术阶段定位网络

手术阶段识别对于帮助外科医生理解手术视频至关重要。现有研究更多关注在线手术阶段识别，通过利用先前的帧来预测当前帧。尽管取得了显著进展，但它们将任务形式化为一系列帧级分类，导致缺乏整个手术过程的全局上下文和预测的不连贯性。此外，除了在线分析外，准确的离线手术阶段识别在回顾性分析中也具有重要的临床需求，而现有的在线算法未能充分分析整个视频，从而限制了离线分析的准确性。为了克服这些挑战并增强在线和离线推理能力，我们提出了一种通用的手术阶段定位网络，名为SurgPLAN++，基于时间检测原理。为了确保对手术过程的全面理解，我们为SurgPLAN++设计了一种阶段定位策略，通过阶段提案在整个视频中预测阶段片段。对于在线分析，为了生成高质量的阶段提案，SurgPLAN++采用了一种数据增强策略，通过镜像、中心复制和下采样将流式视频扩展为伪完整视频。对于离线分析，SurgPLAN++利用其全局阶段预测框架，在每次在线推理步骤中持续优化先前的预测，从而显著提高阶段识别的准确性。我们进行了广泛的实验以验证其有效性，SurgPLAN++在在线和离线模式下均取得了显著的性能，优于最先进的方法。源代码可在https://github.com/lxj22/SurgPLAN-Plus获取。

发布时间: 9/20/2024

查看原文

ELIZA再解读：世界上第一个聊天机器人原本并非为聊天机器人而设计

arXiv:2406.17650v2 公告类型: 替换摘要: ELIZA，常被认为是世界上第一个聊天机器人，由约瑟夫·魏泽鲍姆在20世纪60年代初编写。魏泽鲍姆并非有意发明聊天机器人，而是为了构建一个研究人机对话以及解释和误解重要认知过程的平台。他的初衷被ELIZA的名声所掩盖，这在很大程度上归因于其创造的时机巧合以及它意外地进入公众视野。本文为ELIZA的创造提供了丰富的历史背景，展示了ELIZA如何从人工智能技术历史中的一些核心线索的交汇点中诞生。我还简要讨论了ELIZA如何进入世界，以及其意外的传播，加上编程语言的几次巧合变化，导致了人们误以为ELIZA原本就是作为聊天机器人设计的，并且使得原始的ELIZA在历史上消失了50多年。

发布时间: 9/20/2024

查看原文

ChatGPT能否进行解释性推理？溯因推理基准测试

解释性推理是提出和评估假设以提供解释的过程，有时被称为溯因推理或溯因推断。生成式人工智能是一组基于新型算法的人工智能模型，用于生成文本、图像和声音。本文提出了一套用于评估人工智能程序进行解释性推理能力的基准，并利用这些基准来确定领先的生成式人工智能模型ChatGPT在多大程度上能够进行解释性推理。基准测试结果显示，ChatGPT在许多领域中表现出了创造性和评估性推理能力，尽管其局限在语言和视觉模式上。本文反驳了ChatGPT及其类似模型无法进行解释、理解、因果推理、意义和创造性的观点。

发布时间: 9/20/2024

查看原文

FoME：一种基于自适应时间横向注意力缩放的脑电图基础模型

arXiv:2409.12454v1 公告类型: 交叉摘要: 脑电图(EEG)是神经科学和临床应用中测量和记录脑活动的重要工具，但其潜力受到信号异质性、低信噪比和有限标注数据集的限制。本文提出了一种名为FoME(脑电图基础模型)的新方法，使用自适应时间横向注意力缩放来解决上述挑战。FoME在一个包含1.7TB头皮和颅内EEG记录的多样化数据集上进行了预训练，包含7.45亿个参数，训练了1,096,000步。我们的模型引入了两项关键创新:时间-频率融合嵌入技术和自适应时间横向注意力缩放(ATLAS)机制。这些组件协同捕捉复杂的时频EEG动态，使FoME能够适应不同数据流中的变化模式，并促进稳健的多通道建模。在四个下游任务中的评估显示，FoME在分类和预测应用中表现优异，始终达到最先进的结果。总之，FoME为EEG分析建立了一个新的范式，提供了一个多功能的基础，推动了神经科学及相关领域的脑机接口、临床诊断和认知研究。我们的代码将在https://github.com/1061413241/FoME上提供。

发布时间: 9/20/2024

查看原文

生成式人工智能的下一步：多模态大型语言模型在科学教育中的变革作用

arXiv:2401.00832v3 公告类型: 替换摘要: 人工智能（AI），特别是基于大型语言模型（LLM）的系统，在教育领域的整合显示出增强教学和学习体验的潜力。然而，像GPT-4与视觉（GPT-4V）这样的多模态大型语言模型（MLLMs）的出现，能够处理包括文本、声音和视觉输入在内的多模态数据，开启了教育中丰富、个性化和互动学习环境的新时代。基于多媒体学习理论，本文探讨了MLLMs在科学教育核心方面的变革作用，通过展示创新的教学场景来实现。MLLMs的可能应用范围从内容创建到为学习提供量身定制的支持，促进科学实践中的能力培养，并提供评估和反馈。这些场景不仅限于基于文本和单一模态的格式，还可以是多模态的，从而增加个性化、可访问性和潜在的学习效果。除了许多机会外，数据保护和伦理考虑等挑战变得更加突出，需要建立强大的框架以确保负责任的整合。本文强调了在实施MLLMs时采取平衡方法的必要性，即技术应作为教育者的补充而非替代，从而确保在科学教育中有效且合乎伦理地使用AI。它呼吁进一步研究，以探索MLLMs对教育者角色演变的影响，并将讨论扩展到科学教育以外的其他学科。通过探讨潜力、挑战和未来影响，我们旨在为MLLMs在科学教育及更广泛领域的变革轨迹提供初步理解。

发布时间: 9/20/2024

查看原文

通过解耦风格-内容信息和超像素一致性实现内窥镜图像分割的领域泛化

频繁的监测对于根据个体发展胃肠道（GI）癌前病变的可能性进行分层是必要的。在临床实践中，白光成像（WLI）以及窄带成像（NBI）和荧光成像等补充模式被用于评估风险区域。然而，由于模态间的领域差异，当模型在一个模态上训练并在另一个模态上测试时，传统的深度学习（DL）模型的性能会下降。在我们之前的方法中，我们使用了一种基于超像素的方法，称为“SUPRA”，通过颜色和空间距离有效地学习领域不变信息，以生成像素组。这项早期工作的一个主要局限性是，聚合过程没有利用结构信息，这使得它在分割任务中表现不佳，尤其是在息肉和异质颜色分布的情况下。因此，在这项工作中，我们提出了一种使用实例归一化和实例选择性白化（ISW）进行风格-内容解耦的方法，以在结合SUPRA时提高领域泛化能力。我们在两个数据集上评估了我们的方法：EndoUDA Barrett's Esophagus和EndoUDA息肉，并将其性能与三种最先进（SOTA）方法进行了比较。我们的研究结果表明，与基线和SOTA方法相比，在目标领域数据上的性能显著提升。具体而言，我们的方法在息肉数据集上分别比基线和三种SOTA方法提高了14%、10%、8%和18%。此外，它在Barrett's Esophagus数据集上超过了第二好的方法（EndoUDA）近2%。

发布时间: 9/20/2024

查看原文

基于多类分类器的故障预测与人工匿名训练以保障数据隐私

arXiv:2209.02275v2 公告类型: 替换摘要: 本文提出了一种新颖的非侵入式系统故障预测技术，利用开发者提供的可用信息和原始日志中的最少信息（而非挖掘整个日志），同时确保数据完全由数据所有者私有。开发了一种基于神经网络的多类分类器用于故障预测，使用人工生成的匿名数据集，结合遗传算法（步骤）、模式重复等技术进行训练和测试。所提出的机制完全将用于训练的数据集与实际的私有数据解耦。此外，采用多准则决策（MCDM）方案来优先处理符合业务需求的故障。结果显示，在不同参数配置下，故障预测具有高准确性。从更广泛的角度来看，任何分类问题，不仅仅是故障预测，都可以使用所提出的机制通过人工生成的数据集来执行，而无需查看实际数据，只要输入特征可以转换为二进制值（例如，来自私有二进制分类器的输出），并能提供分类即服务。

发布时间: 9/20/2024

查看原文

插值视频大语言模型：以无训练方式实现更长序列的大语言模型

arXiv:2409.12963v1 公告类型: 交叉摘要: 大型语言模型 (LLMs) 的进步激发了多种将视频模态整合的策略。一种关键方法是 Video-LLMs，它通过一个可优化的接口将复杂的视频编码器与 LLMs 连接起来。然而，由于计算和数据限制，这些 Video-LLMs 通常预训练为仅处理短视频，限制了它们在理解更长视频内容方面的广泛应用。此外，微调 Video-LLMs 以处理更长的视频成本高昂。因此，在完全无需训练的环境下探索 Video-LLMs 的插值变得至关重要。本文首先识别了插值 Video-LLMs 的主要挑战：(1) 视频编码器和模态对齐投影仪是固定的，阻止了将额外帧整合到 Video-LLMs 中，(2) LLM 主干在内容长度能力上有限，这使得处理增加的视频令牌数量变得复杂。为解决这些挑战，我们提出了一种特定的 Video-LLMs 插值方法 (INTP-Video-LLMs)。我们引入了一种替代的视频令牌重排技术，绕过了固定视频编码器和对齐投影仪的限制。此外，我们引入了一种无需训练的 LLM 上下文窗口扩展方法，使 Video-LLMs 能够理解相应增加的视觉令牌数量。

发布时间: 9/20/2024

查看原文

提示也是程序！理解开发者如何构建包含提示的软件

arXiv:2409.12447v1 公告类型: 交叉摘要: 生成式预训练模型的引入，如GPT-4，带来了一个被称为提示工程的现象，即模型用户在尝试完成任务时反复编写和修改提示。在软件应用中使用这些AI模型实现智能功能需要通过开发者编写的提示来控制的API。这些提示驱动了流行软件产品中的AI体验，可能触及数百万用户。尽管提示驱动的软件影响日益增长，但其开发过程及其与编程的关系却鲜为人知。在这项工作中，我们认为某些形式的提示是程序，提示的开发是编程中的一个独特现象。我们将其称为提示编程。为此，我们通过与20位在各种上下文、模型、领域和提示复杂性中从事提示开发的开发者进行访谈，使用Straussian扎根理论来理解提示编程。通过这项研究，我们提出了14个关于提示编程的观察。例如，提示程序员不是构建代码的心理模型，而是通过与模型互动来发展对模型在提示上的行为及其独特特性的心理模型。尽管先前研究表明专家具有完善的心理模型，但我们发现，即使是有数十个提示且每个提示经过多次迭代的提示程序员，仍然难以建立可靠的心理模型。这导致了快速且非系统化的开发过程。总的来说，我们的观察表明提示编程与传统软件开发有显著不同，这促使了支持提示编程的工具的创建。我们的发现对软件工程从业者、教育者和研究者具有重要意义。

发布时间: 9/20/2024

查看原文