arXiv 论文列表

作者: Feiyang Li, Peng Fang, Zhan Shi, Arijit Khan, Fang Wang, Dan Feng, Weihao Wang, Xin Zhang, Yongjian Cui

arXiv:2504.13534v1 Announce Type: cross 摘要：尽管链式思考（CoT）推理可以提高大型语言模型（LLMs）在复杂任务中的性能，但它仍然面临两个主要挑战：仅依赖LLMs生成推理链的低可靠性以及自然语言推理链对LLMs推理逻辑的干扰。为了解决这些问题，我们提出了CoT-RAG，这是一种具有三个关键设计的新型推理框架：(i) 知识图谱驱动的CoT生成，利用知识图谱调节LLMs生成推理链，从而提高推理的可靠性；(ii) 可学习的知识案例感知RAG，将检索增强生成（RAG）与知识图谱结合，以检索相关子案例和子描述，为LLMs提供可学习的信息；(iii) 虚拟程序提示执行，鼓励LLMs以更高的逻辑严谨性执行虚拟程序中的推理任务。我们在九个公共数据集上进行了全面评估，涵盖三种推理问题。与当前最先进的方法相比，CoT-RAG在准确率方面表现出显著的改进，范围从4.0%到23.0%。此外，在四个特定领域的数据集上进行测试时，CoT-RAG在准确性和高效执行方面表现出色，突显了其强大的实用性和可扩展性。

发布时间: 4/21/2025

查看原文

深度学习模型邂逅金融数据模态

作者: Kasymkhan Khubiev, Michail Semenov

arXiv:2504.13521v1 类别: cross 摘要：算法交易依赖于从各种金融数据源中提取有意义的信号，包括蜡烛图、挂单和撤单订单的统计信息、成交 volume 数据、限价订单簿以及新闻流动。尽管深度学习已经在处理非结构化数据方面取得了显着成功，并且在自然语言处理领域取得了重大进展，但将深度学习应用于结构化金融数据仍然是一个持续的挑战。这项研究探讨了将深度学习模型与金融数据模态的整合，旨在增强交易策略和组合优化中的预测性能。我们提出了一种将限价订单簿分析纳入算法交易的新方法，通过开发嵌入技术，并将基于图像的表示中的限价订单簿截图作为不同的输入通道进行处理。我们处理限价订单簿数据的方法在高频交易算法中达到了最新水平的性能，强调了深度学习在金融应用中的有效性。

发布时间: 4/21/2025

查看原文

大型语言模型用于验证网络协议解析器

作者: Mingwei Zheng, Danning Xie, Xiangyu Zhang

arXiv:2504.13515v1 类型：交叉摘要：网络协议解析器对于设备之间正确的安全通信至关重要。这些解析器中的漏洞可能会引入关键漏洞，包括内存破坏、信息泄露和拒绝服务攻击。评估解析器正确性的直观方法是将其实现与官方协议标准进行比较。然而，这种方法面临着挑战，因为协议标准通常用自然语言编写，而实现是用源代码编写的。现有方法，如模型检查、模糊测试和差异测试已经被用于发现解析器错误，但它们要么需要大量的人工努力，要么忽略了协议标准，限制了它们检测语义错误的能力。为了更自动地验证解析器实现与协议标准的一致性，我们提出了PARVAL，这是一个基于大型语言模型（LLMs）的多智能体框架。PARVAL利用大型语言模型的能力来理解自然语言和代码。它将协议标准和其实现都转换为统一的中间表示，称为格式规范，并进行差异比较以发现不一致之处。我们使用Bidirectional Forwarding Detection（BFD）协议对PARVAL进行了评估。我们的实验展示了PARVAL成功地识别了实现与其RFC标准之间的不一致，实现了5.6%的低假阳性率。PARVAL发现了七个独特的漏洞，包括五个之前未知的问题。

发布时间: 4/21/2025

查看原文

文化适应的认知测试统计验证：多区域系统评价

作者: Miit Daga, Priyasha Mohanty, Ram Krishna, Swarna Priya RM

arXiv:2504.13495v1 交叉类型: 公告摘要：本文系统性地回顾了用于不同人群的认知评估工具的文化适应方法和统计确认方法。该回顾考虑了六个关于文化适应方法的经典研究，这些研究涵盖了欧洲、亚洲、非洲和南美洲。研究结果表明，适当的文化适应需要整体模型相结合的统计方法，并且教育解释了MoCA-H评分26.76%的变异性。文化语言因素解释了MoCA-H在欧洲适应中的6.89%的变异性；然而，另一项针对巴西原住民群体适应改良版MMSE和BCSB的研究报告了出色的诊断性能，敏感性为94.4%，特异性为99.2%。使用曼彻斯特翻译评估检查表评估文化适应的互评者一致率为78.5%。论文的关键信息是社区反馈对于文化的适当准备是必要的，标准化的翻译协议也必须包括，同时需要稳健的统计验证方法来开发认知评估工具。该回顾为在全球日益多元的健康环境中进一步适应认知评估提供了基于证据的框架。

发布时间: 4/21/2025

查看原文

将局部意识注意力与变压器结合用于通用几何偏微分方程

作者: Minsu Koh, Beom-Chul Park, Heejo Kong, Seong-Whan Lee

arXiv:2504.13480v1 公告类型：交叉摘要：神经操作符作为学习由偏微分方程（PDEs）支配的映射的有前途的框架已经崭露头角，它们为传统的数值方法提供了基于数据的替代方案。尽管像Fourier神经操作符（FNO）这样的方法已经在性能上展示了显著成效，但它们对均匀网格的依赖限制了它们在复杂几何形状和不规则网格上的应用。最近，基于Transformer的神经操作符，特别是采用线性注意力机制的版本，在克服这些局限性以处理大规模PDE模拟方面展现了潜力。然而，这些方法主要侧重于全局特征聚合，常常忽视了对于准确解至关重要的细观动力学和局部PDE行为。为了应对这些挑战，我们提出了本地感知注意力Transformer（LA2Former），它借助K最近邻进行动态的切片处理，并结合全局-局部注意力以提升PDE建模能力。通过结合线性注意力进行高效的整体上下文编码以及对偶注意力捕捉复杂的局部交互，LA2Former实现了计算效率和预测准确性之间的最佳平衡。通过对六个基准数据集的广泛评估表明，LA2Former相对于现有的线性注意力方法，预测准确性提高了超过50%，同时在最优条件下也优于完全对偶注意力方法。这项工作强调了在复杂和不规则域上求解PDEs时基于Transformer的神经操作符中本地特征学习的重要性。

发布时间: 4/21/2025

查看原文

创建“全栈”混合推理系统，优先并增强人类智能

作者: Sean Koon

arXiv:2504.13477v1 交叉类型: 摘要：增强或混合智能的概念为结合人类和人工智能的能力提供了引人入胜的愿景，尤其是在需要人类智慧、专业知识或常识的任务中。不幸的是，人类推理可能会出现缺陷和短视，导致对个体产生不利影响，甚至对长期社会产生后果。尽管正在大力开发和优化混合推理中的人工智能方面，真正紧迫的是促进更加明智和智能的人类参与。能够增强批判性思维、创新、专业知识，甚至智慧的工具可能对于解决我们新兴未来面临的挑战至关重要。本文提出了一种基于生成型人工智能的工具开发方案，旨在增强人类解决一个问题的能力及其对技术方面的探索能力。文中还描述了一种高层次的模型，以一种方式整合人工智能和人类能力，这种方式集中了人类的参与和控制。

发布时间: 4/21/2025

查看原文

CodeVisionary：一种基于代理的框架，用于评估代码生成大型语言模型

作者: Xinchen Wang, Pengfei Gao, Chao Peng, Ruida Hu, Cuiyun Gao

arXiv:2504.13472v1 宣布类型: cross 摘要: 大规模语言模型（LLMs）在代码生成方面展示了强大的能力，强调了对严谨而全面的评估的迫切需求。现有的评估方法分为三种类型，包括以人为中心的、基于指标的和基于LLM的。鉴于以人为中心的方法劳动密集型，而基于指标的方法过度依赖参考答案，由于它们更强的上下文理解能力和更高的效率，基于LLM的方法正越来越受到关注。然而，基于LLM的方法的性能仍受到以下限制的制约：(1) 缺乏多源领域知识，(2) 对复杂代码的理解不足。为了克服上述局限性，我们提出了CodeVisionary，这是一种用于代码生成评估的第一个基于LLM的代理框架。CodeVisionary包括两个阶段：(1) 多分数知识分析阶段，旨在通过制定和执行逐步的评估计划来收集多源和全面的领域知识。(2) 基于谈判的评分阶段，涉及多名评委进行讨论，以更好地理解复杂的代码并就评估分数达成一致。广泛的实验表明，CodeVisionary在代码生成评估方面表现最佳，与最佳基线方法相比，在皮尔逊、斯皮尔曼和肯德尔-泰尔系数中分别平均提高了0.202、0.139和0.117。此外，CodeVisionary提供了详细的评估报告，有助于开发者识别不足并进行改进。CodeVisionary的资源可在 https://anonymous.4open.science/r/CodeVisionary 获取。

发布时间: 4/21/2025

查看原文

few-shot 时序动作定位的链式思维文字推理

作者: Hongwei Ji, Wulian Yun, Mengshi Qi, Huadong Ma

arXiv:2504.13460v1 类别: cross 摘要: 传统的时序动作定位（TAL）方法依赖于大量的详细标注数据，而少样本TAL通过仅使用少量训练样本来识别未见的动作类别，从而减少了对大数据的依赖。然而，现有的少样本TAL方法通常仅专注于视频级信息，忽视了文本信息所带来的有价值语义支持。因此，我们提出了一种新的基于链式推理的少样本时序动作定位方法，以提高定位性能。具体而言，我们设计了一种新颖的少样本学习框架，利用文本语义信息来增强模型捕捉动作共性和变异的能力，包括用于在不同级别对查询视频和支持视频进行对齐的语义感知文本-视觉对齐模块。同时，为了在文本级别更好地表达动作之间的时序依赖性和因果关系，以辅助动作定位，我们设计了一种类似于链式推理（CoT）的方法，逐步引导视觉语言模型（VLM）和大型语言模型（LLM）生成类似于CoT的文字描述，这些生成的文字比视觉特征更能捕捉动作的变化性。我们在公开的ActivityNet1.3和THUMOS14数据集上进行了广泛的实验。我们引入了第一个名为Human-related Anomaly Localization的数据集，并探讨了时序动作定位任务在人类异常检测中的应用。实验结果表明，我们提出的方法在单实例和多实例场景中显著优于现有方法。我们将会发布我们的代码、数据和基准。

发布时间: 4/21/2025

查看原文

使用VR为科学数据可视化增添新维度

作者: Daniela Ushizima, Guilherme Melo dos Santos, Zineb Sordo, Ronald Pandolfi, Jeffrey Donatelli

arXiv:2504.13448v1 Announce Type: cross 摘要：半个多世纪以来，计算机鼠标一直是与数字数据交互的主要工具，但它仍然是在探索复杂、多尺度科学图像时的限制因素。传统的二维可视化方法阻碍了对本是三维结构的直观分析。虚拟现实（VR）提供了一种变革性的替代方案，提供沉浸式且交互式的环境，以增强对数据的理解。本文介绍了ASCRIBE-VR，这是一个结合了AI驱动算法的沉浸式浏览与探索的自主解决方案虚拟平台，用于计算研究。ASCRIBE-VR 使多模态分析、结构评估和沉浸式可视化成为可能，支持先进的数据集的科学可视化，如X射线CT、磁共振和合成三维成像。我们的VR工具与Meta Quest兼容，可以消费基于AI的分割和迭代反馈过程的输出，以实现大规模三维图像的无缝探索。通过将AI生成的结果与VR可视化相结合，ASCRIBE-VR 提升了科学发现，弥合了材料研究中计算分析与人类直觉之间的差距，并将人类纳入环路与数字孪生相连接。

发布时间: 4/21/2025

查看原文

图的有界且均匀的能量基础分布外异常检测

作者: Shenzhi Yang, Bin Liang, An Liu, Lin Gui, Xingkai Yao, Xiaofang Zhang

arXiv:2504.13429v1 安全类型：跨域摘要：鉴于图在实际应用中的关键作用及其高安全要求，提高图神经网络（GNNs）检测分布外（OOD）数据的能力是一个迫切的研究问题。最近的工作GNNSAFE提出了一种基于负能量得分聚合的框架，显著提高了GNNs检测节点级OOD数据的表现。然而，我们的研究发现，在节点间聚合得分由于负能量得分和logit偏移的无界性，容易受到极端值的影响，这严重限制了GNNs在检测节点级OOD数据方面的准确性。在本文中，我们提出了一种名为NODESAFE的方法，通过添加两个优化项使得负能量得分有界，并缓解logit偏移，从而减少极端得分的生成。实验结果表明，我们的方法显著提高了GNNs检测OOD数据的能力，例如，在检测由结构操纵引起的OOD数据时，未暴露（暴露）OOD数据场景下的FPR95指标（越低越好）与当前最佳方法相比分别降低了28.4%（22.7%）。

发布时间: 4/21/2025

查看原文