arXiv 论文列表

作者: Dongyuan Li, Satoshi Kosugi, Ying Zhang, Manabu Okumura, Feng Xia, Renhe Jiang

arXiv:2502.06117v1 类型: cross 摘要: 动态图聚类旨在检测和跟踪动态图中的时间变化聚类，揭示复杂现实动态系统的发展机制。基于矩阵分解的方法是实现这一目标有希望的途径；然而，这些方法通常在处理大规模动态图时面临可扩展性问题，并且计算时间较长。此外，它们往往缺乏鲁棒性，并且容易受到现实世界中的噪声数据的影响。为了解决这些问题，我们做出了三个关键贡献。首先，为了提高可扩展性，我们提出了时间分离矩阵分解，即将一个矩阵分为多个较小的矩阵进行独立分解，从而实现更快的计算。其次，为了提高鲁棒性，我们引入了双聚类正则化，该方法联合优化图嵌入和聚类，从而从图嵌入中过滤出噪声特征。第三，为了进一步提高有效性和效率，我们提出了选择性嵌入更新，仅在不同时间戳之间固定静态节点的嵌入，而更新动态节点的嵌入。在六个合成和五个真实世界基准上的实验结果表明，我们提出的方法具有可扩展性、鲁棒性和有效性。源代码可在 https://github.com/Clearloveyuan/DyG-MF 获取。

发布时间: 2/11/2025

查看原文

CSR-Bench: 评估计算机科学研究仓库部署中LLM代理的表现

作者: Yijia Xiao, Runhui Wang, Luyang Kong, Davor Golac, Wei Wang

arXiv:2502.06111v1 Announce Type: cross 摘要：计算机科学研究项目的日益复杂性要求更有效的工具来部署代码库。大型语言模型（LLMs），例如Anthropic Claude和Meta Llama，在各类计算机科学研究领域已经展示了显著的进步，包括自动化各种软件工程任务。为了评估LLMs在处理计算机科学研究项目中的复杂代码开发任务的效果，特别是针对NLP/CV/AI/ML/DM等主题，我们引入了CSR-Bench，一个计算机科学研究项目的基准测试。该基准测试从准确性、效率和部署脚本质量等多个方面评估LLMs，旨在探索它们在自主进行计算机科学研究方面的潜力。我们还介绍了一个全新的框架，CSR-Agents，该框架利用多个LLM代理来自动化计算机科学研究项目的GitHub代码库部署。具体而言，通过检查Markdown文件中的指令并对代码库结构进行解释，该模型生成并迭代改进bash命令，以便设置实验环境并部署代码以进行研究任务。CSR-Bench的初步结果显示，LLM代理可以显著增强代码库部署流程，从而提高开发人员的生产力并改善开发流程的管理。

发布时间: 2/11/2025

查看原文

电路调谐：一种机理方法用于识别参数冗余和精调神经网络

作者: Yueyan Li, Caixia Yuan, Xiaojie Wang

arXiv:2502.06106v1 计算机科学交叉领域摘要：机制可解释性研究旨在拆解模型以解释其行为。虽然近期研究集中于某种行为的静态机制，但模型内部的训练动态仍需进一步探索。本文中，我们开发了一种可解释的方法来微调模型并揭示学习背后的机制。我们首先提出了节点冗余的概念，将其作为固有维度的扩展，并从全新视角解释电路发现的理念。基于这一理论，我们提出了电路调优这一两阶段算法，该算法通过迭代进行电路发现来屏蔽无关边，并更新负责特定任务的剩余参数。实验表明，我们的方法不仅在广泛的任务上提高了性能，在保持通用能力的同时也具备扩展性。我们对微调之前、期间和之后的电路进行可视化和分析，提供了有关神经网络在学习过程中自我组织机制的新见解。

发布时间: 2/11/2025

查看原文

全面的对话AI聊天机器人评估框架

作者: Shailja Gupta, Rajesh Ranjan, Surya Narayan Singh

arXiv:2502.06105v1 通知类型: cross 摘要：对话式AI聊天机器人正在通过优化客户服务、自动化交易和增强用户体验等方式改变各行各业。然而，在金融服务业中，评估这些系统仍然是一项挑战，因为合规性、用户信任和运营效率至关重要。本文介绍了一种新型的评估框架，该框架系统地从四个维度评估聊天机器人：认知和对话智能、用户体验、运营效率以及道德和监管合规性。通过将高级AI方法与金融监管相结合，该框架架起了理论基础与实际部署挑战之间的桥梁。此外，我们还概述了未来研究方向，强调了在对话一致性、实时适应性和公平性方面的改进。

发布时间: 2/11/2025

查看原文

基于邻居列表的生成式重排rank在个性化推荐系统中的应用

作者: Shuli Wang, Xue Wei, Senjie Kou, Chi Wang, Wenshuai Chen, Qi Tang, Yinhua Zhu, Xiong Xiao, Xingxing Wang

arXiv:2502.06097v1 类别: cross 摘要：重排评估在现代多阶段推荐系统中发挥着至关重要的作用，可以通过重新排列初始排名列表来实现。由于组合搜索空间固有的挑战，当前一些研究采用了评估器-生成器范式，生成器生成可行序列，评估器根据列表效用的估计选择最佳序列。然而，这些方法仍然面临两个问题。首先，由于评估器和生成器之间的目标不一致问题，生成器倾向于适应暴露分布的局部最优解而非组合空间优化。其次，逐个生成目标项目的策略难以实现最优性，因为它忽视了后续项目的相关信息。为了解决这些问题，我们提出了一种利用邻居列表的生成重排模型（NLGR），旨在提高生成器在组合空间中的性能。NLGR 遵循评估器-生成器范式，并改进了生成器的训练和生成方法。具体而言，我们结合组合空间中的邻居列表来增强训练过程，使生成器能够感知相对得分并找到优化方向。此外，我们提出了一种新的基于采样的非自回归生成方法，允许生成器从当前列表灵活跳跃到任何邻居列表。在公共和工业数据集上的广泛实验验证了 NLGR 的有效性，并且我们已成功将 NLGR 部署到了美团外卖平台上。

发布时间: 2/11/2025

查看原文

检出后的序列变点定位后处理推理

作者: Aytijhya Saha, Aaditya Ramdas

arXiv:2502.06096v1 Announce Type: cross 摘要：本文解决了序贯变化点分析中一个基础但尚未充分探索的挑战：检测到变化后的推断问题。我们研究了仅使用自依赖停止时间的数据（在该时间点，序贯检测算法 $\mathcal A$ 声明检测到变化）来定位变化点的问题。我们首先在变更前后的分布已知的情况下，构建未知变化点的置信集。然后，我们将框架扩展到复合变更前后的场景。我们对观察空间和 $\mathcal A$ 没有任何假设——我们只需能够在模拟数据序列上运行 $\mathcal A$。总之，本文提供了在序贯变化点定位中既具有理论依据又实际有效的工具。

发布时间: 2/11/2025

查看原文

无率联合源渠编码及面向6G语义通信系统的架构设计蓝图

作者: Saeed R. Khosravirad

arXiv:2502.06095v1 联合源信道编码类型：交叉摘要：本文介绍了无率联合源信道编码（无率 JSCC）。该编码在设计上和优化上适用于大量的编码速率连续体，能够在该连续体内的任何速率下达到所需的失真度。我们进一步介绍了适应速率且稳定的通信链路操作，以适应无率 JSCC。该链路操作类似于一个“位管道”，其速率由每帧的位数确定，以及每帧中翻转的位数确定。因此，该链路操作是适应速率的，可以通过刺穿无率 JSCC 编码字以适应其长度（和编码速率）来匹配底层信道容量，并在时间帧之间保持位翻转比。接下来，介绍了一种新的自动编码器无率联合源信道编码代码家族。该代码家族称为 RLACS 代码（读作 relax 代码，代表无率和有损自动编码器信道和源编码）。该代码经过图像信号重构损失测试，显示出强大的性能，能够抵抗信道质量变化。RLACS 代码适用于最适合各种语义和有效性通信用例的语义失真情况。在论文的第二部分，我们探讨了语义通信的实际关注点，并提供了一个蓝图，依赖于对现有网络系统进行一些必要修改以设计语义网络系统。我们还概述了一个全面的开放研究问题和发展挑战列表，以实现一个实用的6G通信系统设计，该系统能够支持语义网络。

发布时间: 2/11/2025

查看原文

物理引导的基本模型在科学发现中的应用：以 aquatic science 为例

作者: Runlong Yu, Chonghao Qiu, Robert Ladwig, Paul Hanson, Yiqun Xie, Xiaowei Jia

arXiv:2502.06084v1 Announce Type: cross 摘要：基于物理的机器学习（PGML）已成为研究科学系统的一种普遍方法，因为它能够通过整合科学理论来增强机器学习（ML）模型。然而，大多数PGML方法都针对孤立且相对简单的任务进行了定制，这限制了它们在涉及多个相互作用过程和众多影响特性复杂系统的应用。在本文中，我们提出了一种名为\textbf{PGFM}（Physics-Guided Foundation Model）的模型，该模型将预训练的机器学习模型和基于物理的模型相结合，并利用它们的优点来改善对多个耦合过程的建模。为了有效地进行预训练，我们构建了一个包含广泛影响特性和由基于物理的模型生成的各种模拟变量的模拟环境系统。该模型在这种系统中进行预训练，并根据多任务目标自适应选择重要的特征交互。然后，我们使用真实的观察数据对模型进行微调，同时保持与质量守恒和能量守恒等已建立的物理原理的一致性。我们通过在实际湖泊中建模水温与溶解氧动力学来展示了此方法的有效性。提出的PGFM在使用基于物理的模型的多种科学领域中也具有广泛的应用前景。

发布时间: 2/11/2025

查看原文

大型语言模型中提示敏感性的基准测试

作者: Amirhossein Razavi, Mina Soltangheis, Negar Arabzadeh, Sara Salamat, Morteza Zihayat, Ebrahim Bagheri

arXiv:2502.06065v1 宣告类型: cross 摘要: 大型语言模型（LLMs）对提示表述的变化非常敏感，这可能显著影响它们生成准确响应的能力。在本文中，我们引入了一个新的任务——提示敏感性预测，以及一个名为PromptSET的数据集，旨在研究轻微提示变化对LLM性能的影响。以TriviaQA和HotpotQA数据集为基础，我们生成了提示的变化，并评估了这些变化在多个LLM上的有效性。我们使用相关任务中的最新方法进行了提示敏感性预测基准测试，包括基于LLM的自我评价、文本分类和查询性能预测技术。我们的研究发现现有方法在有效处理提示敏感性预测方面存在困难，强调了理解如何准确表达信息需求的重要性。

发布时间: 2/11/2025

查看原文

多模态数据融合与深度集成学习在农作物产量预测中的应用

作者: Akshay Dagadu Yewle, Laman Mirzayeva, Oktay Karaku\c{s}

arXiv:2502.06062v1 Announce Type: 横向摘要：本研究介绍了一种名为RicEns-Net的新颖深度集成模型，该模型通过多模态数据融合技术整合多种数据源以预测作物产量。研究特别关注合成孔径雷达（SAR）数据、来自Sentinel 1、2和3号卫星的光学遥感数据以及气象测量数据，如地表温度和降雨量。初始田间数据通过埃森和杨（EY）2023年开放科学挑战获取。主要目标是通过开发能够处理复杂环境数据的机器学习框架来提高作物产量预测的准确性。采用全面的数据工程过程从中超过100个潜在预测因子中选择了最具信息量的特征，将数据集减少到五个模态中的15个特征。这一步骤缓解了“维数灾难”并提高了模型性能。RicEns-Net架构在深度集成框架中结合了多种机器学习算法，通过整合每种技术的优势来提高预测准确性。实验结果表明，RicEns-Net的平均绝对误差（MAE）为341 kg/Ha（大致相当于该地区最低平均产量的5-6%），显著超过了包括EY挑战期间开发的模型在内的先前最先进的模型的性能。

发布时间: 2/11/2025

查看原文