arXiv 论文列表

作者: Bowen Zheng, Enze Liu, Zhongfu Chen, Zhongrui Ma, Yue Wang, Wayne Xin Zhao, Ji-Rong Wen

arXiv:2504.04400v1 通告类型: cross 摘要: 生成推荐模型自回归地生成项目标识符以推荐潜在项目。现有方法通常采用一对一映射策略，其中每个项目由单个标识符表示。然而，这种方案存在一些问题，如低频项目语义建模不佳以及标记序列数据多样性有限。为了克服这些限制，我们提出了MTGRec，这是一种利用多标识符项目标记化来增强生成推荐器预训练标记序列数据的方法。我们的方法包含两个关键技术创新：多标识符项目标记化和有计划的推荐器预训练。对于多标识符项目标记化，我们采用RQ-VAE作为标记器主干，并将相邻训练周期的模型检查点视为语义相关的标记器。这使得每个项目可以关联多个标识符，从而允许单个用户交互序列被转换为多个标记序列，作为不同的数据组。对于有计划的推荐器预训练，我们引入了一种由数据影响估计指导的学习方案，在推荐器预训练过程中动态调整每个数据组的采样概率。在预训练完成后，我们使用单一标记器对模型进行微调，以确保推荐中的准确项目识别。在三个公开基准数据集上的广泛实验表明，在效果和可扩展性方面，MTGRec 显著优于传统的生成推荐基准模型。

发布时间: 4/8/2025

查看原文

未来proof自己：AI时代生存指南

作者: Taehoon Kim

arXiv:2504.04378v1 类型: cross 摘要:《使自己未来无忧》是一部实用指南，帮助读者在日常生活中导航快速变化的人工智能世界。这本书首先用简单、易于理解的语言解释计算机如何从数据中学习，并逐步介绍现代人工智能使用的方法。它展示了基本的机器学习理念如何发展成为能够识别图像、理解语言，甚至做出决策的先进系统。该指南还回顾了人工智能的历史，并强调了塑造其发展的重大突破。展望未来，本书探讨了集成人工智能与数字双胞胎、可穿戴设备和虚拟环境等新兴趋势。该文本旨在为广大读者设计，避免使用复杂的技术行话，并以清晰、简洁的语言呈现复杂的概念，使任何人都能掌握即将改变我们未来的技术。

发布时间: 4/8/2025

查看原文

iADCPS：基于增量元学习的演变 cyber-physical 系统时序异常检测

作者: Jiyu Tian, Mingchu Li, Liming Chen, Zumin Wang

arXiv:2504.04374v1 交叉类型：cross 摘要：对网络物理系统（Cyber-Physical Systems, CPS）进行异常检测（Anomaly Detection for Cyber-Physical Systems, ADCPS）对于识别故障和潜在攻击至关重要，这通过对传感器测量值和执行器状态的时间序列进行分析实现。然而，当前的方法在时间和空间两个维度上缺乏对数据分布变化的适应性，随着网络物理系统的进化，这一问题愈发突出。为了解决这一问题，我们提出了一种增量元学习方法，称为iADCPS，该方法可以通过有限的正常样本不断更新模型，以弥合随着时间变化的时间序列与历史时间序列之间的分布差距。具体来说，我们首先引入了一种时间混叠策略，以数据级别的一般化为目标，然后将该策略与一类元学习方法相结合，实现模型级别的泛化。此外，我们开发了一种非参数动态阈值，根据异常评分的概率密度自适应地调整阈值，而无需任何异常监督。我们使用三个公开可用的数据集PUMP、SWaT和WADI对iADCPS的有效性进行了实证评估。实验结果表明，我们的方法分别在PUMP、SWaT和WADI数据集上实现了99.0%、93.1%和78.7%的F1-Score，这优于最新的（State-of-the-Art, SOTA）CPS异常检测方法，特别是在不断进化的CPS上下文中。

发布时间: 4/8/2025

查看原文

StyleRec：写作风格转换中的提示恢复基准数据集

作者: Shenyang Liu, Yang Gao, Shaoyan Zhai, Liqiang Wang

arXiv:2504.04373v1 类型: cross 摘要: 提示恢复，从大型语言模型(LLMs)的输出中重建提示，随着LLMs的普及而变得越来越重要。大多数用户通过API访问LLMs，不使用内部模型权重，仅依赖输出和logits，这使得恢复过程变得复杂。本文探讨了一项独特的提示恢复任务，重点关注风格转换和改写提示的恢复，而非典型的问答任务。我们引入了一个使用LLM辅助创建的具有高质量保障的数据集，并测试了零样本、少量样本、突破性措施、步步为营、微调以及新型标准提示fallback等方法，以应对表现不佳的情况。结果显示，一次样本和微调方法能获得最佳效果，但突显了传统句子相似性度量在评估提示恢复中的不足。我们的贡献包括(1)基准数据集，(2)提示恢复策略的全面实验，以及(3)识别当前评估度量的局限性，所有这些都推进了不受输入提示结构限制的一般提示恢复研究。

发布时间: 4/8/2025

查看原文

大型语言模型有多准确地理解代码？

作者: Sabaat Haroon, Ahmad Faraz Khan, Ahmad Humayun, Waris Gill, Abdul Haddi Amjad, Ali R. Butt, Mohammad Taha Khan, Muhammad Ali Gulzar

arXiv:2504.04372v1 交叉公告类型：cross 摘要：大型语言模型（LLMs）越来越多地被用于代码修复和测试等后开发任务。这些任务的成功关键在于模型对代码的深刻理解。然而，LLMs真正理解代码的程度仍然很少被评估。衡量代码理解的程度具有挑战性，因为其抽象性质以及缺乏标准化的度量标准。此前，这通常是通过开发者调查进行评估的，但这种方法不适用于评估LLMs。现有的LLM基准主要集中在代码生成上，这与代码理解从根本上不同。此外，固定的基准很快就会过时，因为它们成为训练数据的一部分。本文提出了第一个针对LLMs理解代码能力的大规模实证研究。受变异测试的启发，我们使用LLM的故障查找能力作为其深层代码理解的替代指标。该方法基于这样的洞察：能够识别细微功能差异的模型必须很好地理解代码。我们在实际程序中注入故障，并要求LLM定位这些故障，确保规范足以进行故障定位。接下来，我们对有故障的程序应用语义保护断言（SPMs），并测试LLMs是否仍然能够找到故障，验证其对代码理解的信心。我们对670个Java和637个Python程序中的575,000个调试任务评估了九个流行的LLMs。我们发现，在应用SPMs的情况下，LLMs在81%的有故障的程序中失去了修复相同错误的能力，这表明对代码的理解较浅以及依赖于与语义无关的特性。此外，我们发现LLMs在程序的早期部分更好地理解代码，而不是后期。这表明LLMs的代码理解仍然受到词汇和语法特征的限制，而这些特征是为自然语言设计的token化方式所忽略的代码语义。

发布时间: 4/8/2025

查看原文

WeiDetect：基于威布尔分布的 federated learning 网络入侵检测系统中防毒瘤攻击防御方法

作者: Sameera K. M., Vinod P., Anderson Rocha, Rafidha Rehiman K. A., Mauro Conti

arXiv:2504.04367v1 交叉发布类型: cross 摘要：在数据量扩大的时代，确保数据隐私变得越来越关键，这给传统的基于AI的应用带来了重大挑战。此外，IoT设备的日益普及也带来了重大的网络安全挑战，使传统的网络入侵检测系统(NIDS)在应对不断演变的威胁方面变得无效。同时，隐私担忧和监管限制也限制了它们的部署。联邦学习（FL）已经作为一种有前景的解决方案出现，允许分散的数据模型训练，同时保持数据隐私，以解决这些问题。然而，尽管实施了保护隐私的技术，FL系统仍然容易受到对手攻击。此外，在FL场景中，客户端之间数据分布并不异质。我们提出了一种名为WeiDetect的联邦学习基于的NIDS的两阶段、服务器端防御机制，用于检测恶意参与者以应对这些挑战。在第一阶段，使用验证数据集对本地模型进行评估，生成验证分数。然后使用Weibull分布分析这些分数，从而识别和移除恶意模型。我们进行了实验以评估我们的方法在各种攻击设置中的有效性。我们的评估包括两个流行的数据集，CIC-Darknet2020和CSE-CIC-IDS2018，并且在非IID数据分布下进行了测试。我们的研究发现WeiDetect优于最先进的防御方法，最高可提高目标类召回率70%，并提高全局模型的F1分数1%到14%。

发布时间: 4/8/2025

查看原文

AutoPDL：自动提示优化for LLM代理

作者: Claudio Spiess, Mandana Vaziri, Louis Mandel, Martin Hirzel

arXiv:2504.04365v1 交叉类型：cross 摘要：大型语言模型（LLMs）的表现取决于其调用方式，这包括高级触发模式（例如，零样本、CoT、ReAct、ReWOO）和具体触发内容（指令和少样本示范）。手动调整这种组合既繁琐又容易出错，并且不适用于不同的LLMs或任务。因此，本文提出了AutoPDL，一种自动发现良好LLM代理配置的方法。我们的方法将此问题视为组合搜索空间中实体性和非实体性触发模式和示范的结构化自动化机器学习问题，并使用逐步淘汰高效导航该空间。我们介绍了一个使用PDL触发编程语言实现常用触发模式的库。AutoPDL解决方案是使用该库编写的人类可读、可编辑和可执行的PDL程序。该方法还支持源到源优化，允许人工参与的改进和重新使用。在三个任务和六种LLM（参数范围从8亿到70亿）上的评估显示，一致的准确性增益（9.5±17.5百分点），最高可达68.9个百分点，并揭示了所选触发策略在不同模型和任务之间有所不同。

发布时间: 4/8/2025

查看原文

REFORMER: 由ChatGPT驱动的数据合成框架提升Text-to-SQL模型

作者: Shenyang Liu, Saleh Almohaimeed, Liqiang Wang

arXiv:2504.04363v1 Announce Type: 跨领域摘要：现有的 Text-to-SQL 模型面临着训练数据不足的问题，这限制了它们对 SQL 查询在新领域应用的推动能力。为了解决这一挑战，已经采用了各种数据合成技术来生成更多多样化和高质量的数据。在本文中，我们提出了一种名为 REFORMER 的框架，该框架无需额外训练即可利用 ChatGPT 的优势，以适应新领域的（问题，SQL 查询）对的合成。我们的数据增强方法基于“检索与编辑”方法，在这种方法中，我们通过使用 ChatGPT 的 SQL 查询解释来填充掩蔽的问题，从而生成新的问题。此外，我们还展示了当适当应用时，循环一致性仍然是一个有价值的验证方法。我们的实验结果表明，REFORMER 一致地优于之前的数据增强方法。为进一步研究 ChatGPT 的能力并创建一个通用的数据增强方法，我们还通过改写数据集中的问题和改写由 ChatGPT 生成的新 SQL 查询的描述来生成新数据。我们的结果显示，改写由 ChatGPT 生成的问题有助于增强原始数据。

发布时间: 4/8/2025

查看原文

DDPT: 由扩散驱动的提示调优用于大型语言模型代码生成

作者: Jinyang Li, Sangwon Hyun, M. Ali Babar

arXiv:2504.04351v1 文本类型：交叉学科摘要：大规模语言模型（LLMs）在代码生成方面展示了出色的能力。然而，生成代码的质量高度依赖于所使用的提示结构和组成。编写高质量的提示是一个具有挑战性的任务，需要大量的提示工程知识和技能。为了推进基于LLM的代码生成中的提示工程技术自动化支持，我们提出了一种名为Diffusion-Driven Prompt Tuning（DDPT）的新型解决方案，该方案通过从高斯噪声生成最优提示嵌入来自动化提示工程。我们评估了基于扩散的优化可行性，并将最优提示嵌入抽象为一个指向最优嵌入的方向向量。我们使用LLMs给出的代码生成损失来帮助扩散模型在训练期间捕捉最优提示嵌入的分布。经过训练的扩散模型可以在采样阶段从噪声分布建模到最优分布的路径，评估结果表明，DDPT有助于提高代码生成的提示优化。

发布时间: 4/8/2025

查看原文

生成式大型语言模型，用于检测放射科报告中的错误

作者: Cong Sun, Kurt Teichman, Yiliang Zhou, Brian Critelli, David Nauheim, Graham Keir, Xindi Wang, Judy Zhong, Adam E Flanders, George Shih, Yifan Peng

arXiv:2504.04336v1 交叉类型公告摘要：在这项回顾性研究中，构建了一个包含两部分的数据集。第一部分包括由GPT-4使用指定提示生成的1,656份合成胸部放射学报告，其中828份是无错误的合成报告，828份包含错误。第二部分包括614份报告：2011年至2016年间，来自MIMIC-CXR数据库的307份无错误报告和基于这些MIMIC-CXR报告和指定提示生成的307份包含错误的相应合成报告。所有错误都被分类为四种类型：否定、左右、时间间隔变化和转录错误。然后，使用零样本提示、少样本提示或微调策略对包括Llama-3、GPT-4和BiomedBERT在内的几种模型进行了改进。最后，使用我们的构建数据集上的F1分数、95%置信区间（CI）和配对样本t检验对这些模型的性能进行了评估，并进一步由放射科医生评估了预测结果。使用零样本提示，微调后的Llama-3-70B-Instruct模型在以下F1分数上表现最佳：0.769用于否定错误，0.772用于左右错误，0.750用于时间间隔变化错误，0.828用于转录错误，整体F1分数为0.780。在实际评估阶段，两名放射科医生审查了模型输出的200份随机选择的报告。在这200份报告中，99份被两位放射科医生确认包含模型检测的错误，163份被至少一位放射科医生确认包含模型检测的错误。生成型大语言模型，在合成和MIMIC-CXR放射学报告上的微调，大大提高了放射学报告中的错误检测能力。

发布时间: 4/8/2025

查看原文