arXiv 论文列表

作者: Alexej Schelle

arXiv:2504.07140v2 宣布类型: 替换-交叉摘要：本文提出了一种基于生成对抗网络（GANs）的加密模型。通过动态生成十进制数字来实现RTF-8数据的加密和解密，这些数字通过简单的加法规则和所考虑字母表的维数模数将字母字符串转换为整数表示形式进行加密和解密。公有动态密钥对应的二进制数与由特定GAN配置定义的公共参考密钥的二进制数相对应。对于由GAN加密器定义的具有双射映射的可逆加密，可以通过将GAN加密的公钥与加密文本一起从发送者传输到接收者，实现安全的文本加密。利用上述技术，可以通过分成分量加密和解密文本邮件字符串来实现安全的文本邮件传输，总密钥大小可高达$10^{8}$位，这些密钥定义了由GAN生成的随机十进制数。从当前模型中我们可以断言，只要特定配置的GAN加密模型的用户不知道GAN加密电路和配置，加密文本可以比RSA加密更高效、更安全地传输。

发布时间: 4/15/2025

查看原文

探索兔子洞：LLM生成的针对心理健康群体的攻击叙事中Emergent偏见的出现

作者: Rijul Magu, Arka Dutta, Sean Kim, Ashiqur R. KhudaBukhsh, Munmun De Choudhury

arXiv:2504.06160v3 宣告类型: replace-cross 摘要：大型语言模型（LLMs）已被证明对某些群体表现出不平衡的偏见。然而，LLMs 对高风险群体实施无端针对性攻击的研究仍然未被充分探索。我们的论文提出了三项新颖贡献：（1）明确评估 LLM 生成的针对高度脆弱心理健康群体的攻击；（2）一种基于网络的框架，用于研究相对偏见的传播；（3）对这些攻击中产生的相对程度污名化程度的评估。对一个最新发布的大型偏见审计数据集的分析揭示，心理健康实体在攻击叙述网络中占据了核心位置，这体现在显著更高的接近中心性平均值（p值 = 4.06e-10）和紧密聚类（基尼系数 = 0.7）。借助于污名化理论的社会学基础，我们的污名化分析表明，与生成链中的初始目标相比，针对与心理健康障碍相关目标的标签化成分增加了。综上所述，这些见解揭示了大型语言模型结构倾向加剧有害言论的倾向，并强调了需要适当的缓解方法。

发布时间: 4/15/2025

查看原文

Optuna vs Code Llama：大语言模型是超参数调整的新范式吗？

作者: Roman Kochnev, Arash Torabi Goodarzi, Zofia Antonina Bentyn, Dmitry Ignatov, Radu Timofte

arXiv:2504.06006v2 声明类型: replace-cross 摘要：最优化的超参数选择对于最大化神经网络性能至关重要，尤其是在模型变得越来越复杂的情况下。本文探讨了利用大型语言模型（LLMs）进行超参数优化的可行性，通过使用LoRA微调参数高效的Code Llama版本。适应后的LLM能够生成针对各种神经网络架构的准确且高效的超参数建议。与依赖于密集计算的尝试-错误过程的传统方法如Optuna不同，我们的方法在均方根误差（RMSE）方面达到了竞争力或更优的结果，同时显著减少了计算开销。我们的研究结果表明，基于LLM的优化不仅能匹配如树状结构的帕金森估计器（TPE）等最先进的技术的性能，还能大大加速调优过程。这使得LLM成为资源受限环境中快速实验的有前途的替代方案，特别是在计算效率至关重要的情况下，例如边缘设备和移动平台。除了提高效率，该方法还提供了在各种任务中的一致性能和时间节省，突显了其鲁棒性和通用性。所有生成的超参数都被包含在LEMUR神经网络（NN）数据集中，该数据集公开可用，作为超参数优化研究的开源基准。

发布时间: 4/15/2025

查看原文

基于注意力的多尺度 temporal 融合网络用于多模式过程不确定模式故障诊断

作者: Guangqiang Li, M. Amine Atoui, Xiangshun Li

arXiv:2504.05172v2 宣布类型: replace-cross 摘要：在多模式过程中进行故障诊断对于确保工业系统的安全操作至关重要。它面临的一个尚未解决的巨大挑战是，来自不同模式的监控数据之间的显著分布差异使得模型难以提取与系统健康状况相关的共享特征表示。针对这一问题，本文提出了一种新的方法，即基于注意力的多尺度时序融合网络。多尺度深度卷积和门控循环单元被用来提取多尺度上下文局部特征和长期短期特征。实例规范化被应用于抑制模式特定信息。此外，设计了一种时间注意力机制，专注于具有更高跨模式共享信息的关键时间点，从而提升故障诊断的准确性。所提出的模型已应用于Tennessee Eastman过程数据集和三相流设施数据集。实验结果表明，所提出的模型实现了优异的诊断性能，同时保持了较小的模型尺寸。源代码将可在GitHub https://github.com/GuangqiangLi/AMTFNet上获取。

发布时间: 4/15/2025

查看原文

面向解释的干预措施以实现人工智能模型定制：为终端用户赋能以个性化定制黑盒AI在Rhinocytology中的应用

arXiv:2504.04833v2 通知类型: 交叉替换摘要：人工智能（AI）在现代社会中的集成正在改变个人完成任务的方式。在高风险领域，确保人类对AI系统的控制仍然是一个关键的设计挑战。本文提出了一种针对黑盒AI模型的新型用户自定义开发（End-User Development, EUD）方法，使用户能够编辑解释并通过对准干预影响未来的预测。通过结合可解释性、用户控制和模型适应性，所提出的方法促进了以人为本的人工智能（Human-Centered AI, HCAI），促进了人类与适应性强且用户定制的AI系统的共生关系。

发布时间: 4/15/2025

查看原文

通用项标记化以实现可迁移生成推荐

作者: Bowen Zheng, Hongyu Lu, Yu Chen, Wayne Xin Zhao, Ji-Rong Wen

arXiv:2504.04405v2 宣布类型: 横向替代摘要：近年来，生成推荐已经逐渐成为一种有前景的范式，吸引了大量研究兴趣。基本框架包括一个项目编码器，它将每个项目表示为一个代码序列，作为其标识符，并且一个生成推荐器，它通过自回归生成目标项目标识符来预测下一个项目。然而，在现有的方法中，编码器和推荐器通常都是特定领域的，限制了它们在新领域的有效转移或适应能力。为此，我们提出了一种通用项目编码approach UTGRec，这是一种为了在多个领域中可以转移的生成推荐而设计的通用项目编码方法。具体来说，我们设计了一个通用项目编码器，通过适应多模态大型语言模型（MLLM）来编码丰富的项目语义。通过设计树状结构的代码本，我们将内容表示离散化为相应的代码以进行项目编码。为了有效地在多个领域中学习通用项目编码器，我们在我们的方法中引入了两个关键方法。对于原始内容的重构，我们使用双重轻量级解码器从离散表示重构项目文本和图像，以捕捉内容中嵌入的一般知识。对于协作知识集成，我们假设同时出现的项目是相似的，并通过共现对齐和重构来整合协作信号。最后，我们提出了一种联合学习框架，以跨多个领域预训练和适应可转移的生成推荐器。在四个公开数据集上的广泛实验表明，UTGRec 在与传统和生成推荐基准相比时表现出优越性。

发布时间: 4/15/2025

查看原文

基于多标识符项标记预训练生成推荐器

作者: Bowen Zheng, Enze Liu, Zhongfu Chen, Zhongrui Ma, Yue Wang, Wayne Xin Zhao, Ji-Rong Wen

arXiv:2504.04400v2 宣告类型: replace-cross 摘要：生成式推荐以自回归的方式生成项目标识符，以推荐潜在项目。现有方法通常采用一对一映射策略，其中每个项目由单一标识符表示。然而，这种方案存在一些问题，例如低频项目的不理想的语义建模以及令牌序列数据中的有限多样性。为克服这些局限性，我们提出了一种MTGRec方法，其利用多标识符项目标记化来扩充生成式推荐器预训练的令牌序列数据。该方法包含两大创新点：多标识符项目标记化和渐进式推荐器预训练。对于多标识符项目标记化，我们利用RQ-VAE作为标记化骨干，并将相邻训练周期的模型检查点视为语义相关标记器。这使得每个项目可以关联多个标识符，从而使得单个用户交互序列可以转换为几个不同的数据组的令牌序列。对于渐进式推荐器预训练，我们引入了一种由数据影响估计引导的渐进式学习方案，在推荐器预训练过程中动态调整每组数据的采样概率。在预训练后，我们使用单一标记器微调模型，以确保推荐时准确识别项目。在三个公开基准数据集上进行的广泛实验表明，MTGRec在有效性和可扩展性方面均显著优于传统的和生成式的推荐基准方法。

发布时间: 4/15/2025

查看原文

多集和度量的傅里叶切片-Wasserstein嵌入

作者: Tal Amir, Nadav Dym

arXiv:2504.02544v2 宣告类型: replace-cross 摘要: 我们提出了傅里叶剪切 Wasserstein (FSW) 插值方法——一种将 $\mathbb{R}^d$ 上的多元集和测度嵌入欧几里得空间的新方法。我们提出的嵌入方法约在分布之间保留剪切 Wasserstein 距离，从而提供了几何上有意义的表示，更好地捕获输入结构。此外，该方法在测度上是单射的，并且在多元集上是双唇距的——与基于和池或最大池的流行方法相比，这是一个显著的优势，这些流行方法在理论上证明不是双唇距的，并且在许多情况下甚至不是单射的。这些保证所需的输出维度接近最优：大约 $2 N d$，其中 $N$ 是输入多元集的最大大小。此外，我们证明了不可能以双唇距的方式将 $\mathbb{R}^d$ 上的分布嵌入到欧几里得空间。因此，我们的嵌入的度量属性可以说是最好的。通过数值实验，我们证明了该方法生成了优于现有方法的多元集表示，从而在实际学习任务中提高了性能。具体来说，我们展示了以下两点：(a) 简单组合 FSW 嵌入与多层感知器 (MLP) 能够实现 Wasserstein 距离（非剪切）的最新性能；(b) 使用 FSW 嵌入替换最大池化使得 PointNet 在参数减少至多 40 倍的情况下显著更具鲁棒性，即使在这种情况下性能下降也很小。

发布时间: 4/15/2025

查看原文

频率引导的水下空间图像重构

作者: Jaskaran Singh Walia, Shravan Venkatraman, Pavithra LK

arXiv:2504.01243v2 宣告类型: replace-cross 摘要：水下图像受到严重的退化，包括颜色失真、可见度降低和由于波长依赖的衰减和散射而导致的结构细节丢失。现有的增强方法主要集中在空域处理上，忽视了频域捕获全局颜色分布和长程依赖性的潜力。为了解决这些限制，我们提出了一种双重域深度学习框架FUSION，该框架联合利用空域和频域信息。FUSION在空域中通过多尺度卷积核和自适应注意力机制独立处理每个RGB通道，同时通过基于FFT的频域注意力提取全局结构信息。一个频域引导融合模块将两个域中的互补特征结合在一起，随后进行了跨通道融合和自适应通道重校准，以确保颜色分布的平衡。在基准数据集（UIEB、EUVP、SUIM-E）上的广泛实验表明，FUSION获得了最先进的性能，一致地在重建保真度（UIEB上的最高PSNR为23.717 dB和SSIM为0.883）、感知质量（UIEB上的最低LPIPS为0.112）和视觉增强度量（UIEB上的最高UIQM为3.414）方面优于现有方法，同时所需参数明显较少（0.28M）且计算复杂度更低，这表明FUSION适合实时水下成像应用。

发布时间: 4/15/2025

查看原文

MoLe-VLA：通过混合层实现动态层跳过视觉语言动作模型，用于高效机器人操作

作者: Rongyu Zhang, Menghang Dong, Yuan Zhang, Liang Heng, Xiaowei Chi, Gaole Dai, Li Du, Yuan Du, Shanghang Zhang

arXiv:2503.20384v2 任务类型: replace-cross 摘要: 多模态大型语言模型（MLLMs）在理解和处理复杂语言和视觉数据方面表现出色，使通用机器人系统能够理解指令并执行具身任务。然而，它们的实际部署受到巨大计算和存储需求的阻碍。最近对LLM层中同质模式的洞察启发了压缩技术来解决这些挑战，例如早期退出和 token 剪枝。然而，这些方法往往忽略了最终层的作用，这些层编码了对下游机器人任务最相关的语义信息。与最近神经科学中浅脑假说（SBH）的突破以及模型压缩中的专家混合相结合，我们将每个LLM层视为一个专家，并提出了一个基于动态LLM层激活的Mixture-of-Layers Vision-Language-Action模型（MoLe-VLA，或简称MoLe）架构。我们引入了一种空间-时间感知路由器（STAR），根据机器人的当前状态，仅选择性地激活层的一部分，模拟大脑专门为认知和因果推理设计的信号路径。此外，为了弥补MoLe中LLM认知能力的损失，我们设计了一种认知自我知识蒸馏（CogKD）框架。CogKD通过利用认知特征增强对任务需求的理解，并通过生成相关任务序列来提高生成的效果。在RLBench模拟和真实世界环境中的广泛实验表明，MoLe-VLA在效率和性能方面均具备优越性。具体而言，MoLe-VLA在十个任务中将平均成功率提高了8%，同时与标准LLM相比，计算成本降低了多达5.6倍。

发布时间: 4/15/2025

查看原文