arXiv 论文列表

作者: Michael F\"arber, Parisa Aghdam, Kyuri Im, Mario Tawfelis, Hardik Ghoshal

arXiv:2504.14223v1 交叉类型公告摘要：简化文本对于使复杂内容对面临理解挑战的多样化受众群体变得易于访问至关重要。然而，简化材料的有限可用性造成了个人和职业成长的巨大障碍，并阻碍了社会包容性。尽管研究人员已经探索了各种自动文本简化方法，但没有任何一种完全利用大型语言模型（LLMs）来根据不同目标群体和不同程度的简化提供量身定制的服务。此外，尽管清晰语言已经被证明对消费者和组织都具有明显的好处，但这一成熟的实践仍然没有得到充分的利用。在本文中，我们推出了 https://simplifymytext.org，这是一个首个设计用于从多种输入格式生成清晰语言内容的系统，包括键盘输入和文件上传，并提供针对多样化受众群体的灵活定制选项。我们使用了GPT-4和Llama-3，并通过多个指标评估了输出结果。总体而言，我们的工作为自动文本简化研究做出了贡献，并强调了在促进包容性方面个性化沟通的重要性。

发布时间: 4/22/2025

查看原文

基于分解的多尺度变压器框架用于时间序列异常检测

作者: Wenxin Zhang, Cuicui Luo

arXiv:2504.14206v1 宣传类型：交叉摘要：时间序列异常检测对于维持稳定系统至关重要。现有方法面临两个主要挑战。首先，很难直接建模时间序列中多种多样且复杂的模式之间的依赖关系。其次，许多使用均方误差优化参数的方法在处理时间序列中的噪声时表现不佳，导致性能下降。为了解决这些挑战，我们提出了一种基于分解的变压器框架（TransDe），用于多变量时间序列异常检测。关键思想是结合时间序列分解和变压器的优势，以有效学习正常时间序列数据中的复杂模式。提出了基于多尺度补丁的变压器架构，以利用时间序列每个分解组件的代表性依赖关系。此外，提出了基于补丁操作的对比学习范式，利用KL散度对齐不同补丁级别视图中的正样本对，即正常模式的纯表示。进一步引入了一种新颖的异步损失函数，结合了停止梯度策略，以有效地增强TransDe的性能。它可以避免优化过程中耗时且劳动密集型的计算成本。在五个公开数据集上进行了 extensive 实验，TransDe 在F1分数方面优于十二个基线方法。我们的代码可在 https://github.com/shaieesss/TransDe 上获取。

发布时间: 4/22/2025

查看原文

面向图欺诈检测的双通道异ophilic消息传递

作者: Wenxin Zhang, Jingxing Zhong, Guangzhen Yao, Renda Han, Xiaojian Lin, Zeyu Zhang, Cuicui Luo

arXiv:2504.14205v1 类型:交叉研究摘要:欺骗性活动在电子商务、在线评论平台和社会网络等多个领域显著增加，使欺诈检测成为一个关键任务。空间图神经网络（GNNs）因其较强的归纳学习能力而成功应用于欺诈检测任务。然而，现有的基于空间GNN的方法通常通过在消息传递过程中排除异质邻居来增强图结构，以符合GNN的同质偏见。不幸的是，这种方法会破坏原始的图拓扑结构，增加预测的不确定性。为了解决这些限制，本文提出了一个新的框架，双重通道异质消息传递（DHMP），用于欺诈检测。DHMP 利用异质性分离模块将图划分为同质子图和异质子图，从而缓解传统GNN的低通归纳偏见。接着应用共享权重分别捕获不同频率的信号，并结合定制的采样策略进行训练。这使得节点根据其标签适应性地平衡各种信号的贡献。在三个真实世界的数据集上的广泛实验表明，DHMP 比现有方法表现更优，突显了分离不同频率信号对于改进欺诈检测的重要性。源代码可在 https://github.com/shaieesss/DHMP 获取。

发布时间: 4/22/2025

查看原文

基于差异对比的时序异常检测表示学习框架（DConAD）

作者: Wenxin Zhang, Xiaojian Lin, Wenjun Yu, Guangzhen Yao, jingxiang Zhong, Yu Li, Renda Han, Songcheng Xu, Hao Shi, Cuicui Luo

arXiv:2504.14204v1 交叉公告类型摘要：时间序列异常检测在风险识别和故障检测的多种应用场景中占据重要地位。由于无需标签的无监督学习方法变得流行，但随着异常模式的多样性、异常的稀疏性以及数据规模和复杂性的增长，这些方法往往难以捕捉时间序列中用于识别异常的稳健和代表性的依赖关系。为增强模型捕捉时间序列正常模式的能力，并避免因依赖高质量先验知识而导致建模能力的退化，我们提出了一种基于差分的对比表示学习框架用于时间序列异常检测（DConAD）。具体而言，DConAD 生成差分数据以提供额外的关于时间序列的信息，并利用基于变压器的架构捕捉时空依赖关系，从而增强无偏表示学习的能力。此外，DConAD 实现了一种基于 KL 散度的新颖对比学习范式，仅使用正样本以避免重构中的偏移，并采用停止梯度策略以促进收敛。在五个公共数据集上的广泛实验展示了 DConAD 相对于九个基线的优越性和有效性。代码可在 https://github.com/shaieesss/DConAD 获取。

发布时间: 4/22/2025

查看原文

学习联合ID-文本表示以实现ID保留的图像合成

作者: Zichuan Liu, Liming Jiang, Qing Yan, Yumin Jia, Hao Kang, Xin Lu

arXiv:2504.14202v1 宣告类型: cross 摘要: 我们提出了一种新颖的框架，用于使用多模态编码策略进行ID保有的生成，而不是通过适配器将身份特征注入预训练模型。我们的方法将身份和文本视为统一的条件输入。为此，我们引入了FaceCLIP，这是一种多模态编码器，用于学习身份和文本语义的联合嵌入空间。给定一个参考面部和一个文本提示，FaceCLIP 生成一个统一的表示，该表示同时编码身份和文本，并条件化基础扩散模型以生成与身份一致且与文本对齐的图像。我们还提出了一种多模态对齐算法来训练FaceCLIP，使用一种损失函数，该损失函数将其联合表示与面部、文本和图像嵌入空间对齐。然后，我们通过将FaceCLIP与Stable Diffusion XL（SDXL）集成来构建FaceCLIP-SDXL，以实现ID保有的图像合成管道。与先前的方法相比，FaceCLIP-SDXL 允许生成更具真实感的肖像，同时更好地保持身份一致性并具有文本相关性。大量实验表明其在定性和定量上都具有优势。

发布时间: 4/22/2025

查看原文

通过核选择优化增强多模态即席学习的图像分类

作者: Huiyi Chen, Jiawei Peng, Kaihua Tang, Xin Geng, Xu Yang

arXiv:2504.14200v1 交叉类型: 宣告摘要: 在上下文学习（ICL）使大规模视觉语言模型（LVLMs）能够在不更新参数的情况下适应新任务方面，只需使用大量支持集中的几个示例。然而，选择有信息量的示例会导致高计算和内存成本。尽管一些方法探索在文本分类中选择少量有代表性的核心集，但评价所有支持集样本仍然成本高昂，被丢弃的样本会导致不必要的信息损失。这些方法在图像分类中可能也效果较差，因为特征空间存在差异。鉴于这些限制，我们提出了基于关键的核选择优化（KeCO）框架，该框架利用未充分利用的数据构建紧凑且信息丰富的核心集。我们引入了视觉特征作为核心集中的键，这些键作为锚点，通过不同的选择策略来识别需要更新的样本。通过利用支持集中的未充分利用的样本，我们更新选定核心集样本的键，使随机初始化的核心集在低计算成本下进化为更信息丰富的核心集。通过在粗粒度和细粒度图像分类基准上的广泛实验，我们展示了KeCO有效地提升了图像分类任务中的ICL性能，平均提高了超过20%。值得注意的是，我们在模拟在线场景下评估了KeCO，这种场景中强大的性能突显了我们框架在资源受限的实际场景中的实际价值。

发布时间: 4/22/2025

查看原文

基于物理引导的多模态变压器路径走向天气和气候科学

作者: Jing Han, Hanting Chen, Kai Han, Xiaomeng Huang, Yongyun Hu, Wenjun Xu, Dacheng Tao, Ping Zhang

arXiv:2504.14174v1 宣布类型：交叉摘要：近年来，随着机器学习的快速发展，现在可以使用AI模型解决气象学中的许多问题。特别是，数据驱动的算法相比传统方法在准确性上有了显著提高。气象数据通常被转换为2D图像或3D视频，然后输入AI模型以进行学习。此外，这些模型通常还会结合物理信号，如温度、压力和风速，以进一步提高准确性和可解释性。在本文中，我们回顾了几种代表性的AI + 天气/气候算法，并提出了一种新的范式，在其中来自不同视角的观测数据，每种数据具有不同的物理意义，被视为多模态数据并通过变换器进行整合。此外，还可以通过正则化技术纳入关键的天气和气候知识，以进一步增强模型的能力。这种新的范式具有灵活性，并能够解决多种任务，具有很强的泛化性。我们还讨论了提高模型准确性和可解释性的未来方向。

发布时间: 4/22/2025

查看原文

突破衍射障碍：物理导向的机器学习辅助参数解耦超分辨率

作者: Abdelali Sajia, Bilal Benzimoun, Pawan Khatiwada, Guogan Zhao, Xiao-Feng Qian

arXiv:2504.14156v1 宣称类型: cross 摘要: 我们提出了一种参数解耦的超分辨框架，用于在不需要事先了解或控制源的情况下估计被动双点源的亚波长间距。我们的理论基础绕过了估算多个具有挑战性的参数（如部分相干性、亮度不平衡、随机相对相位和光子统计）的需求。基于标准台式工作站训练的物理导向机器学习(ML)模型，结合这一理论，进一步解决了背景噪声、光子损耗和质心/方向对齐错误等实际不完美问题。整合的参数解耦超分辨方法在实验生成的高保真度>82%的真实图像上实现了比衍射极限低14倍以上的分辨率（对应于光学显微镜中的约13.5 nm），其性能与可主动控制的源的最先进的技术相当。关键的是，我们的方法在源参数变异性以及与源无关的噪声方面的稳健性使其能够在无法控制源的现实场景中有潜在应用，如天文成像、活细胞显微镜和量子计量学。这项工作在理论上超分辨极限和被动系统的实际实现之间填补了一个关键的缺口。

发布时间: 4/22/2025

查看原文

SConU: 选择性构形不确定性在大型语言模型中

作者: Zhiyuan Wang, Qingni Wang, Yue Zhang, Tianlong Chen, Xiaofeng Zhu, Xiaoshuang Shi, Kaidi Xu

arXiv:2504.14154v1 宣告类型: cross 摘要：随着大型语言模型在实际应用中的日益普及，任务特定的指标保证对于其可靠部署至关重要。先前的研究引入了各种基于分割同置信预测的共识不确定性标准，这些标准提供了用户指定的正确性覆盖范围。然而，现有的框架经常无法识别违反可交换性假设的不确定性数据异常值，导致未定义的覆盖率误差率和不可操作的预测集。在本文中，我们提出了一种新颖的方法，称为选择性共识不确定性（SConU），这是首次通过开发两个关键的共识 p 值来实施显着性检验，用以确定给定样本是否在特定可管理的风险水平下偏离校准集的不确定性分布。我们的方法不仅有助于在单域和跨学科的背景下严谨地管理覆盖率误差率，还提高了预测的效率。此外，我们全面分析了共识程序的各个组成部分，以逼近条件覆盖，特别是在高风险问答任务中。

发布时间: 4/22/2025

查看原文

Locate 3D：通过三维自我监督学习进行真实世界物体定位

作者: Sergio Arnaud, Paul McVay, Ada Martin, Arjun Majumdar, Krishna Murthy Jatavallabhula, Phillip Thomas, Ruslan Partsey, Daniel Dugas, Abha Gejji, Alexander Sax, Vincent-Pierre Berges, Mikael Henaff, Ayush Jain, Ang Cao, Ishita Prasad, Mrinal Kalakrishnan, Michael Rabbat, Nicolas Ballas, Mido Assran, Oleksandr Maksymets, Aravind Rajeswaran, Franziska Meier

arXiv:2504.14151v1 交叉类型摘要：我们提出了LOCATE 3D，这是一种从类似“在沙发和灯之间的那个小咖啡桌”这样的指示表达式中在3D场景中定位物体的模型。LOCATE 3D在标准的参考接地基准测试中达到了新的最先进的水平，并展示了其强大的泛化能力。值得注意的是，LOCATE 3D可以直接处理传感器观测流（定位RGB-D帧），使其能够实现在机器人和AR设备上的真实世界部署。我们方法的关键在于3D-JEPA，这是一种新颖的自我监督学习（SSL）算法，适用于传感器点云。该算法使用2D基础模型（CLIP、DINO）对3D点云进行特征化处理。随后，使用遮蔽预测在潜在空间中作为预训练任务，以协助自我监督学习上下文化的点云特征。一旦训练完成，3D-JEPA编码器将与语言条件化的解码器一起微调，以联合预测3D掩码和边界框。此外，我们还引入了LOCATE 3D DATASET，这是一个新的3D参考接地数据集，涵盖了多种捕捉设置，包含超过130K的注释。这使我们可以系统地研究其泛化能力和更强的模型。

发布时间: 4/22/2025

查看原文