arXiv 论文列表

作者: Kaveen Hiniduma, Suren Byna, Jean Luca Bez

人工智能（AI）应用严重依赖于数据。数据质量差会导致AI模型不准确且无效，可能导致使用错误或不安全。评估数据准备情况是提高数据在AI中使用质量和适用性的关键步骤。人们已经投入研发努力来提高数据质量。然而，用于评估用于AI训练的数据准备情况的标准化指标仍在发展中。在本研究中，我们对用于验证AI训练数据准备情况的指标进行了全面调查。这项调查考察了ACM数字图书馆、IEEE Xplore、Nature、Springer和Science Direct等期刊发表的140多篇论文以及知名AI专家发表的在线文章。本调查旨在为结构化和非结构化数据集提出AI数据准备情况（DRAI）指标的分类法。我们预计，这种分类法将导致DRAI指标的新标准，这些标准将用于提高AI训练和推理的质量、准确性和公平性。

发布时间: 11/28/2024

查看原文

CoMat：对齐文本到图像扩散模型与图像到文本概念匹配

作者: Dongzhi Jiang, Guanglu Song, Xiaoshi Wu, Renrui Zhang, Dazhong Shen, Zhuofan Zong, Yu Liu, Hongsheng Li

扩散模型在文本到图像生成的领域取得了巨大的成功。然而，减轻文本提示和图像之间错位的问题仍然具有挑战性。错位背后的根本原因尚未得到广泛研究。我们观察到，错位是由标记注意力激活不足引起的。我们进一步将这种现象归因于扩散模型对条件利用不足，而这是由其训练范式造成的。为了解决这个问题，我们提出了CoMat，这是一种具有图像到文本概念匹配机制的端到端扩散模型微调策略。我们利用图像字幕模型来衡量图像到文本的对齐程度，并引导扩散模型重新审视被忽略的标记。还提出了一种新的属性集中模块来解决属性绑定问题。无需任何图像或人类偏好数据，我们仅使用20K个文本提示来微调SDXL以获得CoMat-SDXL。大量的实验表明，CoMat-SDXL在两个文本到图像对齐基准测试中显著优于基线模型SDXL，并达到了最先进的性能。

发布时间: 11/28/2024

查看原文

大型语言模型中的算法共谋

作者: Sara Fish, Yannai A. Gonczarowski, Ran I. Shorrer

算法定价的兴起引发了算法合谋的担忧。我们基于大型语言模型（LLM）进行了算法定价代理的实验。我们发现：(1) 基于LLM的代理擅长定价任务；(2) 在寡头垄断环境下，基于LLM的定价代理会自主合谋，损害消费者利益；(3) LLM指令（“提示”）中看似无害的措辞变化可能会加剧合谋。新颖的离轨分析技术揭示了价格战问题是导致这些现象的原因。我们的结果也适用于拍卖环境。我们的研究结果揭示了未来任何针对基于LLM的定价代理（以及更广泛的黑盒定价代理）的监管所面临的独特挑战。

发布时间: 11/28/2024

查看原文

跨任务知识蒸馏的投影学习

作者: Dylan Auty, Roy Miles, Benedikt Kolbeinsson, Krystian Mikolajczyk

传统的知识蒸馏（KD）依赖于在目标任务上训练出的熟练教师模型，而这并非总是可用。在这种情况下，跨任务蒸馏可以被利用，使得可以使用在不同任务上训练的任何教师模型。然而，许多KD方法在应用于此跨任务设置时被证明是无效的。为了解决这一限制，我们提出了一种简单的修改：使用反向投影。我们通过学习忽略任何可能降低学生模型性能的任务特定特征，展示了这种标准投影的直接替换是有效的。我们发现，这种简单的修改足以将许多KD方法扩展到跨任务设置，其中教师和学生任务可能大相径庭。通过这样做，与传统的投影相比，我们在跨任务设置中获得了高达1.9%的性能提升，且无需额外成本。即使使用在深度估计、图像翻译和语义分割等各种任务上随机初始化的教师模型，我们的方法也能获得显著的性能提升（高达7%），尽管缺乏任何可转移的学习知识。为了提供对该结果的概念性和分析性见解，我们展示了使用反向投影允许将蒸馏损失分解为知识转移和谱正则化分量。通过这种分析，我们还可以提出一种新的正则化损失，允许无教师蒸馏，在ImageNet上实现了高达8.57%的性能提升，且无需额外的训练成本。

发布时间: 11/28/2024

查看原文

基于贝叶斯神经场的可扩展时空预测

作者: Feras Saad, Jacob Burnim, Colin Carroll, Brian Patton, Urs K\"oster, Rif A. Saurous, Matthew Hoffman

时空数据集，由空间参考的时间序列组成，广泛应用于空气污染监测、疾病追踪和云需求预测等各种应用中。随着现代数据集规模的增长，越来越需要灵活地捕捉复杂时空动态并能够处理大量观测数据的统计方法。本文介绍了贝叶斯神经场 (BayesNF)，这是一种领域通用的统计模型，它可以为包括预测、插值和变异函数分析在内的数据分析任务推断丰富的时空概率分布。BayesNF 集成了深度神经网络架构以进行高容量函数估计，并结合了分层贝叶斯推理以进行稳健的预测不确定性量化。与著名基准的评估结果表明，BayesNF 在包含数十万到数百万个测量值的来自气候和公共卫生数据的预测问题上取得了改进。本文附带一个开源软件包 (https://github.com/google/bayesnf)，该软件包可通过 JAX 机器学习平台在 GPU 和 TPU 加速器上运行。

发布时间: 11/28/2024

查看原文

CaT-GNN：基于因果时间图神经网络的信用卡欺诈检测增强

作者: Yifan Duan, Guibin Zhang, Shilong Wang, Xiaojiang Peng, Wang Ziqi, Junyuan Mao, Hao Wu, Xinke Jiang, Kun Wang

信用卡欺诈对经济构成重大威胁。虽然基于图神经网络 (GNN) 的欺诈检测方法性能良好，但它们往往忽略了节点局部结构对预测的因果影响。本文介绍了一种新颖的信用卡欺诈检测方法——因果时序图神经网络 (CaT-GNN)，该方法利用因果不变学习来揭示交易数据中的内在关联。通过将问题分解为发现和干预阶段，CaT-GNN 识别交易图中的因果节点，并应用因果混合策略来增强模型的鲁棒性和可解释性。CaT-GNN 包含两个关键组件：因果检查器和因果干预器。因果检查器利用时间注意机制中的注意力权重来识别因果节点和环境节点，无需引入额外的参数。随后，因果干预器基于节点集对环境节点进行因果混合增强。在三个数据集（包括一个私有金融数据集和两个公共数据集）上的评估结果表明，CaT-GNN 的性能优于现有的最先进方法。我们的研究结果突出了将因果推理与图神经网络相结合以提高金融交易欺诈检测能力的潜力。

发布时间: 11/28/2024

查看原文

赋能类ChatGPT大型语言模型以本地知识库，用于工业预测和健康管理

作者: Huan Wang, Yan-Fu Li, Min Xie

预测和健康管理 (PHM) 对工业运行和维护至关重要，其重点是预测、诊断和管理工业系统的健康状态。类 ChatGPT 的大规模语言模型 (LLM) 的出现已开始引领人工智能领域新一轮的创新浪潮，极大地提升了各个领域的智能化水平。因此，它也有望进一步改变工业 PHM 的应用模式，并推动 PHM 向智能化发展。虽然类 ChatGPT 的 LLM 拥有丰富的知识储备和强大的语言理解与生成能力，但它们缺乏特定领域的专业知识，极大地限制了其在 PHM 应用中的实用性。为此，本研究探索了由本地知识库 (LKB) 赋能的类 ChatGPT LLM 在工业 PHM 中的应用，以解决上述局限性。此外，我们介绍了将 LKB 与 LLM 结合的方法和步骤，包括 LKB 准备、LKB 向量化、提示工程等。对真实案例的实验分析表明，将 LKB 与类 ChatGPT LLM 相结合可以显著提高其性能，使类 ChatGPT LLM 更准确、更相关，并能够提供更有见地的信息。这可以促进类 ChatGPT LLM 在工业 PHM 中的发展，并提高其效率和质量。

发布时间: 11/28/2024

查看原文

基于自监督预训练和定制微调的Transformer智能车道渲染异常检测

作者: Yongqi Dong, Xingmin Lu, Ruohan Li, Wei Song, Bart van Arem, Haneen Farah

基于数字地图的导航服务蓬勃发展，为驾驶员带来了极大的便利。然而，车道渲染地图图像中异常的存在偶尔会带来潜在的危险，因为这些异常可能会误导人类驾驶员，从而导致不安全的驾驶状况。为了解决这个问题并准确有效地检测异常，本文将车道渲染图像异常检测转化为一个分类问题，并提出一个由数据预处理、使用掩码图像建模 (MiM) 方法的自监督预训练、使用带标签平滑的交叉熵损失的定制微调以及后处理四个阶段组成的流水线来解决这个问题，该流水线利用了最先进的深度学习技术，特别是那些涉及 Transformer 模型的技术。各种实验验证了该流水线的有效性。结果表明，该流水线在车道渲染图像异常检测方面表现出优越的性能，值得注意的是，使用 MiM 的自监督预训练可以大大提高检测精度，同时显著减少总训练时间。例如，采用 Swin Transformer 与均匀掩码作为自监督预训练 (Swin-Trans-UM) 的方法，准确率达到了 94.77%，曲线下面积 (AUC) 得分提高到了 0.9743，而未经预训练的纯 Swin Transformer (Swin-Trans) 的准确率为 94.01%，AUC 为 0.9498。微调轮数从原来的 280 轮大幅减少到 41 轮。总之，该流水线结合了使用 MiM 的自监督预训练和其他先进的深度学习技术，成为提高数字导航系统中车道渲染图像异常检测的准确性和效率的强大解决方案。

发布时间: 11/28/2024

查看原文

校准自适应教师模型用于领域自适应智能故障诊断

作者: Florent Forest, Olga Fink

基于深度学习的智能故障诊断 (IFD)已被证明是一种有效且灵活的解决方案，吸引了广泛的研究。深度神经网络可以从大量具有代表性的标记数据中学习丰富的表示，应用于各种应用。在 IFD 中，它们能够以端到端的方式从信号中实现高分类性能，无需大量的领域知识。然而，深度学习模型通常只在其训练数据分布上表现良好。当应用于不同的分布时，其性能可能会下降。这在 IFD 中也观察到，因为资产的运行条件通常与收集标记数据时的条件不同。无监督领域自适应 (UDA) 解决了在源域中存在标记数据，而在目标域中只有未标记数据可用的场景，其中域可能对应于运行条件。最近的方法依赖于使用目标样本的置信伪标签进行训练。然而，基于置信度的伪标签选择受到目标域中置信度估计校准不良的阻碍，主要是由于过度自信的预测，这限制了伪标签的质量并导致错误累积。在本文中，我们提出了一种新的 UDA 方法，称为校准自适应教师 (CAT)，我们提出在整个自训练过程中校准教师网络的预测，利用事后校准技术。我们在领域自适应 IFD 上评估 CAT，并在 Paderborn 轴承故障诊断基准上针对不同的运行条件进行了大量的实验。我们提出的方法在大多数迁移任务上都取得了最先进的性能。

发布时间: 11/28/2024

查看原文

EnrichEvent：基于上下文信息增强社交数据以进行突发事件抽取

作者: Mohammadali Sefidi Esfahani, Mohammad Akbari

社交平台已成为传播信息和讨论现实社会事件的关键平台，为研究人员设计和实施新颖的事件检测框架提供了绝佳机会。然而，大多数现有方法仅利用关键词突发性或网络结构来检测未指定事件，因此在识别与事件和社交数据挑战性相关的未知事件方面常常力不从心。社交数据（例如推文）的特点是拼写错误、信息不完整、词义歧义、语言不规范以及意见表达方面的差异。此外，利用有限的结构知识来提取不断发展事件的区分性特征和模式几乎是不可行的。为了应对这些挑战，本文提出了一种新颖的框架EnrichEvent，该框架利用流式社交数据的语言和上下文表示。特别是，我们利用上下文和语言知识来检测语义相关的推文，并提高事件检测方法的有效性。最终，我们提出的框架为每个事件生成聚类链，以显示事件随时间的演变变化。我们进行了大量的实验来评估我们的框架，验证了其在检测和区分未指定社会事件方面的高性能和有效性。

发布时间: 11/28/2024

查看原文