arXiv 论文列表

SYNTHIA：具有功能组合的新概念设计

作者: Hyeonjeong Ha, Xiaomeng Jin, Jeonghwan Kim, Jiateng Liu, Zhenhailong Wang, Khanh Duy Nguyen, Ansel Blume, Nanyun Peng, Kai-Wei Chang, Heng Ji

arXiv:2502.17793v2 Announce Type: replace-cross 摘要：文本到图像（T2I）模型使得快速概念设计成为可能，从而在AI驱动设计中被广泛使用。尽管最近的研究集中在生成给定设计概念的语义和风格变体上，但功能一致性—将多种功能整合到一个连贯的概念中—仍然被很大程度上忽视了。在本文中，我们介绍了SYNTHIA，一种基于期望功能生成新颖且功能连贯设计的框架。我们的方法利用了层次概念本体，将概念分解为部分和功能，作为功能性连贯设计的重要构建块。我们还基于我们的本体开发了一种课程学习方案，结合对比目标微调T2I模型，逐步学习功能组合，同时保持视觉新颖性。具体而言，我们(i) 逐步增加功能距离，引导模型从基本概念-功能关联过渡到复杂的功能组合，这些组合将不同功能的部分整合为一个连贯的形式，并(ii) 通过采用对比目标强迫学习表示远离现有概念，以确保视觉新颖性。实验结果表明，SYNTHIA 在新颖性和功能一致性方面显著优于现有最先进的T2I模型，分别在人类评估中提高了25.1%和14.7%。

发布时间: 4/14/2025

查看原文

超越发布：生成式AI系统的数据访问考量

作者: Irene Solaiman, Rishi Bommasani, Dan Hendrycks, Ariel Herbert-Voss, Yacine Jernite, Aviya Skowron, Andrew Trask

arXiv:2502.16701v2 宣布类型: 替换-交叉摘要：生成型AI的发布决策决定了系统组件是否可供使用，但发布并不涵盖用户和利益相关者能够与系统互动的许多其他变化元素。除了发布之外，系统组件的访问权还影响潜在的风险和利益。访问涉及到在基础设施、技术和社会等方面的需求，以便以某种方式使用可用的组件。我们从三个维度来分解访问：资源配置、技术可用性和实用性。在每个类别中，每种系统组件的一组变量明确了权衡取舍。例如，资源配置需要访问计算基础设施以提供模型权重。我们还比较了四个高性能语言模型的可访问性，其中两个是开源权重，两个是闭源权重，基于访问变量显示所有模型的相似考虑。访问变量为能够扩大或增加用户访问提供基础；我们研究了访问规模以及规模如何影响管理风险和干预的能力。这种框架更好地涵盖了系统发布的景观和风险-利益权衡，以指导系统发布的决策、研究和政策。

发布时间: 4/14/2025

查看原文

映射生成式AI在网络监控和管理领域的景观

作者: Giampaolo Bovenzi, Francesco Cerasuolo, Domenico Ciuonzo, Davide Di Monda, Idio Guarino, Antonio Montieri, Valerio Persico, Antonio Pescap\`e

arXiv:2502.08576v2 陈述类型: replace-cross 摘要：生成式人工智能（GenAI）模型，如LLMs、GPTs和扩散模型，最近在研究界和工业界都引起了广泛关注。本文综述了这些模型在网络监控和管理中的应用，重点探讨了主要的应用案例及其面临的挑战与机遇。我们讨论了如何通过使用GenAI模型来利用网络流量生成和分类、网络入侵检测、联网系统日志分析以及网络数字助手的好处。此外，我们还概述了可用的GenAI模型、大规模训练阶段的大型数据集以及开发此类模型的平台。最后，我们讨论了可能缓解GenAI在网络监控和管理中采用障碍的研究方向。我们的研究旨在描绘当前的景观，并为利用GenAI进行网络监控和管理的未来研究铺平道路。

发布时间: 4/14/2025

查看原文

跨维度和类别模型的统一音乐情绪识别

作者: Jaeyong Kang, Dorien Herremans

arXiv:2502.03979v2 宣告类型: 替换-交叉摘要：音乐情感识别（MER）中最具有挑战性的问题之一来自于情感标签在不同数据集中关于情感表示的异质性，包括分类标签（例如，快乐、悲伤）与维度标签（例如，价值-唤醒）。在这篇论文中，我们提出了一种统一的多任务学习框架，该框架结合了这两种类型的标签，并且能够同时在多个数据集上进行训练。该框架使用了一种有效的输入表示，结合了音乐特征（即，调式和和弦）和MERT嵌入。此外，还采用知识蒸馏方法，将单独训练的教师模型的知识转移到学生模型中，从而增强其在多个任务上的泛化能力。为了验证我们提出的框架，我们在多种数据集上进行了广泛的实验，包括MTG-Jamendo、DEAM、PMEmo和EmoMusic。根据我们的实验结果，音乐特征的加入、多任务学习和知识蒸馏显著提高了性能。特别是，我们的模型在MTG-Jamendo数据集上的表现优于包括MediaEval 2021竞赛中表现最好的模型在内的最先进的模型。我们的工作通过允许在统一框架中共用分类和维度情感标签，对MER做出了重要贡献，从而使得跨数据集训练成为可能。

发布时间: 4/14/2025

查看原文

针对AI生成文本检测模型的 adversarial 攻击：一种基于 Embeddings 的 token 概率方法

作者: Ahmed K. Kadhim, Lei Jiao, Rishad Shafik, Ole-Christoffer Granmo

arXiv:2501.18998v2 通告类型: replace-cross 摘要: 近年来，利用人工智能（AI）的文本生成工具在各个领域偶尔被误用，例如生成学生的报告或创意写作。这一问题促使了剽窃检测服务增强识别AI生成内容的能力。对抗攻击经常用于测试AI文本检测器的稳健性。本文提出了一种新的文本对抗攻击方法，应用于检测模型，如Fast-DetectGPT。该方法利用嵌入模型进行数据扰动，旨在重新构建AI生成的文本以降低检测到文本真实来源的可能性。具体地，我们使用了不同的嵌入技术，包括解释性较强的Tsetlin机（TM），以实现这一目的。通过结合同义词和嵌入相似向量，我们证明了Fast-DetectGPT的检测分数在XSum数据集上从0.4431降至0.2744，在SQuAD数据集上从0.5068降至0.3532的最高水平。

发布时间: 4/14/2025

查看原文

通过逆退 annealing 转移知识：好处及分享内容的初步分析

作者: Eneko Osaba, Esther Villar-Rodriguez

arXiv:2501.15865v2 宣告类型:替换交叉摘要：沉浸在NISQ时代，当前的量子退火机在高效解决优化问题方面存在局限性。为了缓解这些局限性，D-Wave Systems 开发了一种称为反向退火的机制，这是一种特定类型的量子退火，旨在对在其他地方找到的优质状态进行局部优化。尽管在反向退火的研究活动中有所进展，但迄今没有理论探讨在这种范式下知识迁移可能带来的潜在好处。本文正是朝着这一方向进行的工作，并且其研究重点在于通过实验回答两个关键的研究问题：i) 反向退火是否是一种可以从相似问题的知识迁移中受益的范式？ii) 我们能否推断出输入解应满足的特性，以帮助增加成功概率？为了合理指导本文中的测试，选择了著名的背包问题作为基准测试目的，共使用了34个实例，分别包含14个和16个项目。

发布时间: 4/14/2025

查看原文

基于时间序列深度神经网络的模型预测控制在增材制造数字孪生中的实时决策-making

作者: Yi-Ping Chen, Vispi Karkaria, Ying-Kuan Tsai, Faith Rolark, Daniel Quispe, Robert X. Gao, Jian Cao, Wei Chen

arXiv:2501.07601v5 宣告类型：替换交叉摘要：数字孪生——一种能够实现实时监控、模型更新、预测和决策的物理系统的虚拟复制品——结合了最近在机器学习方面的进展，为自主制造提供了新的主动控制策略的机会。然而，要在数字孪生中实现实时决策，需要由准确预测高度非线性制造系统的驱动来实现高效的优化。本文提出了一种用于实时决策的同时多步模型预测控制（MPC）框架，使用名为时间序列密集编码器（TiDE）的多变量深度神经网络作为代理模型。与传统的仅提供一步预测的MPC模型不同，TiDE能够在一次预测中准确地预测预测窗口内的未来状态（多步预测），从而显著加快了MPC的速度。以激光沉积增材制造（DED）为例，我们展示了所提出的MPC的有效性，使其能够追踪熔坑温度以确保部件质量，同时通过调节激光功率以维持熔坑深度约束来减少气孔缺陷。在本工作中，我们首先展示了TiDE能够准确预测熔坑温度和深度的能力。其次，我们展示了所提出的MPC在满足目标稀释范围（10%-30%）内的熔坑深度约束时实现精确的温度跟踪，从而减少潜在的气孔缺陷。与PID控制器相比，MPC产生的激光功率配置更加平滑且波动较小，同时具有竞争力或优越的熔坑温度控制性能。这证明了MPC的主动控制能力，利用时间序列预测和实时优化，将其定位为未来数字孪生应用和制造过程实时优化的强大工具。

发布时间: 4/14/2025

查看原文

扩散模型中反事实医疗图像合成中的潜在漂移

作者: Yousef Yeganeh, Azade Farshad, Ioannis Charisiadis, Marta Hasny, Martin Hartenberger, Bj\"orn Ommer, Nassir Navab, Ehsan Adeli

arXiv:2412.20651v2 宣传类型: 替换-交叉摘要：通过在大规模数据集上进行训练，已被证明能够增强生成模型在扩散模型中生成和处理图像的质量和真实性；然而，由于成本和隐私问题，医疗成像领域中并非总是能够获取到这样的大规模数据集，这与这种模型的主要应用之一相矛盾，即在真实数据稀缺的情况下生成合成样本。同时，预先训练的一般模型的微调也因医疗领域和预先训练模型之间的分布转移而成为一个挑战。在这里，我们提出了一种名为Latent Drift（LD）的方法，可以使扩散模型适用于任何微调方法以缓解由分布转移带来的问题，或者在推理时间作为条件使用。Latent Drifting使扩散模型能够条件化于适合复杂任务的医疗图像，包括反事实图像生成，这对于研究性别、年龄以及在患者中添加或移除疾病如何改变医疗图像非常重要。我们使用三种公开的纵向基准数据集（包含脑MRI和胸片）来评估我们的方法在反事实图像生成中的表现。我们的结果证明，在与不同微调方案结合使用时，可以获得显著的性能提升。

发布时间: 4/14/2025

查看原文

MathSpeech：利用小型LM实现准确的数学语音转公式转换

作者: Sieun Hyeon, Kyudan Jung, Jaehee Won, Nam-Joon Kim, Hyun Gon Ryu, Hyuk-Jae Lee, Jaeyoung Do

arXiv:2412.15655v3 公告类型: replace-cross 摘要：在诸如数学课程或研究展示等多种学术和专业环境中，经常需要口头传达数学表达式。然而，在没有辅助视觉的情况下朗读数学表达式往往会显著妨碍理解，尤其是在听力受损或因语言障碍依赖字幕的情况下。例如，当讲师朗读欧拉公式时，当前的自动语音识别（ASR）模型通常会产生冗长且容易出错的文本描述（例如，e的i x次方等于x的余弦值加上i乘以x的正弦值的一侧），而不是简洁的$\LaTeX$格式（即，$e^{ix} = \cos(x) + i\sin(x)$），从而妨碍清晰的理解和沟通。为了解决这一问题，我们引入了MathSpeech，这是一种新颖的管道，将自动语音识别（ASR）模型与小型语言模型（sLM）结合，以纠正数学表达式中的错误，并准确地将口头表达转换为结构化的$\LaTeX$表示。在新数据集上进行评估，该数据集源自讲义录音，MathSpeech展示了与领先商业大型语言模型（LLMs）相当的$\LaTeX$生成能力，同时仅利用了120M参数的微调小型语言模型。具体而言，在$\LaTeX$翻译的字符错误率（CER）、BLEU和ROUGE分数方面，MathSpeech的性能明显优于GPT-4o。我们发现CER从0.390降低到了0.298，ROUGE和BLEU分数也高于GPT-4o。

发布时间: 4/14/2025

查看原文

神经网络的功能连接组

作者: Tananun Songdechakraiwut, Yutong Wu

arXiv:2412.15279v2 宣告类型: replace-cross 摘要: 人类大脑是一个复杂的系统，理解其工作机制一直是神经科学中的一个长期挑战。功能连接组学的研究，这是一种绘制不同大脑区域之间功能连接的技术，通过多年来发展起来的各种高级分析技术提供了宝贵的见解。同样，受大脑架构启发的神经网络在多种应用中取得了显著的成功，但往往因其缺乏可解释性而备受关注。在这篇论文中，我们提出了一种新的方法，通过利用大脑启发的技术将神经网络与人类大脑功能相结合。我们的方法基于功能连接组学的洞见，利用稳定统计和机器学习技术提供了一种可扩展的方式，来表征大型神经网络的拓扑结构。我们的实证分析展示了其增强神经网络可解释性的能力，从而有助于更深入地理解其内在工作机制。

发布时间: 4/14/2025

查看原文