arXiv 论文列表

作者: Andrey Sidorenko

arXiv:2505.02659v2 Announce Type: 跨领域摘要：大规模语言模型（LLMs）在合成表格数据方面显示出潜力，然而现有的方法难以保留复杂的特征依赖性，特别是在类别变量之间。本文提出了一种基于概率的提示方法，利用LLMs估计条件分布，从而实现更准确和可扩展的数据合成。结果强调了提示概率分布以增强LLM生成的表格数据统计真实性的潜力。

发布时间: 5/7/2025

查看原文

EMORL：集成多目标强化学习在高效灵活的大语言模型微调中的应用

作者: Lingxiao Kong, Cong Yang, Susanne Neufang, Oya Deniz Beyan, Zeyd Boukhers

arXiv:2505.02579v2 声明类型：cross 摘要：近期在大规模语言模型（LLM）微调中的强化学习（RL）进展显示出解决多目标任务的前景，但仍面临重大挑战，包括复杂的目标平衡、低效的训练、较差的可扩展性和有限的解释性。利用集成学习原则，我们提出了一种集成多目标RL（EMORL）框架，该框架在微调多个具有不同目标的模型的同时，在训练后优化它们的聚合，以提高效率和灵活性。我们的方法是首次将个体模型的最后一层隐藏状态进行聚合，同时整合多个目标的上下文信息。这种方法得到了一种分层网格搜索算法的支持，该算法识别出最优加权组合。我们使用文本评分的LLM来评估和奖励生成内容，从而在RL微调期间评价生成结果。通过在PAIR和Psych8k数据集上的全面实验，我们展示了EMORL相对于现有基线的优势：显着更低且更稳定的训练消耗（每批次17,529±1,650个数据点和每批次6,573±147.43秒），改进的可扩展性和解释性，以及在多个目标上可比的性能。

发布时间: 5/7/2025

查看原文

增强约束单调神经网络：超越有界激活函数的普遍逼近性

作者: Davide Sartor, Alberto Sinigaglia, Gian Antonio Susto

arXiv:2505.02537v2 类型: 交叉摘要: 通过构造方式在多层感知机（MLPs）中强制实现单调性的传统技术涉及非负权重约束和有界激活函数的使用，这提出了众所周知的优化挑战。在本文中，我们概括了先前的理论结果，表明具有非负权重约束并且激活函数在交替两侧饱和的MLPs可以作为单调函数的通用逼近器。此外，我们展示了激活函数的饱和侧与权重约束的符号之间的等价性。这种联系使我们能够证明具有凸单调激活函数和非正权重约束的MLPs也可以作为通用逼近器，这与它们的非负权重约束的对应物不同。我们的结果为先前工作中观察到的经验有效性提供了理论依据，同时可能导致可能的架构简化。此外，为进一步缓解优化困难，我们提出了一种替代公式，允许网络根据权重的符号调整其激活函数。这消除了权重重参数化的要求，简化了初始化并提高了训练稳定性。实验评估强化了理论结果的有效性，显示我们的新颖方法在传统单调架构中表现出色。

发布时间: 5/7/2025

查看原文

基于Z-score梯度滤波的锐化意识最小化方法用于神经网络

作者: Juyoung Yun

arXiv:2505.02369v2 宣告类型：交叉摘要：在深度神经网络中实现良好的泛化仍然是一个核心挑战，特别是由于它们倾向于收敛到退化鲁棒性的尖锐最小值。通过寻找更平坦的最小值来减轻这种现象的 Sharpness-Aware Minimization (SAM) 方法虽然有效，但也使用完整梯度来进行参数扰动，这可能包括统计上不重要的方向。我们提出了 ZSharp，这是一种简单的有效扩展 SAM 的方法，它在逐层应用 Z 分数规范化后，通过百分位数过滤来保留仅有统计上重要的梯度分量。这种选择性的扰动使更新与曲率敏感的方向对齐，从而提高泛化能力，而无需进行架构更改。ZSharp 引入了唯一的额外超参数，即百分位数阈值，并且与现有的 SAM 变体完全兼容。在使用 ResNet、VGG 和 Vision Transformers 的 CIFAR-10、CIFAR-100 和 Tiny-ImageNet 数据集上的实验表明，ZSharp 在测试准确率方面始终优于 SAM 及其变体，尤其是在更深层和基于变换器的模型中表现更为突出。这些结果表明，ZSharp 是一个基于原理且轻量级的增强方法，适用于尖锐感知优化。

发布时间: 5/7/2025

查看原文

随时随地思考：通过强化学习为社会代理实现适应性思考

作者: Minzheng Wang, Yongbin Li, Haobo Wang, Xinghua Zhang, Nan Xu, Bingli Wu, Fei Huang, Haiyang Yu, Wenji Mao

arXiv:2505.02156v2 社交智能仿真类型：交叉摘要：有效的社交智能仿真需要语言代理能够动态调整推理深度，这是当前方法中缺乏的一项重要能力。现有方法要么缺乏这种推理能力，要么在所有场景中强制执行统一的长推理链，导致 token 使用过多且社交仿真不适当。在本文中，我们提出了**A**daptive **M**ode **L**earning (AML) 方法，该方法根据实时上下文有策略地选择四种思考模式（直觉反应 → 深思熟虑）。我们框架的核心创新，即**A**daptive **M**ode **P**olicy **O**ptimization (AMPO) 算法，相比现有方法引入了三项关键改进：(1) 多粒度思考模式设计，(2) 在社交互动中上下文感知的模式切换，(3) 通过深度适应性处理实现 token 效率化推理。在社交智能任务上的广泛实验表明，AML 在任务性能上比最先进的方法高出 15.6%。值得注意的是，与 GRPO 相比，我们的方法在推理链缩短 32.8% 的情况下，性能高出 7.0%。这些结果表明，AMPO 实现的上下文感知思考模式选择能够比 GRPO 的固定深度方法实现更接近人类的适应性推理。

发布时间: 5/7/2025

查看原文

回归即是医学图像转换所需的一切

作者: Sebastian Rassmann, David K\"ugler, Christian Ewert, Martin Reuter

arXiv:2505.02048v2 宣布类型：交叉摘要：在有限的时间预算内获取信息丰富的图像对医学成像是至关重要的。医学图像翻译（MIT）可以通过从现有数据生成合成图像来增强和补充现有的数据集。尽管生成对抗网络（GANs）和扩散模型（DMs）在自然图像生成方面取得了显著成功，但它们在医学应用中的优势——创意和图像真实性——并不必然适用于需要精确解剖信息的医学领域。事实上，获取噪声的模仿或内容错误感知会妨碍临床应用。在此，我们引入了YODA（只需去噪一次或平均），这是一种新颖的基于扩散的2.5D体积MIT框架。YODA结合了扩散和回归范式，以产生真实或无噪声输出。此外，我们提出了期望-近似（ExpA）DM采样，该采样方法从MRI信号平均中获得灵感。ExpA-采样抑制了生成的噪声，从而消除了噪声对评估图像质量的影响。通过在四个不同的多模态数据集中进行的广泛实验，包括多对比度脑MRI和骨盆MRI-CT，我们展示了扩散和回归采样在实践中产生了相似的结果。因此，扩散采样的计算开销在医学信息翻译中并没有系统性的优势。基于这一见解，我们证明了YODA优于几种最新的GAN和DM方法。值得注意的是，YODA生成的图像被证明在多个后续任务中可以互换使用，甚至优于物理获取的图像。我们的研究挑战了DMs在MIT中的 presumed 优势，并为医学成像中的MIT的实际应用铺平了道路。

发布时间: 5/7/2025

查看原文

非线性声学计算与强化学习协同框架以实现实际的人机交互

arXiv:2505.01998v2 交叉公告类型摘要：本文介绍了一种新颖的框架，将非线性声计算与强化学习结合起来，以在复杂噪声和混响环境中增强高级人机交互。利用物理知情的波动方程（例如，韦斯特维尔特、KZK 方程），该方法捕捉到高阶现象，如谐波生成和冲击形成。通过将这些模型嵌入强化学习驱动的控制回路中，系统自适应地优化关键参数（例如，吸收、波束形成）以减轻多路径干扰和非稳态噪声。涵盖远场定位、弱信号检测和多语种语音识别的实验评估表明，这种混合策略超越了传统的线性方法和纯粹数据驱动的基线方法，在具有挑战性的现实场景中实现了卓越的噪声抑制、最小的延迟和鲁棒的准确性。所提出系统的应用前景广泛，适用于人工智能硬件、机器人、机器听觉、人工听觉和脑机接口等领域。

发布时间: 5/7/2025

查看原文

深度学习模型在合成孔径雷达图像 inland 水体分割方面的对抗robustness研究

作者: Siddharth Kothari, Srinivasan Murali, Sankalp Kothari, Ujjwal Verma, Jaya Sreevalsan-Nair

arXiv:2505.01884v2 交叉类型: 启示摘要: 从合成孔径雷达（SAR）图像中分割内陆水体是一项重要的任务，相关的应用包括洪涝 mapping。尽管SAR传感器可以在各种天气条件下以高分辨率图像捕捉数据，但从SAR图像中区分水体和类似水体的表面并不容易。内陆水体，如大的河 Basin，具有复杂的几何形状，这增加了分割的难度。U-Net 是广泛使用的深度学习模型，用于 SAR 图像的陆地-水体分割。在实际应用中，通常使用手动注释来生成相应的水体掩码作为真实标签。由于复杂的几何形状，手动注释图像容易受到标签噪声的影响，尤其是数据中毒攻击。在本文中，我们在 U-Net 模型中模拟手动错误，以对抗攻击的形式，研究模型对注释中人为错误的鲁棒性。我们的结果显示，U-Net 可以在性能显著下降之前容忍一定程度的破坏。这一发现突显了手动注释质量在确定分割模型有效性方面所起的关键作用。代码和新的数据集，以及用于鲁棒训练的对抗样本，均已公开。(GitHub 链接 - https://github.com/GVCL/IWSeg-SAR-Poison.git)

发布时间: 5/7/2025

查看原文

人类可以学会检测AI生成的文字，或者至少学会何时无法检测

作者: Ji\v{r}\'i Mili\v{c}ka, Anna Marklov\'a, Ond\v{r}ej Drobil, Eva Posp\'i\v{s}ilov\'a

arXiv:2505.01877v2 Announce Type: 穿越摘要：这项研究探讨了当向个体提供即时反馈时，他们是否能够学会准确区分人类撰写和AI生成的文本，并利用这种反馈重新校准其自我认知的熟练程度。我们还探讨了个体在做出这些判断时依赖的具体标准，重点关注文本的风格和可读性。我们使用GPT-4o生成了几百篇跨越各种体裁和文本类型的文本，这些文本与Koditex（一个包含人类撰写的多级语料库）相当。然后，我们向255名捷克母语者展示了随机化的文本配对，要求他们判断哪些文本是人类撰写的，哪些是AI生成的。参与者被随机分配到两个条件中：一个在每次试验后接收即时反馈，另一个在实验结束前不接收任何反馈。我们记录了识别准确性、信心水平、反应时间以及对文本可读性的判断，同时还收集了人口统计学数据以及参与者在实验前对AI技术的使用情况。接收即时反馈的参与者在准确性和信心校准方面显示出显著改进。参与者最初对AI生成的文本特征存在错误的假设，包括对风格刚性和可读性的期望。值得注意的是，在没有反馈的情况下，参与者在最自信时犯了最多的错误——这一问题在反馈组中得到了很大程度的解决。通过目标训练和明确反馈，区分人类和AI生成的文本的能力可以有效学习，这有助于纠正对AI风格特征和可读性的误解，以及其他未探索的变量，同时促进更准确的自我评估。这一发现可能在教育环境中尤为关键。

发布时间: 5/7/2025

查看原文

理解并利用可塑性进行非稳态网络资源适应

作者: Zhiqiang He, Zhi Liu

arXiv:2505.01584v2 交叉类型公告摘要：适应非稳态网络条件给资源适应性带来了巨大挑战，而当前的解决方案主要基于稳态假设。尽管数据驱动的强化学习方法为处理网络动力学提供了有前途的解决方案，但我们系统的调查揭示了一个关键的限制：神经网络遭受可塑性丧失，严重影响了它们适应网络条件变化的能力。通过分析神经传播机制的理论分析，我们表明现有的静默神经指标未能充分表征可塑性丧失。为了解决这一限制，我们提出了静默神经理论，它提供了对可塑性退化更全面的框架。基于这些理论洞察，我们提出了重置静默神经（ReSiN），这是一种通过正向和反向传播状态引导的策略性神经重置来维持神经可塑性的方法。在我们实施的自适应视频流媒体系统中，与现有的解决方案相比，ReSiN 显著提高了性能，实现了最高168%的更高比特率和108%更好的用户体验（QoE）的同时保持了相当的流畅性。此外，在稳态环境中，ReSiN 一致地表现出更好的性能，表明其在不同网络条件下的鲁棒适应性。

发布时间: 5/7/2025

查看原文