arXiv:2504.12898v1 声明类型: cross
摘要: 尽管取得了显著进展,但最近的研究表明,当前的大语言模型(LLMs)可能仍然会捕捉到数据集偏差并在推理过程中利用这些偏差,导致LLMs的泛化能力较差。然而,由于数据集偏差的多样性和基于上下文学习的偏差抑制不足,先前的知识引导的去偏差方法和基于上下文学习的自动去偏差方法的有效性有限。为了解决这些挑战,我们探索了因果机制与信息论的结合,并提出了一种信息增益引导的因果干预去偏差(IGCIDB)框架。该框架首先使用信息增益引导的因果干预方法自动、自主地平衡指令微调数据集的分布。随后,它采用标准的监督微调过程在去偏差的数据集上训练LLMs。实验结果表明,IGCIDB可以有效去偏差LLMs,提高其在不同任务上的泛化能力。
arXiv:2504.12891v1 交叉学科类型: 多智能体系统
摘要:人工智能(AI)的快速发展引入了AI代理作为各行业颠覆性的范式,然而它们在机器翻译(MT)中的应用尚未得到充分探索。本文描述并分析了单智能体系统和多智能体系统在MT中的潜在应用,反思了它们如何增强多语言数字通信。虽然单智能体系统非常适合简单的翻译任务,但涉及多个专门AI代理以结构化方式协作的多智能体系统可能为需要高精度、专业领域知识和上下文意识的复杂场景提供了一个有望的解决方案。为了证明多智能体流程在MT中的可行性,我们正在进行一项试点研究,旨在法律MT。该研究采用了一个涉及四个专门AI代理的多智能体系统,用于(i) 翻译,(ii) 贴切性审查,(iii) 流畅性审查,以及(iv) 最终编辑。我们的研究结果表明,多智能体系统有可能显著改善领域适应能力和上下文意识,其翻译质量优于传统的MT或单智能体系统。本文还为未来关于MT中多智能体应用的研究、集成到专业翻译流程中的应用以及在论文中分析的系统的演示搭建了平台。
arXiv:2504.12867v1 通告类型: 横跨
摘要:人类的语言交流不仅仅是信息的传递,它还是情感的深刻交流和个体之间的联系。尽管文本到语音(TTS)模型取得了巨大进步,但在控制生成语音的情感表达方面仍然面临挑战。在本文中,我们提出了一种名为EmoVoice的新型情感可控TTS模型,利用大型语言模型(LLMs)实现精细的情感自然语言控制,并设计了一种声素增强的变体,使模型能够并行输出声素令牌和音频令牌以增强内容一致性,该设计灵感来自于思考链(CoT)和思考模态(CoM)技术。此外,我们引入了EmoVoice-DB,这是一个高质量的、包含40小时英语情感演讲数据集,具有表达性演讲和细粒度情感标签,带有自然语言描述。EmoVoice仅使用合成训练数据在英语EmoVoice-DB测试集上达到了最先进的性能,并且在我们的内部数据上在中文Secap测试集上达到了最先进的性能。我们进一步调查了现有情感评价指标的可靠性以及它们与人类感知偏好的一致性,并探索使用最先进的多模态语言模型GPT-4o-audio和Gemini评估情感语音。样本演示可在https://anonymous.4open.science/r/EmoVoice-DF55获取。数据集、代码和检查点将被发布。
arXiv:2504.12856v1 交叉公告类型
摘要:大规模预训练视觉基础模型在各种视觉任务中显示出了巨大的潜力。然而,对于工业异常检测而言,真实缺陷样本的缺乏给利用这些模型带来了一个关键挑战。虽然已建立的生成模型在2D异常生成方面取得了显著进展,但工业制造中3D传感器的采用使利用3D数据进行表面质量检测成为新兴趋势。与2D技术不同,3D异常生成仍未得到充分探索,限制了3D数据在工业质量检测中的潜力。为了解决这一缺口,我们基于Peirlin噪声和表面参数化提出了一个新颖且简单的3D异常生成方法,称为3D-PNAS。我们的方法通过将点云投影到2D平面上,从Peirlin噪声场中采样多尺度噪声值,并沿法线方向扰动点云来生成现实的3D表面异常。通过全面的可视化实验,我们展示了关键参数(包括噪声尺度、扰动强度和八度)如何提供对生成异常的精细控制,从而能够从明显的变形到微妙的表面变化创建多样化的缺陷模式。此外,我们的跨类别实验表明,该方法在不同对象类型中生成一致且几何上合理的异常,能够适应其特定的表面特征。我们还提供了一个全面的代码库和可视化工具包,以促进未来研究。
arXiv:2504.12841v1 交叉类型:
摘要:我们介绍了ALT,一个专门为高效且准确的时间序列分类(TSC)而创建的开源Python包。该包实现了基于自适应法则的转换(ALT)算法,该算法通过可变长度的时间窗口平移将原始时间序列数据转换到线性可分特征空间中。这一自适应方法通过有效捕捉不同时间尺度的模式,改进了其前身线性法则转换(LLT)算法。该软件在可扩展性、可解释性和易用性方面进行了实现,实现了最先进的性能,同时具有最小的计算开销。在实际数据集上的广泛基准测试表明,ALT在物理及相关领域多种TSC任务中具有实用价值。
arXiv:2504.12833v1 宣告类型: cross
摘要: 我们提出了一种新的方法,用于训练专门的基于指令的图像编辑扩散模型,解决了输入图像结构保真度和用户提示语义对齐的关键挑战。我们引入了一种在线强化学习框架,通过不依赖大量的人工标注或构建大规模数据集来使扩散模型与人类偏好对齐。我们的方法从两个方面显著提高了现实感和指令对齐。首先,提出的模型在复杂场景中实现了精确且结构连贯的修改,同时在与指令无关的区域保持了高保真度。其次,通过利用视觉提示捕获所需的编辑的细微之处,使用户能够详细控制视觉编辑,而无需冗长的文本提示。这种方法简化了用户实现高度特定编辑的努力,仅需提供5张描绘某个概念的参考图像进行培训。实验结果表明,我们的模型在仅经过10步训练后,可以在复杂场景中执行复杂的编辑。最后,我们通过将其应用于机器人学来展示了该方法的灵活性,其中通过目标导向的模拟到现实的图像编辑,提高模拟环境的视觉真实性,从而提高了它们作为真实世界设置的代理的实用性。
arXiv:2504.12817v1 交叉公告类型
摘要:本文探讨了将图神经网络(GNNs)与定性可解释图(QXGs)结合以在自动驾驶中实现场景理解的方法。场景理解是任何进一步反应性或主动决策的基础。场景理解和相关推理本质上是一个解释任务:为什么其他交通参与者在做某事,是什么或谁导致了他们的行为?尽管以前的工作利用浅层机器学习模型展示了QXGs的有效性,这些方法仅限于分析对象对之间的单一关系链,忽略了更广泛的场景上下文。我们提出了一种新颖的GNN架构,用于处理整个图结构,以识别交通场景中的相关对象。我们使用nuScenes数据集进行评估,该数据集富含DriveLM的人标注的相关性标签。实验结果表明,基于GNN的方法在基准方法相比取得了更好的性能。该模型有效解决了在识别相关对象任务中固有的类不平衡问题,并考虑了场景中所有对象的完整时空关系。我们的工作展示了将定性表示与深度学习方法结合用于自动驾驶系统中具有解释性的场景理解的潜力。
arXiv:2504.12807v1 交叉类型: cross
摘要: 宫颈涂片图像分割对于宫颈癌诊断至关重要。然而,传统的分割模型往往难以处理宫颈涂片图像中复杂的细胞结构和变化。本研究提出了一种结合预训练 DenseNet201 作为 U-Net 架构的编码器的混合 Dense-UNet201 优化方法,并使用蜘蛛猴优化(SMO)算法对其进行优化。Dense-UNet201 模型在特征提取方面表现出色。SMO 被修改以处理类别和离散参数。本研究使用了 SIPaKMeD 数据集,并使用损失、准确率、交并比(IoU)和 Dice 系数等关键性能指标进行了评估。实验结果表明,Dense-UNet201 比 U-Net、Res-UNet50 和 Efficient-UNetB0 表现更佳。SMO Dense-UNet201 的分割准确率为 96.16%,IoU 为 91.63%,Dice 系数得分为 95.63%。这些发现强调了图像预处理、预训练模型和元启发式优化在提高医学图像分析效果方面的有效性,并为宫颈细胞分割方法提供了新的见解。
arXiv:2504.12806v1 交叉类型:公告
摘要:变量子神经网络(VQNNs)的损失景观因随着量子比特数量增加而指数级增长的局部最小值而特征化。因此,在训练过程中从模型梯度中恢复信息比经典神经网络(NNs)更具挑战性。在本文中,我们提出了一种数值方案,能够成功地从可训练的VQNNs的梯度中重构输入训练数据、实际世界的数据。该方案基于梯度逆运算,通过结合梯度估计、有限差分方法和自适应低通滤波来实现。进一步地,该方案与卡尔曼滤波器结合,以获得高效的收敛性。我们的实验表明,在VQNN模型充分过参数化的情况下,我们的算法可以反演批量训练的数据。
arXiv:2504.12803v1 集群智能类型: 交叉
摘要:群智能在工程和医疗等领域有效地优化了复杂的系统,但算法解决方案往往由于配置和超参数不清晰而导致可靠性较低。本研究分析了粒子群优化(PSO),重点关注不同通信拓扑,即环形、星形和冯·诺依曼拓扑,对收敛性和搜索行为的影响。使用修改后的IOHxplainer,一种可解释的基准测试工具,我们探讨了这些拓扑如何影响信息流、多样性和收敛速度,从而阐明了探索与利用之间的平衡。通过可视化和统计分析,研究增强了对PSO决策的可解释性,并提供了选择适合特定优化任务的拓扑的实用指南。最终,这有助于使基于群的优化更加透明、稳健和可信赖。