arXiv 论文列表

作者: Jiuzhou Han, Wray Buntine, Ehsan Shareghi

arXiv:2504.00406v1 说明类型：交叉摘要：大规模语言模型展示了令人印象深刻的推理能力，但常常产生不可靠或错误的响应。现有的验证方法通常是针对特定模型或特定领域的，需要大量的计算资源，并且缺乏在多种推理任务中的可扩展性。为了应对这些局限性，我们提出了一种统一的验证代理VerifiAgent，它结合了两个层次的验证：元验证，评估模型响应的完整性和一致性；以及基于工具的自适应验证，其中VerifiAgent自主选择合适的验证工具，依据推理类型，包括数学推理、逻辑推理或常识推理。这种自适应方法确保了在不同验证场景中的效率和稳健性。实验结果显示，在所有推理任务中，VerifiAgent比基线验证方法（例如，演绎验证器、回溯验证器）表现更优。此外，它还可以通过利用验证结果的反馈进一步提高推理准确性。VerifiAgent还可以有效应用于推理缩放，在数学推理领域，即使生成样本较少，也能获得更好的结果和更低的成本。代码可在 https://github.com/Jiuzhouh/VerifiAgent 获得。

发布时间: 4/2/2025

查看原文

超越广角图像：基于时空扩散适应的无监督视频人像修正

作者: Wenbo Nie, Lang Nie, Chunyu Lin, Jingwen Chen, Ke Xing, Jiyuan Wang, Yao Zhao

arXiv:2504.00401v1 Announce Type: cross 摘要：广角摄像头尽管因其在内容创作中的受欢迎程度而受到关注，但由于透镜边缘的失真引起的面部拉伸而导致视觉吸引力下降。为了解决这一问题，我们提出了一种名为ImagePD的图象肖像矫正框架，它将变压器的长范围感知与扩散模型的多步降噪整合到一个统一框架中，实现了全局结构的鲁棒性和局部细节的精炼。此外，考虑到获得视频标签的成本较高，我们通过时空扩散适配，结合空间一致性和时间平滑性约束，将ImagePD应用于无标签的广角视频（称为VideoPD）。对于前者，我们鼓励去噪后的图像按广角失真的分布模式近似伪标签，而对于后者，我们通过反向光学流推导矫正轨迹并进行平滑。与ImagePD相比，VideoPD在空间上保持高质量的面部修正，并按顺序缓解潜在的时间抖动。最后，为了建立评估基准并训练框架，我们建立了一个具有丰富人数、光照条件和背景多样性的视频肖像数据集。实验表明，所提出的方法在定量和定性上优于现有解决方案，有助于生成具有稳定自然肖像的高质量广角视频。代码和数据集将可供下载。

发布时间: 4/2/2025

查看原文

当说服 overriding 了真理在多代理大模型辩论中的作用：引入一种基于信心的说服 overriding 率（CW-POR）

作者: Mahak Agarwal, Divyam Khanna

arXiv:2504.00374v1 类别: cross 摘要: 在许多现实场景中，单个大规模语言模型（LLM）可能会遇到相互矛盾的声明——一些是准确的，另一些则坚决地不正确——并必须判断哪一个是真实的。我们在一种单轮多智能体辩论框架中研究这种风险：一个基于LLM的智能体提供来自TruthfulQA的真实答案，另一个则极力辩护一个错误的陈述，而相同的LLM架构作为裁判。我们引入了置信加权说服覆盖率（CW-POR），该指标不仅捕获了裁判被误导的频率，还捕获了其对错误选择的强烈程度。我们在五个开源LLM（3B-14B参数）上进行的实验，系统地变化了智能体的语.amount（30-300词），揭示了即使是较小的模型也能构建出说服力强的论据来覆盖真实答案——通常是有高置信度的。这些发现强调了进行稳健校准和对抗性测试的重要性，以防止LLM自信地推广不实信息。

发布时间: 4/2/2025

查看原文

混合全局-局部表示与增强的空间指导在零样本引用图像分割中的应用

作者: Ting Liu, Siyuan Li

arXiv:2504.00356v1 交叉训练类型: cross 摘要: 零样本图像分割（RIS）在段任何模型（SAM）和CLIP等模型的驱动下取得了显著进步，使得视觉和文本信息对齐方面取得了实质性的进展。尽管取得了这些成功，但对于精确和高质量的掩码区域表示的提取仍然是一个关键挑战，限制了RIS任务的全部潜力。在本文中，我们介绍了一种无需训练的混合全局-局部特征提取方法，该方法将详细的掩码特定特征与周围区域的上下文信息结合起来，增强掩码区域表示。为了进一步加强掩码区域与引言表达之间的对齐，我们提出了一种空间引导增强策略，提高空间一致性，这对于准确定位描述的区域至关重要。通过结合多种空间线索，该方法有助于实现更稳健和精确的引言分割。在标准RIS基准上的广泛实验表明，我们的方法在现有的零样本RIS模型中显著表现更优，实现了显著的性能提升。我们相信，我们的方法推进了RIS任务，并建立了一个适用于区域-文本对齐的多功能框架，为跨模态理解和交互提供了更广泛的影响。代码可参见 https://github.com/fhgyuanshen/HybridGL 。

发布时间: 4/2/2025

查看原文

基于集成大语言模型的入侵检测与安全切片xApp相结合以确保O-RAN使能的无线网络部署的安全

作者: Joshua Moore, Aly Sabri Abdalla, Prabesh Khanal, Vuk Marojevic

arXiv:2504.00341v1 Announce Type: cross 摘要：Open Radio Access Network（O-RAN）架构正在通过促进开放性、灵活性以及智能闭环优化来重塑电信行业。通过硬件和软件的分离以及多供应商部署的实现，O-RAN降低了成本、提升了性能，并允许快速适应新技术。一项关键技术创新是智能网络切片，它将网络划分为为特定用例或服务质量要求量身定制的隔离切片。RAN智能控制器进一步优化了资源分配，确保了资源的有效利用和服务质量的提高。然而，O-RAN的模块化和动态特性扩大了潜在威胁面，因此需要先进的安全措施来维护网络的完整性和保密性以及可用性。入侵检测系统已成为识别和缓解攻击的必备工具。这项研究探讨了使用大型语言模型（LLMs）根据连接UE的时变流量模式生成安全建议的方法。论文介绍了由大型语言模型驱动的入侵检测框架，并通过实验部署展示了其有效性，比较了非微调和微调模型在特定任务上的准确性。

发布时间: 4/2/2025

查看原文

越南语-日语翻译的全面管道

作者: Hoang Hai Phan, Nguyen Duc Minh Vu, Nam Dang Phuong

arXiv:2504.00339v1 交叉类型: 摘要：由Transformer架构驱动的神经机器翻译（NMT）取得了显著进展，但仍然面临如越南语-日语（Vi-Ja）等低资源语言对的挑战。这些问题包括稀疏的平行数据和处理语言/文化差异。近年来，通过强化学习（RL）进行优化的大语言模型（LLMs）的进步，能够生成高质量的合成数据。我们引入了VNJPTranslate，这是一种旨在系统解决Vi-Ja翻译任务的管道。它使用先进的LLMs和链式思维提示策略进行数据扩增，特别针对通过语料库分析识别出的具有挑战性的段落。随后，我们使用高效的微调技术（Unsloth结合QLoRA）在一个具备强大性能且参数量较少的自回归模型（具体来说，是基于Qwen架构的1.8B参数Sailor模型的微调版本）上进行微调，以创建一个实际可行且高性能的翻译系统。这种综合方法旨在显著提高Vi-Ja翻译的质量，超越现有baseline系统。

发布时间: 4/2/2025

查看原文

具有代理多模态AI的超个性化B2B和B2C广告：一种AI驱动的竞争广告框架

作者: Sakhinana Sagar Srinivas, Akash Das, Shivam Gupta, Venkataramana Runkana

arXiv:2504.00338v1 类型: cross 摘要: 基础模型（FMs）在实际应用中的应用日益增长，这需要适应性强、可靠且高效的动态市场策略。在化学行业中，人工智能发现的材料推动了创新，但商业成功取决于市场的采纳，需要由基模型驱动的广告框架来进行现场操作。我们提出了一种针对B2B和B2C市场的多语言多模态人工智能框架，实现自主、高度个性化的广告。通过将检索增强生成（RAG）、多模态推理和适应性人物定向结合在一起，我们的系统生成了文化上相关且市场意识强的广告，这些广告能够针对不断变化的消费者行为和竞争进行定制。验证结合了实际产品的实验以及模拟人类化的代理殖民地，以建模消费者人物、大规模优化策略并确保隐私合规性。合成实验模拟了现实世界的情景，使我们可以无风险地测试广告策略，同时降低成本。结合结构化检索增强推理与上下文学习（ICL），该框架提高了参与度、防止市场内部竞争、并最大化了广告投入回报率。这项工作将人工智能驱动的创新与市场采纳相结合，推动了在商业营销中的高风险决策中多模态基模型部署的进展。

发布时间: 4/2/2025

查看原文

SeizureTransformer：通过Transformer扩展U-Net以从长时间EEG记录中实现同时时间步长癫痫检测

作者: Kerui Wu, Ziyue Zhao, B\"ulent Yener

arXiv:2504.00336v1 类别: cross 摘要: 癫痫是一种影响全球约6500万人的常见神经系统疾病。快速准确地检测癫痫发作至关重要，因为与之相关的并发症频率高且严重。最近，基于深度学习的自动化癫痫发作检测方法已出现，然而，大多数现有方法需要大量的后期处理，并且不有效地处理EEG数据中的关键长程模式。在本文中，我们提出了一种名为SeizureTransformer的简单模型，该模型由以下部分组成：(i)一个包含一维卷积的深度编码器；(ii)一个残差CNN堆栈和一个变压器编码器，用于将先前的输出嵌入到具有上下文信息的高级表示中；(iii)一个精简解码器，该解码器将这些特征转换为一系列概率，直接指示每个时间步是否存在癫痫发作。在公开和私人EEG癫痫发作检测数据集上的广泛实验表明，我们的模型在2025年由国际人工智能癫痫和其他神经系统疾病会议上组织的“癫痫发作检测挑战赛”中名列前茅，强调了其在实时、精确癫痫检测方面的潜力。

发布时间: 4/2/2025

查看原文

通过知识图谱增强训练检测和减轻LLM中的偏见

作者: Rajeev Kumar, Harishankar Kumar, Kumari Shalini

arXiv:2504.00310v1 宣告类型: cross 摘要: 大型语言模型通过其令人惊讶的能力来理解和生成类人的文本，彻底改变了自然语言处理。然而，这些模型中的许多继承并进一步放大了其训练数据中存在的偏差，引发了伦理和公平性的关注。检测和减轻这些偏差对于确保大型语言模型在其多样化的领域中负责任和公正地行动至关重要。本文探讨了知识图谱增强训练（KGAT）作为一种减轻大型语言模型偏差的新方法。通过使用来自真实世界知识图谱的结构化领域特定知识，我们提高了模型的理解能力并减少了有偏的输出。用于偏差评估的公共数据集包括 Gender Shades、Bias in Bios 和 FairFace，而诸如人口统计平等等价机会等度量标准促进了严格的检测。我们还实施了针对性的缓解策略来纠正有偏的关联，导致有偏输出的显著下降，并改善了偏度指标。配以现实世界的数据集和知识图谱，我们的框架既可扩展又有效，为在敏感和高风险应用中负责任部署铺平了道路。

发布时间: 4/2/2025

查看原文

FedPaI：通过初始化时剪枝实现联邦学习中的极端稀疏性

作者: Haonan Wang, Zeli Liu, Kajimusugura Hoshino, Tuo Zhang, John Paul Walters, Stephen Crago

arXiv:2504.00308v1 类型：交叉摘要：联邦学习（FL）能够在边缘设备上实现分布式训练，但由于边缘环境中的资源限制，给通信和计算效率带来了重大挑战。现有的迭代剪枝技术提高了通信效率，但它们的设计集中化，难以应对FL的去中心化和数据分布不平衡的特性，导致剪枝稀疏度效果不佳。为了解决这些问题，我们提出了FedPaI，这是一种新颖的高效联邦学习框架，利用初始化剪枝（PaI）来实现极致稀疏度。FedPaI 在训练初期就识别出最优的稀疏连接，最大限度地提高模型容量，并通过在训练开始时固定稀疏模式来显著降低通信和计算开销。为了适应不同的硬件和软件环境，FedPaI 支持结构化和非结构化剪枝。此外，我们引入了个性化的客户端剪枝机制以提高学习容量，并引入了感知稀疏度的服务器端聚合以增强效率。实验结果表明，与现有使用传统迭代剪枝的高效联邦学习方法相比，FedPaI 在效率和模型准确性方面均表现出显著的优势。我们的FedPaI首次在非一致独立同分布（non-IID）设置中实现了高达98%的极致稀疏度，而不损害模型的准确性。通过采用我们的FedPaI进行模型学习能力和稀疏度的联合优化，联邦学习应用可以实现更快的收敛并且将训练加速6.4到7.9倍。

发布时间: 4/2/2025

查看原文