arXiv 论文列表

LUMINA-Net：通过多阶段 Illumination 和 Noise 调适网络实现低光环境图像增强

作者: Namrah Siddiqua, Kim Suneung

arXiv:2502.15186v1 公告类型: cross 摘要: 低光图像增强（LLIE）是计算机视觉中的一项关键任务，旨在增强在低光照条件下拍摄的图像的视觉保真度。传统方法经常难以缓解噪音、过曝和颜色失真等普遍存在的问题，从而导致图像质量显著下降。为了解决这些挑战，我们提出了一种先进的深度学习框架LUMINA-Net，专门通过整合多阶段光照和反射模块实现。首先，光照模块智能地调整亮度和对比度级别，同时仔细保留复杂的纹理细节。其次，反射模块结合了降噪机制，利用空间注意力和通道级特征精炼来减轻噪声污染。通过在LOL和SICE数据集上进行的全面实验，使用PSNR、SSIM和LPIPS指标超越了最先进的方法，展示了其在低光图像增强中的有效性。

发布时间: 2/24/2025

查看原文

基于人工智能的短距离速滑运动员起跑时关键身体姿态特征分析

作者: Zhang Xueliana, Fang Yingjieb, Liu Hang

arXiv:2502.15185v1 类型：交叉学科摘要：目的对中国男子短距离速滑运动员的起滑技术进行生物力学分析，确定影响起滑动作有效性的关键因素。方法选择13名高水平男子短距离速滑运动员作为测试对象，使用人工智能视频捕捉与分析系统收集运动数据。在起滑准备、起滑和冲刺三个阶段分析身体姿态特征及其对起滑动作表现的影响。结果在起滑准备阶段，后稳定性角、前腿前角、后腿后角和步幅长度与起滑速度呈现中等到高度的正相关。躯干角度与起滑速度呈现高度的负相关。在起滑和冲刺阶段，躯干角度（TO4, TD4, TO6, TD6）、髋关节角度（TO1, TO4, TO6）和膝关节角度（TD1）与起滑动作的有效性呈现中等到高度的负相关。在起滑和冲刺阶段，膝关节角度（TD2）、冰接触角（TD2, TD4, TD5, TD6）和推动力角（TO1, TO4, TO7）与起滑动作的有效性呈现中等到高度的正相关。结论步幅长度、左膝角和后稳定性角是影响起滑速度的关键因素。后稳定性角和左膝角越大，步幅长度越长，起滑速度越快。在起滑和冲刺阶段，冰接触角和推动力角越小，躯干角和髋关节角的变化越大，起滑动作越有效。

发布时间: 2/24/2025

查看原文

LEDD：大型语言模型赋能的数据湖中数据发现

作者: Qi An, Chihua Ying, Yuqing Zhu, Yihao Xu, Manwei Zhang, Jianmin Wang

arXiv:2502.15182v1 类型: cross 摘要：随着数据湖中数据集规模的不断增大，数据发现已成为数据管理领域的一项重大挑战，尤其是在对表格进行语义搜索和生成层次化全局目录方面。虽然大型语言模型（LLMs）有助于处理数据语义，但在端到端系统中全面利用LLMs来完成这两种与语义相关的任务仍存在挑战。在本次演示中，我们提出了LEDD，这是一种具有可扩展架构的端到端系统，利用LLMs来提供具有语义意义的层次化全局目录和数据湖中的语义表搜索功能。具体而言，LEDD可以根据自然语言规范返回相关的语义表。这些功能使得LEDD成为文本到SQL任务的模型训练和模式链接等下游任务的理想基础。LEDD还提供了一个简单的Python接口，以促进数据发现算法的扩展和替换。

发布时间: 2/24/2025

查看原文

生成图像检测的方法与趋势：一项全面综述

作者: Arpan Mahara, Naphtali Rishe

arXiv:2502.15176v1 类型: cross 摘要: 生成模型的流行，如生成对抗网络（GANs）、扩散模型和变分自编码器（VAEs），使高质量多媒体数据的合成成为可能。然而，这些进步也引发了对手动攻击、不道德使用以及社会危害的重大关切。认识到这些挑战，研究人员越来越多地专注于开发有效检测合成数据的方法，以减轻潜在风险。此前的综述主要集中在虚假信息检测上，经常缺乏对合成图像检测最新进展的覆盖，特别是利用多模态框架以提高法医分析的方法。为了弥补这一差距，本综述提供了对先进生成人工智能模型生成的合成图像检测和分类的最新方法的全面回顾。本综述系统地检查了核心检测方法，识别了方法中的共通之处，并将它们分类为有意义的分类体系。此外，考虑到大型数据集在该领域中的关键作用，我们概述了可公开获取的数据集，这些数据集有助于进一步研究和合成数据检测基准测试。

发布时间: 2/24/2025

查看原文

在大规模语言模型时代的极端语音分类：探索开源和专有模型

作者: Sarthak Mahajan, Nimmi Rangaswamy

arXiv:2502.15155v1 跨领域公告类型摘要：近年来，互联网的广泛应用和社会媒体平台用户基数的增长，导致了极端言论在网络上的泛滥。虽然传统的语言模型在区分中性文本和非中性文本（即极端言论）方面表现出色，但对多种极端言论类型的分类仍面临重大挑战。极端言论分类任务尤为微妙，因为它要求深入了解社会文化背景，以便准确解读发言者的语言意图。即使是人类注释员也往往对这种内容的适当分类意见不一，这突显了该任务的复杂性和主观性。使用人类审查员也存在扩展问题，从而强调了需要自动系统来处理极端言论分类的必要性。ChatGPT的最近推出引起了人们对大型语言模型（LLM）在各种任务中的潜在应用的全球关注。LLM在广泛和多样化的语料库上进行训练，并显示出有效捕捉和编码上下文信息的能力，表明它们是处理这种特定极端言论分类任务的强大工具。在本文中，我们利用马龙尼卡里斯等人（2022）的极端言论数据集中的印度子集，利用LLM开发了一个有效的分类框架。我们评估了开源Llama模型和闭源的OpenAI模型，发现尽管预训练的语言模型显示出一定的有效性，但在领域特定数据上进行微调能够显著增强性能，突显了它们对语言和上下文细微差别的适应能力。虽然基于GPT的模型在零样本设置下优于Llama模型，但在微调后，性能差距消失。

发布时间: 2/24/2025

查看原文

带有边界意识的自信心度加权半监督语义分割学习

作者: Ebenezer Tarubinga, Jenifer Kalafatovich Espinoza

arXiv:2502.15152v1 类型: cross 摘要：半监督语义分割（SSSS）旨在通过利用未标记数据来提高分割性能，同时仅使用有限的标记样本。现有的SSSS方法往往面临耦合问题，即过度依赖初始标记数据会导致学习效果不佳；确信偏差问题，即错误预测会反复得到强化；以及由于边界感知不足和边缘信息模糊导致的边界模糊。为了解决这些问题，我们提出了一种新的SSSS框架CW-BASS。为了减轻错误预测的影响，我们为伪标签分配了置信度权重。此外，我们利用边界划界技术，尽管这些技术在弱监督语义分割（WSSS）中已被广泛研究，但在SSSS中仍被低估。具体而言，我们的方法：（1）通过一个根据伪标签预测的置信度分数调整伪标签影响的置信度加权损失函数来减少耦合；（2）通过动态阈值机制来减少确信偏差，该机制可以学习根据模型性能筛选伪标签；（3）通过一个边界感知模块来解决边界模糊问题，该模块可增强对象边界附近的分割准确性；（4）通过一个置信度衰减策略在训练过程中逐步精炼伪标签来减少标签噪声。在Pascal VOC 2012和Cityscapes上的广泛实验表明，我们的方法实现了最先进的性能。此外，仅使用1/8或12.5%的标记数据，我们的方法在Pascal VOC 2012上的mIoU达到了75.81，突显了其在有限标记设置中的有效性。

发布时间: 2/24/2025

查看原文

投影优化：多目标和多组RLHF的通用框架

作者: Nuoya Xiong, Aarti Singh

arXiv:2502.15145v1 交叉公告类型摘要：强化学习与人类反馈（RLHF）是一种广泛使用的微调方法，它将机器学习模型，特别是语言模型（LM）与人类偏好对齐。通常有多个目标驱动这种偏好，因此人类更易于表达单个目标的比较而非两个选择之间的整体偏好，例如比较两篇论文在其新颖性、清晰度和正确性等方面。多目标RLHF（MORLHF）旨在利用单个目标偏好反馈，并通过将这些目标聚合为一个统一的目标来实现帕累托最优。然而，几乎所有的先前工作都依赖于线性聚合，排除了偏好特定目标（如最差目标）的政策。唯一使用非线性聚合的方法由于其基于奖励的性质和聚合参数变动需要重新训练而计算成本高昂。在这项工作中，我们通过将非线性聚合最大化问题转化为一系列子问题来解决这一局限。每个子问题仅涉及线性聚合，从而使问题变得计算高效。我们进一步扩展了我们的框架以处理多组情境，其中每组具有不同的目标权重。我们的方法使共识的实现或在所有组中最大化聚合目标成为可能。从理论上讲，我们证明了我们的算法框架实现了亚线性遗憾，并且可以轻松适应无奖励算法。从经验上讲，利用我们理论上的见解，我们提出了一种几乎无需训练的算法，只要获得了单个目标的最优策略。

发布时间: 2/24/2025

查看原文

链排名：增强边缘设备上的领域特定RAG大型语言模型

作者: Juntae Lee, Jihwan Bang, Seunghan Yang, Kyuhong Shim, Simyung Chang

arXiv:2502.15134v1 宣告类型: cross 摘要: 使用大规模语言模型（LLMs）的检索增强生成（RAG）在专业化领域尤其有价值，因为在这个领域中，精确性至关重要。为了使LLMs更加专业化以适应目标领域，最近通过Fine-tuning允许LLMs更早地访问目标领域的数据，从而开发了领域特定的RAG。在资源受限的环境中，如边缘设备，领域特定的RAG更为有意义，因为它们应该仅使用小型规模的LLMs可靠地完成特定任务（例如，个性化）。虽然领域特定的RAG在这一点上与边缘设备很好地契合，但它往往依赖于广泛使用的推理技术，如链式思考（CoT）。推理步骤有助于理解给定的外部知识，但小规模的LLMs很难学习它。针对这一点，我们提出了链秩（CoR），其重点从复杂的长时间推理转移到简洁地评估输入外部文档的可靠性。然后，CoR降低了计算复杂性的同时保持了高精度，使其特别适合资源受限的环境。我们在基准测试中取得了最先进的（SOTA）结果，并分析了其有效性。

发布时间: 2/24/2025

查看原文

CoT-ICL 实验室：一种研究基于上下文示范的思考链学习的培养皿

作者: Vignesh Kothapalli, Hamed Firooz, Maziar Sanjabi

arXiv:2502.15132v1 声明类型：cross 摘要：我们引入了CoT-ICL Lab，这是一种框架和方法论，用于生成合成标记数据集，并系统地研究语言模型中的链式思维（CoT）内省学习（ICL）。CoT-ICL Lab通过解耦（1）链式令牌生成中涉及的因果结构与（2）底层令牌处理函数，实现了对内省示例复杂性的细粒度控制。我们使用这些数据集训练仅解码器变换器（最多700M参数），并展示了随着模型规模的增大，CoT能够加速准确性提升。特别是，我们发现对于有限的内省示例，模型深度对于利用CoT至关重要，而更多的示例可以使浅层模型达到深层模型的性能。此外，在训练过程中限制令牌处理函数的多样性可以提高通过ICL的学习因果结构。我们还通过分析变换器嵌入和注意图解释了这些转变。总体而言，CoT-ICL Lab为语言模型中的ICL和CoT的理论和实证洞察提供了一个简单而强大的实验平台。

发布时间: 2/24/2025

查看原文

揭示语言模型的推理阈值：通过注意力图 scales、微调和可解释性

作者: Yen-Che Hsiao, Abhishek Dutta

arXiv:2502.15120v1 公告类型：交叉摘要：本研究调查了不同模型大小和训练数据的各类仅解码器转型基于语言模型的在上下文学习能力，包括GPT2、SmolLM2、OpenELM、TinyLlama、Stable LM和Gemma 2。我们确定了一个关键参数阈值（约16亿），越过该阈值后，在常识推理的多项选择题回答和演绎推理等任务中的推理表现显著提高。特别是，超过该阈值的模型在演绎推理任务中的链式推理（CoT）提示下，成功率达到更高，尤其是那些需要更长推理链的任务，例如反证法和析取消去。为了应对阈值以下模型的局限性，我们展示了使用特定任务实例进行微调可以显著增强推理性能，即使在短推理链的任务提示中没有额外的实例，也能实现准确的CoT生成。最后，对我们分析的注意力图的观察揭示，能够生成正确CoT的模型在后续正确词和正确的词性标注上表现出更高的token级注意力分数，提供了解释推理过程的见解。这些发现共同推进了对仅解码器转型基于语言模型推理能力的理解。代码可以在以下链接获取：https://github.com/AnnonymousForPapers/CoT_Reasoning_Test。

发布时间: 2/24/2025

查看原文