arXiv:2502.11639v1 类型:交叉
摘要:我们提出了一个新的建模框架,用于在深度学习中实现可解释性,这一框架以推理不变性原则为基础。尽管直接验证可解释性随着系统变量数量的增加呈指数级增长,但我们展示了通过将可解释性视为马尔可夫性质并采用神经重参数化技术,可以缓解这种复杂性。基于这些见解,我们提出了一个新的建模范式——神经生成和可解释执行,这使得规模化的不变性验证成为可能。这种范式提供了一种通用方法,用于设计不仅具有表现力而且具有透明性的神经可解释推理器。
arXiv:2502.11617v1 类型: cross
摘要:贝叶斯推断和频域推断是统计估计中的两个基本范式。贝叶斯方法将假设视为随机变量,加入先验并利用贝叶斯定理更新信念,而频域方法假定假设是固定的但未知的,依赖于最大似然等估计器。尽管对这两种方法的比较研究非常广泛,但在深度学习领域,频域范式由于贝叶斯推断计算复杂度高以及后验估计方法的近似差距,点估计方法已经变得占主导地位。然而,在再保险估计器的领域内,对这两种方法之间的权衡理解不足。在该领域内,针对观察结果进行训练的上下文学习者可以估计点值、最大后验估计或者使用归一化流、基于得分的扩散采样器或对角高斯近似来估计完整的后验。为了帮助解决这一问题,我们在广泛的难题设置中进行了严格比较分析,从线性模型到浅层神经网络,采用稳健的评估框架来评估这两种方法在可处理任务中的同分布和异分布泛化能力。我们的实验表明,再保险点估计器通常优于后验推断,尽管后验推断在一些低维度问题中仍具有竞争力,我们还将进一步讨论这种现象的原因。
arXiv:2502.11614v1 交叉公告类型
摘要:先前的研究表明,区分由大规模语言模型(LLMs)生成的文本与人类撰写的文本极具挑战性,往往还不如随机猜测。为了验证这一发现的通用性,跨越不同语言和领域,我们进行了一个广泛的研究案例,以确定人类检测准确性的上限。在涵盖9种语言和9个领域的16个数据集中,19位标注者实现了平均检测准确性为87.6%,从而挑战了之前的结论。我们发现,人类与机器文本之间的主要差距在于具体性、文化细微之处和多样性。在超过50%的情况下,通过明确解释提示之间的差异可以部分缩小这些差距。然而,我们也发现,当人类无法清楚地识别其来源时,人类并不总是偏好人类撰写的文本。
arXiv:2502.11612v1 交叉类型:
摘要:Soft Actor-Critic (SAC) 算法搭配高斯策略已经成为实现最大熵强化学习(MaxEnt RL)目标的主流实现,该目标将熵最大化纳入其中以鼓励探索并提高策略的鲁棒性。虽然高斯策略在简单的任务上表现出色,但由于其固有的单模性,其探索能力和在复杂多目标RL环境中的潜在性能受到限制。在本文中,我们采用生成模型——一种能够捕捉复杂多模态分发的强大生成模型——作为策略表示,以实现MaxEnt RL目标,发展了一种名为MaxEnt RL with Diffusion Policy (MaxEntDP)的方法。该方法能够高效探索,并使策略更接近最优的MaxEnt策略。在Mujoco基准上的实验结果表明,MaxEntDP在MaxEnt RL框架内的高斯策略和其他生成模型中表现出优越性,并在基于扩散的在线RL算法中与其他先进算法表现出相当的性能。我们的代码可在https://github.com/diffusionyes/MaxEntDP获取。
arXiv:2502.11611v1 交叉类型: 交叉学科
摘要:本文是语言学、法律和计算机科学之间的合作研究,旨在评估自动化翻译系统中的刻板印象和偏见。我们倡导中性性别翻译作为促进性别包容性和提高机器翻译客观性的手段。我们的方法重点是在英译意翻译中识别性别偏见。首先,我们根据人权法和语言学文献定义性别偏见。然后,我们通过识别性别特定的术语,如 she/lei 和 he/lui 作为关键元素。接着,我们通过计算目标术语与其他数据集中术语的余弦相似度,揭示模型对语义关系的认知。利用数值特征,我们有效地评估了偏见的强度和方向。我们的发现为开发和训练中性性别翻译算法提供了实际见解。
arXiv:2502.11603v1 Announce Type: cross
摘要:大规模语言模型(LLMs)展示了强大的自然语言处理能力,但也继承并放大了社会偏见,包括性别偏见,这引发了公平性方面的担忧。现有的去偏见方法面临显著的局限性:参数调整需要访问模型权重,基于提示的方法通常会降低模型实用性,而基于优化的技术缺乏普适性。为了解决这些问题,我们提出了DR.GAP(示范与推理以实现性别意识提示),这是一种自动化且模型无关的方法,可以在减轻性别偏见的同时保持模型性能。DR.GAP 选择揭示偏见的示例并生成结构化推理,以指导模型产生更加公允的回应。在多种LLM(GPT-3.5、Llama3和Llama2-Alpaca)上的核心ference解析和问答任务的广泛实验表明,其有效、普适和鲁棒性。DR.GAP 可以泛化到视觉语言模型(VLMs),实现显著的偏见降低。
arXiv:2502.11596v1 类型: cross
摘要:表格式深度学习方法在处理输入之前需将数值和类别特征嵌入到高维空间中。现有方法通过采用特定类型编码方法来应对表数据的异质性,这限制了跨表数据的转移潜力以及利用预训练知识的能力。我们提出了一种新颖的方法,首先将表数据转换为文本,然后利用预训练的大语言模型表示来编码数据,从而提供了一种即插即用的方案以改进表数据的深度学习方法。我们通过在七个分类数据集上的验证展示了我们的方法在准确率上优于竞争模型,如MLP、ResNet和FT-Transformer。
arXiv:2502.11578v1 类别: cross
摘要:大规模语言模型(LLMs)在自然语言生成方面取得了显著进步,但在要求精确计算和结构分析的任务中通常面临挑战。本文通过计算LIX可读性度量值和平均依赖距离(ADD),研究了最先进的LLMs在语言复杂度测量任务中的性能。使用瑞典高中和大学水平的论文,我们评估了模型在计算LIX得分和执行依存句法分析方面的能力,并将它们的结果与公认的基准进行了比较。我们的研究发现表明,尽管所有模型在这些任务上都存在一定的能力,但ChatGPT-o1-mini表现最为一致,在LIX计算和依存句法分析方面的准确性都是最高的。此外,我们观察到,计算LIX的准确性与模型在大规模多任务语言理解(MMLU)基准测试上的整体表现之间存在强烈的显著相关性(相关系数-0.875,p<0.026,N=6)。这些结果表明,语言复杂度测量能力可以作为评估LLMs通用能力的嘈杂的零样本代理,提供了一种无需大量基准测试数据集的模型评估实用方法。
arXiv:2502.11573v1 Announce Type: cross
摘要:大语言模型(LLMs)和多模态大语言模型(MLLMs)在推理能力方面取得了显著进展。然而,它们仍然面临着如高计算需求和隐私问题等挑战。本文专注于开发高效的少量语言模型(SLMs)和多模态少量语言模型(MSLMs),以保留竞争性的推理能力。我们介绍了一种新颖的训练管道,该管道增强了推理能力,并更便于在边缘设备上部署,从而在降低开发成本的同时实现最佳性能。InfR~旨在通过改进推理、降低采用障碍和通过较小的模型尺寸解决隐私问题,来推动AI系统的发展。资源可在https://github.com/Reallm-Labs/InfiR获取。
arXiv:2502.11569v1 声明类型: cross
摘要: 推理长期以来被认为是大型语言模型(LLMs)的一个新兴属性,出现在或高于某个规模(约1000亿个参数)的现象。然而,最新的研究表明,这一假设受到挑战,显示小型语言模型(SLMs)也能达到竞争性的推理性能。SLMs因其效率和部署性而受到越来越多的青睐。然而,关于各种SLMs的推理能力还没有系统的研究,包括那些从头训练的或通过量化、剪枝和蒸馏从LLMs衍生出来的模型。这提出了一个关键问题:SLMs能否达到与LLMs相当的推理能力?在这项工作中,我们系统地调研、基准测试并分析了六大家族共72个SLMs在14个推理基准上的表现。为了实现可靠的评估,我们检查了四种评估方法,并将四个LLM裁判员与人工评估在800个数据点上进行比较。我们对所有实验重复进行了三次,以确保稳健的性能评估。此外,我们还分析了小型模型中不同提示策略的影响。除了准确性之外,我们还在对抗条件和中间推理步骤下评估了模型的鲁棒性。我们的发现挑战了规模是实现强大推理的唯一途径的假设。相反,我们认为通过结构化的训练或后训练压缩可以获得具有强大推理能力的SLMs。它们可以作为推理密集型任务中LLMs的有效替代方案。