arXiv:2502.03688v1 宣告类型: cross
摘要:最近,DeepSeek 在AI社区内外引起了广泛关注。一个有趣的问题是 DeepSeek 与其他大型语言模型(LLMs)相比的情况如何。大型语言模型可以执行许多任务,在本文中,我们使用预测结果的任务,使用短文本进行比较。我们考虑了两种设置:作者分类设置和引用分类设置。在第一个设置中,目标是确定一段短文本是由人类还是AI撰写的。在第二个设置中,目标是根据文本内容将引用分类为四种类型之一。对于每个实验,我们将 DeepSeek 与四款流行的大型语言模型 Claude、Gemini、GPT 和 Llama 进行比较。我们发现,就分类准确性而言,DeepSeek 在大多数情况下优于 Gemini、GPT 和 Llama,但在某些情况下表现不及 Claude。我们还发现,DeepSeek 的运行速度与其他模型相比较慢,但使用成本较低,而 Claude 的成本比其他所有模型都高得多。最后,我们发现就相似性而言,DeepSeek 的输出与 Gemini 和 Claude 的输出最为相似(在所有五款大型语言模型中,Claude 和 Gemini 的输出最为相似)。
在这篇论文中,我们还展示了由我们自己收集的完全标注的数据集,并提出了一种食谱,我们可以使用大型语言模型和最近的数据集 MADStat 来生成新的数据集。我们论文中的数据集可以用作未来对大型语言模型研究的基准。
arXiv:2502.03686v1 类型: cross
摘要: 扩散模型在样本质量方面表现出色,但现有的引导方法往往需要额外的模型训练,或者仅限于特定任务。我们从变分推理和控制的角度回顾了扩散模型中的引导方法,引入了扩散轨迹匹配(DTM),以使预训练的扩散轨迹满足终端成本。DTM 统一了广泛类别的引导方法,并允许新的实现。我们在此框架内提出了一种新方法,在几种线性和(盲)非线性逆问题上取得了最先进的结果,无需额外的模型训练或修改。例如,在 ImageNet 非线性去模糊任务中,我们的模型实现了 34.31 的 FID 分数,显著优于最佳预训练方法基线(FID 78.07)。未来我们将提供代码。
arXiv:2502.03678v1 降噪类型: cross
摘要:在大型语言模型(LLMs)中,自回归解码在文本生成中的广泛应用由于缺乏内置机制来进行生成内容的改进和/或修正,本质上是次优的。我们在本文中以联合概率的形式考虑生成回复的最优性,即将所有相同时间的标记一起考虑。我们理论上 characterizes 自回归生成的回复与其长度相同的全局最优对应物之间的潜在偏差。我们的分析表明,在文本生成过程中,当明显出现不确定性时,我们需要注意,这可能表明生成历史的次优性。为了应对自回归解码在文本生成中的缺陷,我们提出了一种方法,该方法结合了滑动反射窗口和暂停准则,使得在解码过程中可以互换地进行改进和生成。我们的选择性改进框架在效率和最优性之间取得了平衡,我们广泛实验结果证明了该方法的有效性。
arXiv:2502.03674v1 交叉公告类型:cross
摘要:本文回顾了从遥感图像中检测小目标的方法,并对四种最先进的方法进行了 empirical 评估,以深入了解方法性能和技术挑战。特别是,我们以城市卫星图像中的车辆检测和农业用地卫星图像中的蜂箱检测作为应用场景。参考现有的综述和文献,我们确定了几种在 empirical 研究中表现突出的方法。我们在实验中使用了公共的高分辨率卫星图像数据集。
arXiv:2502.03671v1 类型: cross
摘要:大型语言模型(LLMs)在各种自然语言处理(NLP)任务中取得了显著的成功,但其推理能力仍然是一个基本的挑战。尽管LLMs表现出令人印象深刻的流畅性和事实记忆能力,但在进行复杂的推理、逻辑推理、数学问题解决、常识推理和多步骤推理等方面,它们的表现往往未能达到人类的期望。本文综述了增强LLMs推理能力的新兴技术。我们将现有的方法归类为关键方法,包括提示策略(例如,步骤推理、自我一致性、思维树推理)、架构创新(例如,检索增强模型、模块化推理网络和神经-符号集成)以及学习范式(例如,针对推理特定数据集的微调、强化学习和自我监督的推理目标)。此外,我们探讨了用于评估LLMs推理能力的评估框架,并指出了开放挑战,如幻觉、鲁棒性和跨多种任务的推理泛化能力。通过综合最近的进展,本文希望为未来增强推理的LLMs的研究和实际应用提供有价值的见解。
arXiv:2502.03669v1 交叉公告类型:
摘要:AI方法,如生成模型和强化学习,最近已被应用于组合优化(CO)问题,尤其是NP难问题。本文将基于GPU的方法与基于经典CPU的方法在最大独立集(MIS)问题上进行了比较。在标准图家族的实验中显示,基于AI的算法未能超越最先进的经典求解器KaMIS在单个CPU上的解决方案质量,在许多情况下甚至无法匹配其解决方案质量。一些基于GPU的方法甚至与基于度数的贪心算法类似,即便使用了局部搜索等后处理技术,基于AI的方法仍然不如基于CPU的求解器。
我们将开发一种新的分析模式来揭示,非回溯AI方法,例如基于GFlowNets的LTFT,最终推理方式与最简单的基于度数的贪心方法类似,并且比KaMIS更差。我们还发现,基于经典CPU的算法,尤其是KaMIS,在稀疏随机图上的性能很强,这似乎驳斥了Coja-Oghlan与Efthymiou(2015年)提出的高效算法的已知上界猜想。
arXiv:2502.03660v1 交叉公告类型:
摘要:通用机器学习互动势能(MLIPs)能够加速材料发现的模拟。然而,当前的研究努力由于以下原因未能有效利用MLIPs:1. 过度依赖密度泛函理论(DFT)来创建MLIP的训练数据;2. MLIPs在可靠且准确地执行大规模分子动力学(MD)模拟以涵盖各种材料方面存在局限性;3. 对MLIPs潜在能力的理解有限。为了解决这些缺陷,我们认为MLIP研究应该优先考虑:1. 使用更准确的模拟方法来创建大规模MLIP训练数据(例如耦合簇理论),以覆盖广泛的材料设计空间;2. 创建利用大规模基准测试、可视化和可解释性分析的MLIP计量工具,以更深入地理解MLIPs的内部工作机制;3. 开发计算效率高的MLIPs来执行MD模拟,这可以准确地模拟广泛的材料属性。通过这些跨学科的研究方向,可以帮助进一步将MLIPs应用于准确模拟设备尺度的复杂材料的实际应用中。
arXiv:2502.03656v1 类型: cross
摘要: 数据集蒸馏是指将大型数据集凝练为较小但高度代表性的合成样本的过程。尽管先前的研究主要集中在图像分类上,但其在图像超分辨率(SR)中的应用仍然未被充分探索。这项探索性工作研究了多种应用于SR的数据集蒸馏技术,包括从不同方面考虑的像素空间和潜在空间方法。我们的实验表明,在保持与完整数据集相当的SR性能的同时,可以实现91.12%的数据集大小减少。我们进一步分析了初始化策略和蒸馏方法,以优化内存效率和计算成本。我们的发现为SR中的数据集蒸馏提供了新的见解,并为进一步的发展奠定了基础。
arXiv:2502.03654v1 类型: 交叉
摘要:激活函数是深度学习架构中的基本元素,因为它们显著影响训练动态。虽然ReLU在广泛应用中,但由于其导致神经元死亡的问题而弊端明显,这一问题已被LeakyReLU、PReLU和ELU等改进版本所缓解,这些改进版本更好地解决了负神经元输出的问题。最近,自门控激活函数如GELU和Swish因其平滑性脱颖而出,依靠这种平滑性确保梯度流的稳定性并防止神经元的无效活动。在本文中,我们提出了GoLu(Gompertz Linear Unit)激活函数,这是一种新的自门控激活函数,定义为 \(\mathrm{GoLU}(x) = x \, \mathrm{Gompertz}(x)\),其中 \(\mathrm{Gompertz}(x) = e^{-e^{-x}}\)。GoLu激活函数利用Gompertz函数的不对称性,相比GELU和Swish更有效地减少潜在空间中的方差,同时保持稳健的梯度流。在图像分类、语言建模、语义分割、目标检测、实例分割和扩散等多样任务的广泛实验中,GoLu表现出优于最新激活函数的性能,确立了GoLu作为现有激活函数的稳健替代品的地位。
arXiv:2502.03629v1 声明类型: cross
摘要:现有的图像编辑模型难以满足现实世界的需求。尽管在学术基准测试中表现出色,但它们仍未被广泛采用以满足实际用户需求。为这些模型提供数据集的编辑使用了人工编辑,缺乏能够应对用户请求真正多样性的规模和生态有效性。我们介绍了REALEDIT,这是一个包含真实用户请求和来源于Reddit的人类编辑的大规模图像编辑数据集。REALEDIT包含一个包含9300个示例的测试集,用于评估模型在真实用户请求上的表现。结果显示,现有模型在这些任务上表现不佳,突显了需要现实训练数据的必要性。为了解决这一问题,我们介绍了48,000个训练示例,并训练了RELALEDIT模型,取得了显著的进步——在人类判断中比竞争对手高出165个elo点,自动VIEScore指标的相对改进达到92%。我们将模型部署在Reddit上,测试其在新请求上的表现,收到了积极反馈。除了图像编辑,我们通过与一家深度假脸检测非营利组织合作,探索了REALEDIT在检测编辑图片方面的潜力。在RELALEDIT数据上微调他们的模型,其F1分数提高了14个百分点,这证明了该数据集在广泛应用中的价值。