arXiv 论文列表

Plato：高效解码大型语言模型推理计划

作者: Shuowei Jin, Xueshen Liu, Yongji Wu, Haizhong Zheng, Qingzhao Zhang, Atul Prakash, Matthew Lentz, Danyang Zhuo, Feng Qian, Z. Morley Mao

arXiv:2402.12280v2 宣告类型: 替换-交叉摘要: 大型语言模型（LLMs）在自然语言任务中取得了显著的成功，但其推理过程带来了巨大的计算和内存开销。为了提高效率，类似 Thought-Skeleton (SoT) 的并行解码方法将提示分解为子问题，以便同时处理。然而，这些方法通过将语义关联的子问题视为独立问题，显著降低了答案质量。我们提出 Plato，一种新颖的方法，旨在协同设计算法和系统，以实现语义意识的并行解码。Plato 利用 LLMs 将子问题根据逻辑和因果关系组织成依赖图，从而在保持答案连贯性和质量的同时并发解码非依赖节点。为了进一步提高效率，Plato 集成了规划和节点解码阶段，实现了一个全局上下文缓存，并仔细结构化节点推理提示，以最大化键值缓存重用并最小化开销。我们的评估显示，与自回归解码相比，Plato 在吞吐量方面提高了68%，同时在答案质量方面获得40%净收益。与 SoT 相比，Plato 在答案质量方面展示了90%的净收益。消融研究揭示，我们的流水线设计将加速性能提高了29%，而我们的键值缓存重用优化将开销减少了75%。

发布时间: 4/15/2025

查看原文

使用LiDAR波形估计海水物理参数的人工神经网络

作者: Saad Ahmed Jamal

arXiv:2312.10068v2 宣布类型: 替换-交叉摘要：激光测距（LiDAR）是地球观测领域中快速发展的传感器。这是一种利用激光束测量距离并创建物体和环境的详细三维表示的遥感技术。全波形LiDAR的潜力远不止于仅仅进行高度估计和三维重建。信号的整体形状提供了关于水体性质的重要信息。然而，全波形LiDAR的形状尚未被充分利用，因为大多数LiDAR软件通过利用波形内的最大值来处理点云数据。目前LiDAR数据分析领域存在的技术包括通过逆向建模进行深度估计以及通过对数强度和深度的回归来近似衰减系数。然而，这些方法在准确性上存在局限性。通过逆向建模进行的深度估计只能提供近似值，而不考虑表面属性的变化，而通过回归方法预测衰减系数只能通过几个数据点进行泛化，缺乏精度，可能导致估计误差显著。此外，目前还没有建立预测底部反射系数的建模方法。本研究提出了一种基于神经网络的新颖解决方案，用于LiDAR数据分析中的参数估计。通过利用神经网络的强大功能，提出的方法成功地学习了逆向模型，能够预测诸如深度、衰减系数和底部反射系数等参数。通过在实际LiDAR数据上进行测试验证了模型的性能。未来，数据的可用性增加将使这些模型的准确性和可靠性得到进一步提高。

发布时间: 4/15/2025

查看原文

基于DeepFool算法对深度神经网络进行 targeted class manipulation 的 adversarial attacks 整形

作者: S. M. Fazle Rabby Labib, Joyanta Jyoti Mondal, Meem Arafat Manab, Xi Xiao, Sarfaraz Newaz

arXiv:2310.13019v5 Announce Type: replace-cross 摘要：深度神经网络（DNNs）对对抗攻击的敏感性削弱了其在众多应用中的可靠性，强调了深入探讨这些漏洞并制定稳健防御策略的必要性。Moosavi-Dezfoolly等人（2016）提出的DeepFool算法是识别引起输入图像误分类所需最小扰动的关键一步。然而，其通用方法在需要有针对性干预的情景中表现不佳。此外，先前的研究大多集中在攻击的成功率上，而没有充分解决随之而来的图像畸变、图像质量的保持或误分类所需的置信阈值。为弥补这些差距，我们介绍了改进的目标DeepFool（ET DeepFool）算法，这是DeepFool的一种演变，不仅能够指定期望的误分类目标，还集成了可配置的最小置信分数。我们的实证研究展示了这种改进方法在保持图像完整性和减少各种DNN架构的扰动方面的优越性。与Gajjar等人（2022）的Targeted DeepFool等先前版本相比，我们的方法提供了对扰动过程无可比拟的控制，能够精确操控模型的响应。初步结果表明，包括AlexNet和先进的Vision Transformer在内的某些模型对这种操控表现出出色的鲁棒性。通过我们对置信水平的调整揭示的模型不同水平的鲁棒性发现，可能对图像识别领域产生深远的影响。我们的代码可在 https://github.com/FazleLabib/et_deepfool 获取。

发布时间: 4/15/2025

查看原文

GraspGF：学习人类辅助灵巧抓取的基本握持技能

作者: Tianhao Wu, Mingdong Wu, Jiyao Zhang, Yunchong Gan, Hao Dong

arXiv:2309.06038v4 宣告类型: replace-cross 摘要：使用拟人化机械手在人类手可能不可用或不适合的情况下协助个人的情况已经变得至关重要。本文中，我们提出了一种新的任务——人类辅助灵巧抓取，旨在训练用于控制机械手手指以协助用户抓取物体的策略。与传统的灵巧抓取不同，此任务提出了更大的挑战，因为策略不仅要适应多样的用户意图，还要适应物体的几何形状。我们通过提出一种包含两个子模块的方法解决了这一挑战：一种名为 Grasping Gradient Field（抓取梯度场）的基于手-物体条件的抓取基本动作，以及一种基于历史的残差策略。抓取梯度场通过估计成功抓取示例集的梯度来学习“如何”抓取，而残差策略则根据轨迹历史来确定抓取动作的执行时间以及执行速度。实验结果表明，我们的方法在基准方法中表现出优越性，突显了其在实际应用中的用户意识和实用性。代码和演示可在 "https://sites.google.com/view/graspgf" 查看。

发布时间: 4/15/2025

查看原文

深度学习中的损失函数与度量标准

作者: Juan Terven, Diana M. Cordova-Esparza, Alfonso Ramirez-Pedraza, Edgar A. Chavez-Urbiola, Julio A. Romero-Gonzalez

arXiv:2307.02694v5 宣布类型: replace-cross 摘要：本文对深度学习中的损失函数和性能度量进行了全面回顾，突出了跨不同应用领域的关键发展和实际见解。我们首先概述了回归和分类等经典任务中的一些基本考量因素，然后将分析扩展到计算机视觉和自然语言处理等专业领域，包括检索增强生成。在每个设置中，我们系统地研究了不同损失函数和评估指标如何结合起来以解决特定任务的挑战，如类别不平衡、异常值和序列优化。本文的关键贡献包括：（1）一个统一的框架来理解损失函数和指标如何与不同的学习目标对齐，（2）对平衡相互竞争目标的多损失设置的深入讨论，以及（3）对现代应用如检索增强生成中使用的专门指标的新见解，其中忠实度和上下文相关性是关键因素。在过程中，我们强调了根据经验行为和领域限制选择或组合损失函数和指标的最佳实践。最后，我们指出了开放问题和有希望的方向，包括损失函数搜索自动化的实现以及为越来越复杂的大规模深度学习任务开发稳健且可解释的评估度量。我们的回顾旨在为研究人员和实践者提供更清晰的指导，以设计有效的训练管道和可靠的模型评估，适用于广泛的实际应用领域。

发布时间: 4/15/2025

查看原文

BotArtist: 通过半自动机器学习流水线在Twitter中进行机器人检测的通用方法

作者: Alexander Shevtsov, Despoina Antonakaki, Ioannis Lamprou, Polyvios Pratikakis, Sotiris Ioannidis

arXiv:2306.00037v5 宣布类型: replace-cross 摘要：作为最受欢迎的社会网络之一，Twitter 提供了一个沟通和在线讨论的平台。不幸的是，它也成为了机器人和虚假账号的目标，导致虚假信息的传播和操纵。本文介绍了一种半自动机器学习管道（SAMLP），旨在应对机器学习模型开发过程中遇到的挑战。通过这一管道，我们基于用户资料特征开发了一个全面的机器人检测模型，命名为BotArtist。SAMLP 利用了九个不同的公开可用数据集来训练 BotArtist 模型。为了评估 BotArtist 的性能，并将其与当前最先进的解决方案进行对比，我们评估了 35 种现有的 Twitter 机器人检测方法，每种方法都利用了多样化的特点。在九个公共数据集的标准条件下进行的比较评估显示，所提出模型在 F1 分数方面比现有解决方案高出几乎 10%，在特定和通用方法方面的平均得分为 83.19% 和 68.5%。作为这项研究的结果，我们提供了一个最大的标注过的 Twitter 机器人数据集。该数据集包含了来自 Twitter API 在 2022 年俄罗斯-乌克兰战争期间收集的 10,929,533 个 Twitter 用户资料的提取特征以及 BotArtist 的预测结果。数据集是基于 [Shevtsov et al., 2022a]，原始作者在此分享了讨论俄罗斯-乌克兰战争的匿名推文，总计 127,275,386 条推文。结合现有的文本数据集和提供的已标注的机器人和人类资料，将有助于后 Twitter API 时代更先进的机器人检测大规模语言模型的发展。

发布时间: 4/15/2025

查看原文

基于深度学习的自动诊断系统用于髋关节发育不良

作者: Yang Li, Leo Yan Li-Han, Hua Tian

arXiv:2209.03440v2 通知类型: 交叉替换摘要: 目的: 直腿发育性髋关节发育不良（DDH）的临床诊断通常涉及手动测量盆腔X射线的关键放射角度——中心角-边角（CE）、托尼斯角和肖普角，这一过程耗时且容易受到变异的影响。本研究旨在开发一个自动系统，整合这些测量结果，以提高DDH诊断的准确性和一致性。方法与程序: 我们开发了一个端到端的深度学习模型进行关键点检测，能够准确识别盆腔X射线中的八个解剖关键点，从而实现CE、托尼斯角和肖普角的自动化计算。为了支持诊断决策，我们引入了一个新的数据驱动评分系统，将三个角度的信息综合为一个全面且可解释的诊断输出。结果: 该系统在角度测量的一致性方面优于八名中等经验的骨科医生。CE、托尼斯和肖普角的内一致性相关系数分别为0.957（95%CI：0.952--0.962）、0.942（95%CI：0.937--0.947）和0.966（95%CI：0.964--0.968）。系统实现了诊断F1分数为0.863（95%CI：0.851--0.876），显著优于骨科医生组（0.777，95%CI：0.737--0.817，p = 0.005），以及使用临床诊断标准单独对每个角度进行诊断（p<0.001）。结论: 所提出的系统提供了可靠的、一致的放射角度自动化测量以及一个可解释的DDH诊断输出，优于中等经验的临床医生。临床影响: 这种基于AI的解决方案减少了手动测量的变异性及潜在错误，为临床医生提供了更加一致和可解释的DDH诊断工具。

发布时间: 4/15/2025

查看原文

为什么受到约束的神经语言生成特别具有挑战性？

作者: Cristina Garbacea, Qiaozhu Mei

arXiv:2206.05395v2 公告类型: replace-cross 摘要：深度神经语言模型的 recent 进展与大规模数据集的能力相结合，加速了生成流畅且连贯文本（不同程度的成功）的自然语言生成系统的开发，这些文本在众多任务和应用上下文中生成。然而，为了满足用户和任务的需求控制这些模型的输出仍然是一项开放的挑战。这不仅对于定制生成语言的内容和风格至关重要，而且还对于在现实世界中的安全和可靠部署至关重要。我们对新兴的约束神经语言生成主题进行了全面回顾，在其中我们正式定义并分类了自然语言生成问题，通过区分条件和约束（后者是对输出文本而不是输入的可测试条件）来区分它们，介绍了约束文本生成任务，并回顾了现有方法和约束文本生成的评估标准。我们的目标是突出此新兴领域的最新进展和趋势，为推进约束神经语言生成研究的最新水平提供信息，指明最具前景的方向和限制。

发布时间: 4/15/2025

查看原文

地震相分析：一种深度领域适应方法

作者: M Quamer Nasim, Tannistha Maiti, Ayush Srivastava, Tarry Singh, Jie Mei

arXiv:2011.10510v4 宣布类型: replace-cross 摘要：深度神经网络（DNNs）可以从大量标注输入数据中学习得非常准确，但在标注数据稀缺时往往无法做到这一点。当测试数据来自不同输入分布时，DNNs 有时无法很好地泛化。在没有标签或观察到目标域（TD）中的分布移位时，无监督深度域适应（DDA）技术已被证明是有用的。在本研究中，我们对来自荷兰近海的F3区块3D数据集的地震图像（源域；SD）和加拿大的Penobscot 3D调查数据（目标域；TD）进行了实验。我们考虑了SD和TD中具有类似反射模式的三个地质类别。我们提出了一种名为EarthAdaptNet（EAN）的深度神经网络架构，在少数类别数据稀缺的情况下进行地震图像的语义分割，并在解码块中使用转置残差单元来替换传统的膨胀卷积。EAN在像素级精度上达到了>84%，在少数类别的精度上达到了约70%，显示出与现有架构相比的性能提升。此外，我们还将CORAL（相关性对齐）方法引入EAN中，创建了一个无监督的深度域适应网络（EAN-DDA），用于从F3和Penobscot分类地震反射，以展示在没有标注数据时可能的方法。Penobscot类别2的最高类别精度达到了~99%，总体精度>50%。总体而言，EAN-DDA 有可能以高精度对目标域地震相分类。

发布时间: 4/15/2025

查看原文

基于层次图网络的多跳问答微调

作者: Guanming Xiong

arXiv:2004.13821v4 问题类型：replace-cross 摘要：在本文中，我们提出了一种两阶段模型用于多跳问答。第一阶段是一个分层图网络，用于处理多跳问题，并且能够利用文档（即段落、问题、句子和实体）的自然结构来捕获不同级别的粒度。推理过程被转换为节点分类任务（即段落节点和句子节点）。第二阶段是语言模型微调任务。简单来说，第一阶段利用图神经网络选择并连接支持句子作为一段，第二阶段在语言模型微调范式中找到答案跨度。

发布时间: 4/15/2025

查看原文