arXiv:2411.09413v2 宣告类型: replace-cross
摘要:自闭症谱系障碍(ASD)的早期诊断在很大程度上依赖于系统观察和分析儿童的社会行为。尽管当前的方法主要采用监督学习方法,但它们在临床上的应用面临两大主要限制:ASD诊断样本不足以及检测结果的解释性不足。本文提出了一种基于剧本中心的行为理解与情感增强的新颖零样本ASD检测框架,旨在克服上述临床限制。所提出的方法管线通过计算机视觉技术自动将视听数据转换为结构化的行为文字剧本,然后利用大型语言模型(LLMs)的泛化能力进行零样本/少样本ASD检测。介绍了三项核心技术贡献:(1) 一个多模态脚本转录模块,将行为线索转化为结构化的文本表示。(2) 一种情感文本化模块,将情感动力编码为上下文特征,以增强行为理解。(3) 一种领域特定的提示工程技术策略,使临床知识注入LLMs。我们的方法在平均年龄为两岁的儿童中诊断ASD的F1分数达到95.24%,同时生成可解释的检测理由。这项工作为利用LLMs分析和理解ASD相关的社会行为提供了新的途径,从而提高了辅助自闭症诊断的准确性。
arXiv:2411.05982v2 宣告类型:替换-交叉
摘要:沙箱和其他动态分析过程现在广泛应用于恶意软件检测系统中,以增强检测零日恶意软件的能力。因此,在现代恶意软件样本中,反动态分析技术(TADA)盛行,当分析带有TADA的样本时,沙箱可能会遭受假阴性和分析失败。在这种情况下,人类逆向工程师将不得不手动进行动态分析(例如,调试、打补丁),而TADA也会阻碍这一过程。在这项工作中,我们提出了一种基于大型语言模型(LLM)的工作流,可以确定代码中TADA实现的位置,以便逆向工程师可以放置用于调试的断点。我们的评估显示,我们成功识别了来自公共仓库的87.80%已知TADA实现的位置。此外,我们还成功指出了四个在线恶意软件分析博客中记录的著名恶意软件样本中的TADA位置。
arXiv:2410.24175v2 宣布类型: replace-cross
摘要:大型语言模型(LLMs)在格式、长度等复杂约束的指令遵循方面表现出困难。沿用传统的指令调优实践,之前的工作通过将复杂的指令输入到高级LLM中生成复杂的指令-响应对来进行后训练。然而,即使是高级LLM也无法很好地遵循复杂的指令,从而限制了生成数据的质量。在本工作中,我们发现现有数据集本身固有地包含隐含的复杂约束,并提出了一种新颖的数据生成技术——约束反翻译。具体来说,我们利用现有数据集中高质量的指令-响应对,并仅采用先进的LLM对指令添加已由响应满足的复杂约束,这自然减少了成本和数据噪音。在实验中,我们使用Llama3-70B-Instruct进行约束反翻译,创建了一个高质量的复杂指令-响应数据集,命名为CRAB。我们展示了在CRAB上的后训练提高了多个骨干LLM的复杂指令遵循能力,评估了广泛的指令遵循基准。我们还发现,约束反翻译作为一种有用的辅助训练目标,在后训练中也发挥着作用。我们的代码、数据和模型将被发布,以促进未来的研究。
arXiv:2410.21491v3 通告类型: 替换-交叉
摘要: 分布式学习(DL)通过利用多个节点来加速训练,从而能够高效地优化大型模型。随机梯度下降(Stochastic Gradient Descent, SGD)作为一种关键的优化算法,在这一过程中发挥着重要作用。然而,通信瓶颈往往限制了其可扩展性和效率,因此越来越多地采用压缩SGD技术来缓解这些问题。尽管压缩SGD能够解决通信开销问题,但在节点之间的梯度交换却容易受到梯度反转攻击(GradInv)和成员推理攻击(MIA)等攻击的影响,从而引发了对其可信度的关注。压缩SGD的可信度尚未得到探讨,留下了许多关于其可靠性的重要问题。
在本文中,我们对压缩SGD与未压缩SGD的可信度进行了评估。具体而言,我们使用GradInv攻击进行了经验研究,结果显示压缩SGD在隐私泄露抵御方面明显优于未压缩SGD。此外,我们的研究还表明,MIA可能不是一个可靠的标准来评估分布式学习中的隐私风险。
arXiv:2409.16902v4 宣布类型: replace-cross
摘要:在过去十年中,视觉目标跟踪取得了显著进展,很大程度上归功于大规模数据集的可用性。然而,这些数据集主要集中在露天场景上,并且几乎没有关注水下动物跟踪,尤其是伪装的海洋动物所带来的复杂挑战。为了填补这一空白,我们提出了一种名为UW-COT220的首款大规模多模态水下伪装目标跟踪数据集。基于所提出的数据集,本文首先全面评估了当前先进的视觉目标跟踪方法,包括基于SAM和SAM2的跟踪器,在具有挑战性的水下环境中,例如珊瑚礁。我们的研究结果突出显示了SAM2相比SAM的改进,证明了其处理水下伪装目标复杂性的增强能力。此外,我们基于视频基础模型SAM2提出了一个新的视觉-语言跟踪框架——VL-SAM2。实验结果表明,我们的VL-SAM2在UW-COT220数据集中达到了最先进的性能。数据集和代码可在以下链接获取:\href{https://github.com/983632847/Awesome-Multimodal-Object-Tracking}{这里}。
arXiv:2409.14634v4 通知类型: replace-cross
摘要:科学研究过程常涉及融合现有论文中的显著方面以创造新想法,而基于要素的创意生成是一种成熟的创意生成框架。为了探索大型语言模型(LLMs)在这一过程中的潜在帮助,我们提出了一个名为Scideator的新型协作式创意工具。从用户提供的科学论文集开始,Scideator从这些论文及其相关论文中提取关键要素——目的、机制和评价——用户可以通过交互式重新组合这些要素来合成富有创意的想法。Scideator还通过搜索文献以寻找重叠之处,评估想法新颖性并提供解释来帮助用户判断想法的原始性。为了支持这些任务,Scideator引入了三个基于大型语言模型的检索增强生成(RAG)模块:相似论文要素发现器、基于要素的创意生成器和想法新颖性检查器。在一项针对计算机科学研究人员的被试内实验(N=22)中,与一个强大基线工具进行对比,我们的工具在支持探索方面提供了显著更多的创意支持,参与者认为探索是创意生成中最重要的一环。
arXiv:2408.15268v3 宣告类型: replace-cross
摘要:本文提出了一种基于模糊聚类的新型EDFA系统泵电流时间序列异常检测方法。提出的变更检测框架(CDF)战略性地结合了熵分析(EA)和主成分分析(PCA)的优势与模糊聚类过程。在此框架中,EA 用于动态选择特征以减少特征空间并提高计算性能。此外,PCA 用于从原始特征空间中提取特征,以使后续的模糊聚类过程具备泛化能力。三种不同的模糊聚类方法——模糊聚类算法、概率聚类算法和可能性聚类算法——被评估以评估性能和泛化能力。因此,提出的框架具有早期检测任意操作点的泵电流时间序列中的变化的特点,优于目前商用EDFA中预先定义的报警。此外,该方法通过实验数据进行了实现和测试。此外,提出的框架还为光纤网络的分散预测维护提供了进一步的应用方法。
arXiv:2408.05231v3 宣布类型: 替换交叉
摘要: 提出了一种基于重整化群方法的新无监督预测维护分析方法,用于发现复杂系统中的临界行为。该算法分析一维时间序列,并基于一个新提出的定理来检测临界点,该定理通过使用对数周期幂律函数拟合来识别临界点。展示了新算法在往复压缩机系统收集的工业数据中的预测维护分析应用。根据所分析的压缩机系统的动态知识,该提出的算法能够提前很好地预测阀和活塞杆密封件的故障。
arXiv:2408.00137v2 宣告类型: replace-cross
摘要:一个二元决策任务,例如是/否问题或答案验证,反映了用户对自己在特定问题上决策正确性的确认需求这一重要的现实场景。在本工作中,我们观察到语言模型在复杂推理任务中的二元决策中表现出负偏见。基于我们的观察以及关于基于注意力的模型动态的推理,我们提出了一种负权值注意力分数(NAS)来系统地和定量地表述这种负偏见。基于NAS,我们识别了那些在指示中关注负词的注意力头,作为二元决策的答案候选,不考虑提示中的问题,并验证了这些注意力头与负偏见的关联。此外,我们提出了负权值注意力分数对齐(NASA)方法,这是一种参数高效的微调技术,用于解决提取出的具有负偏见的注意力头。来自各种推理任务领域和大型模型搜索空间的实验结果表明,NASA在减少由负偏见引起的精确度和召回率之间的差距的同时,保留了它们的一般化能力。
arXiv:2407.15229v2 宣布类型: replace-cross
摘要:在最先进的人类对齐方法中,偏好优化方法(*PO)处于前沿。以往的研究通常集中在识别表现最佳的方法,这通常涉及对超参数进行网格搜索,但在普适实践中可能不具实用性。在本文中,我们考察了现有最先进的方法在现实世界中的泛化出-of-distribution(OOD)场景下的鲁棒性,该场景与现实世界中的人类对齐应用相对应。我们的目标是通过各种指标(如KL散度和响应长度)来实验性地找到一种能增加更好结果可能性的方法。我们还介绍了LN-DPO,这是一种简化的长度归一化版本的DPO,这种方法在超参数变化时更加稳定,有效减少了平均响应长度,并提高了性能。我们对参考无(即SimPO)和参考依赖(即DPO和LN-DPO)的最先进方法的分析表明,在最佳情况下(即最优场景),它们的表现相似。然而,当我们远离最优场景时,性能变化的模式差异很大。