arXiv:2409.12183v3 声明类型: replace-cross
摘要:通过提示引发的链式思考(Chain-of-thought,CoT)是从大规模语言模型(LLMs)中提取推理能力的默认方法。但这种额外的“思考”对于哪些类型的任务真正有帮助呢?为了分析这个问题,我们进行了涵盖超过100篇使用CoT的研究论文的定量元分析,并对14个模型的20个数据集进行了自己的评估。我们的结果显示,CoT主要在涉及数学或逻辑的任务上提供了强大的性能优势,而在其他类型的任务上几乎没有明显收益。在MMLU上,直接生成答案而不使用CoT,除非问题或模型的回答中包含等号,这表明符号操作和推理,否则几乎与使用CoT的准确度相同。基于这一发现,我们通过分离规划和执行,并与工具增强的LLM进行比较,来分析CoT在这些问题上的行为。CoT的一大优势来自改善了符号执行,但是它相对于使用符号求解器的效果较差。我们的结果表明,CoT可以有针对性地应用,保持性能的同时节省推理成本。此外,它们还表明需要超越基于提示的CoT,转向新的 paradigms,更好地利用整个LLM应用范围中的中间计算。
arXiv:2409.11686v3 宣布类型:替换交叉
摘要:腹部计算机断层扫描(CT)在临床环境中经常进行。机会性CT涉及重新利用常规CT图像以提取诊断信息,并且是一种检测未诊断条件(如肌肉减少症、肝脂肪变性和腹水)新兴工具。本研究利用深度学习方法促进准确诊断和临床文档记录。我们分析了2,674例住院患者的CT扫描,以识别机会性CT影像表型(从机会性CT扫描中提取的特征)与其放射报告和ICD编码相应内容之间的差异。通过分析,我们发现分别通过机会性影像或放射报告诊断的肌肉减少症、肝脂肪变性和腹水的CT扫描中,ICD编码的比例仅为0.5%、3.2%和30.7%。我们的发现表明,机会性CT有望提高诊断精度,并增强风险调整模型的准确性,从而推动精准医疗的发展。
arXiv:2409.11055v3 宣布类型: replace-cross
摘要: 量化已经引起了人们对其作为成本有效部署大模型和小模型的潜在解决方案的注意。然而,大多数先前工作仅限于困惑度或基本知识任务的评估,缺乏对最近的模型如Llama-3.3的全面评估。在本文中,我们对参数量从10亿到4050亿的指令调整模型进行了全面评估,并在13个数据集上应用了四种量化方法。我们的发现表明:(1) 量化模型通常超越较小的FP16基线,但在指令遵循和幻觉检测方面往往表现出色;(2) FP8在各种任务中始终是最为稳健的选择,而AWQ在权重仅量化中通常优于GPTQ;(3) 在4位量化中,小型模型可能会遭受严重的准确度下降,而700亿规模的模型则保持稳定的性能;(4) 显著的是,**困难**任务并不总是遭受最大的准确度损失,表明量化放大了模型固有的弱点,而不仅仅是与任务难度相关;(5) 基于LLM的评判者(MT-Bench)在编码和STEM任务中显示出显著的性能下降,尽管推理有时会有所提升。
arXiv:2409.10297v2 宣布类型: replace-cross
摘要:纹理对机器学习模型的影响一直是一个持续的研究话题,特别是在纹理偏差/学习、可解释性和稳健性方面。然而,由于可用的大规模和多样化纹理数据的缺乏,这些工作的发现受到了限制,因为更全面的评估并不切实际。图像生成模型能够提供大规模的数据生成,但将这些模型用于纹理合成尚未被探索,并且在生成准确的纹理图像以及验证这些图像方面提出了额外的挑战。在本文中,我们介绍了一种可扩展的方法和相应的新型数据集,用于生成高质量、多样化的纹理图像,以支持一系列基于纹理的任务。我们的管道包括:(1)从一系列描述符中开发提示作为文本到图像模型的输入,(2)采用和调整Stable Diffusion管道生成和过滤相应的图像,以及(3)进一步筛选出最高质量的图像。通过这种方式,我们创建了Prompted Textures Dataset(PTD),一个包含362,880张纹理图像的数据集,涵盖56种纹理。在生成图像的过程中,我们发现图像生成管道中的NSFW安全过滤器对纹理非常敏感(标记了我们纹理图像的多达60%),揭示了这些模型中可能存在的一种偏差,并在处理纹理数据时提出了独特的挑战。通过标准度量和人类评估,我们发现我们的数据集具有高质量和多样性。我们的数据集可在https://zenodo.org/records/15359142处下载。
arXiv:2409.03757v3 宣告类型:替换交叉
摘要:复杂3D场景理解引起了越来越多的关注,场景编码策略在这方面的成功中起着关键作用。然而,各种场景下的最优场景编码策略仍然不清楚,尤其是在与基于图像的对应策略相比时。为了解决这一问题,我们进行了一个全面的研究,探讨了各种视觉编码模型在3D场景理解中的应用,识别了每种模型在不同场景中的优势和局限性。我们的评估涵盖了七个视觉基础编码器,包括基于图像的、基于视频的和3D基础模型。我们在这四个任务中评估这些模型:视觉语言场景推理、视觉定位、分割和注册,每个任务都侧重于场景理解的不同方面。我们的评估得到了关键发现:DINOv2展示了卓越的性能,视频模型在对象级别的任务中表现出色,扩散模型受益于几何任务,而语言预训练模型在语言相关任务中表现出意外的局限性。这些见解挑战了一些传统理解,提供了利用视觉基础模型的新视角,并强调了在未来视觉语言和场景理解任务中需要更灵活的编码器选择的必要性。代码:https://github.com/YunzeMan/Lexicon3D
arXiv:2408.16021v2 通告类型: replace-cross
摘要:在快速发展的网络安全领域,将流级和包级信息结合用于实时入侵检测的研究仍是一个未充分探索的领域。本文介绍了一种名为“XG-NID”的新型框架,据我们所知,这是首个在异构图结构中融合流级和包级数据的框架,提供了对网络流量的全面分析。利用带有图级分类的异构图神经网络(GNN),XG-NID独特地实现了实时推理,并有效地捕捉了流和包载荷数据之间的复杂关系。与主要分析历史数据的传统GNN方法不同,XG-NID旨在适应网络流量的异质性,提供一种强健且实时的防护机制。我们的框架不仅仅局限于分类;它还结合了大型语言模型(LLMs)生成详细、易于理解的解释,并建议可能的补救措施,确保产生的洞察既可行又易于理解。此外,我们还引入了一组基于时间信息的新流特征,进一步增强了我们模型提供的上下文和可解释性推理。为了便于实际应用和访问,我们开发了“GNN4ID”,一个开源工具,它可以提取并转换原始网络流量到所提议的异构图结构,无缝集成流和包级数据。我们全面的定量对比分析表明,XG-NID在多类分类中实现了97%的F1分数,超过了现有基准和最先进的方法。这通过将创新的数据融合与增强的可解释性和实时能力相结合,为网络入侵检测系统设定了新的标准。
arXiv:2406.17746v2 宣告类型: replace-cross
摘要:语言模型中的记忆通常被视为一种同质现象,忽略了记忆数据的具体性。相反,我们将记忆建模为一组复杂因素的效果,这些因素描述每份样本并与模型和语料库相关联。为了对这些因素建立起直观理解,我们将记忆分为一个分类体系:高度重复序列的背诵、固有可预测序列的重建以及既非重复也非可预测序列的回忆。我们通过使用该分类体系构建记忆的预测模型来展示其有用性。通过对预测模型的依赖关系进行分析并检查其权重,我们发现不同因素会根据分类体系的类别不同地影响记忆的可能性。
arXiv:2406.07944v2 宣告类型: replace-cross
摘要:差异测试通过比较给定API的多种实现之间的测试结果,提供了一种缓解测试先知问题的有前途的策略。然而,现有的深度学习(DL)库的差异测试技术受限于寻找给定API的替代实现(称为对应实现)以及随后生成多样化的测试输入的关键挑战。为了解决这两个挑战,本文提出了一种名为DLLens的LLM增强型差异测试技术,用于DL库。为了解决第一个挑战,DLLens整合了一种基于LLM的对应实现合成工作流,基于这种见解,可以通过另一个DL库的API的特定组合和适应,成功地合成给定DL库API的计算对应的实现。为了解决第二个挑战,DLLens整合了一种静态分析技术,从给定API及其对应实现的实现中提取路径约束,以指导多样化的测试输入生成。提取过程由LLM对相关DL库及其上游库的知识支持。
我们对两种流行的DL库TensorFlow和PyTorch进行了评估。我们的评估表明,与这些库中最先进的技术相比,DLLens为API合成了1.84倍的对应实现。此外,在相同的时间预算下,相对于最先进的技术,DLLens覆盖了7.23%更多的分支,并在200个随机选择的API中检测到1.88倍更多的错误。DLLens成功在最近的TensorFlow和PyTorch库中检测到了71个错误。其中,59个错误得到了开发者的确认,包括46个被认为是以前未知的错误,并且在这46个以前未知的错误中,有10个在最新版本的TensorFlow和PyTorch中得到了修复。
arXiv:2406.06600v4 公告类型: replace-cross
摘要:人工智能正快速渗透到服务调节领域。然而,现有的基于人工智能的调节技术往往针对特定的应用领域,因此很难以自动化的形式进行泛化。本文提出了 Horae,一种用于建模多元监管规则的统一规范语言,可在多种不同领域的应用中进行建模。我们展示了 Horae 如何进一步利用名为 RuleGPT 的微调大型语言模型来自动化 Horae 的建模过程,从而实现从头到尾的全自动智能服务调节框架。我们在各种真实世界的监管领域基准上证明了该框架的可行性和有效性。特别地,我们展示了开源并微调的 RuleGPT(7B 参数)可以超越 GPT-3.5 并与 GPT-4o 持平。
arXiv:2405.13325v3 更新类型: 交叉替换
摘要:近期事件 argue 提取(EAE)领域的进展涉及在训练和推理过程中向模型引入有用的辅助信息,例如检索到的实例和事件模板。这些方法面临两项挑战:(1)检索结果可能不相关,(2)模板是为每个事件独立开发的,没有考虑它们之间的潜在关系。在本文中,我们提出 DEGAP 通过简单而有效的组件来解决这些挑战:双前缀,即可学习的提示向量,其中面向实例的前缀和面向模板的前缀分别接受来自不同事件实例和模板的信息。此外,我们提出了一个事件引导的自适应门控机制,可以灵活利用不同事件之间可能存在的连接,从而捕捉前缀中的相关信息。最后,这些事件引导的前缀为事件 argue 提取模型提供相关信息而不进行检索。广泛实验表明,我们的方法在四个数据集(ACE05、RAMS、WIKIEVENTS 和 MLEE)上实现了新的最佳性能。进一步的分析展示了各个组件的影响。