arXiv:2410.15346v2 宣告类型: replace-cross
摘要:识别和定位图像中的对象是一项基本挑战,人们通过实验不同的架构并改进训练策略来不断提高模型的准确性。然而,现有模型的一个普遍限制是过度重视当前输入,而忽略了整个数据集中的信息。我们引入了一个创新的检索字典(RD)模块来解决这个问题。该架构使基于YOLO的模型能够高效地从字典中检索包含数据集洞察的知识,该字典是通过视觉模型(VM)、大型语言模型(LLM)或视觉语言模型(VLM)的知识构建的。灵活的RD使模型能够结合这种显性的知识,从而增强其从像素到图像级别受益于多种任务的能力,特别是分割、检测和分类。实验结果显示,使用RD可以显著提高模型性能,在对象检测中平均精度的提高超过3%,同时模型参数的增加不到1%。除了1阶段对象检测模型外,RD模块还提高了2阶段模型和DETR基础架构(如Faster R-CNN和Deformable DETR)的有效性。代码已发布在 https://github.com/henrytsui000/YOLO。
arXiv:2410.14975v2 通知类型: 替换交叉
摘要:随着最近在互联网规模数据上训练的基础模型展现出令人瞩目的泛化能力,这些基础模型得到了更广泛的应用,从而扩展了应用领域。尽管如此,基础模型的信任度仍然未被深入探索。具体来说,像GPT-4o这样的大规模多模态视觉-语言模型(LVLMs),其训练数据量巨大,其离分布外检测(OoDD)能力尚未得到充分关注。其表现出的潜力与实际可靠性之间的差距引发对其安全和可靠部署的关切。为应对这一缺口,我们评估和分析了多种专有和开源LVLMs的OoDD能力。我们的研究促进了对这些基础模型如何通过生成的自然语言响应表示置信度分值的更好理解。此外,我们提出了一种自我引导的提示方法,称为反射性引导(ReGuide),旨在通过利用自我生成的图像自适应概念建议来增强LVLMs的OoDD能力。实验结果表明,我们的ReGuide能够增强当前LVLMs在图像分类和OoDD任务中的性能。每个样本的所选图像列表以及提示和响应均可在 https://github.com/daintlab/ReGuide 查看。
arXiv:2410.14635v2 宣布类型: replace-cross
摘要:无需训练的嵌入方法直接利用预训练的大语言模型(LLMs)将文本转换为嵌入,从而绕过了成本高昂且复杂的对比学习过程。之前的无需训练的嵌入方法主要集中在优化嵌入提示上,并且忽视了利用LLMs的生成能力带来的好处。我们提出了一种名为GenEOL的新方法,该方法使用LLMs生成保留句子意义的多样变换,并将这些变换的结果嵌入聚合起来以增强整体句子嵌入。GenEOL在几个LLMs上的句子语义文本相似性(STS)基准测试上平均比现有无需训练的嵌入方法高出2.85分。此外,GenEOL在MTEB基准测试的聚类、再排序和配对分类任务中也取得了显著的改进。另外,GenEOL在LLM层面上稳定了表示质量,并且对嵌入提示的扰动具有鲁棒性。
arXiv:2410.14596v2 归类类型: replace-cross
摘要: 大型语言模型(LLMs)容易受到说服的影响,这在模型面对对手时会带来风险。我们首次尝试防御模型免受说服的影响,同时也认为防御对抗(即负面)说服只是问题的一部分:模型也应该能够接受有利(即正面)的说服以改进它们的答案。我们展示了仅优化模型的一方面会导致另一方面表现不佳。为了平衡正面和负面的说服,我们引入了Persuasion-Training(或PBT),它利用多代理递归对话树生成数据并通过偏好优化训练模型,在适当的情况下接受说服。PBT允许我们使用来自较小的7-8B模型对话生成的数据来训练更大的70B模型。此外,PBT始终能够提高对错误信息的抵抗力和对质疑的韧性,同时在包含正面和负面说服的整体数据中表现出最佳的整体性能。至关重要的是,我们证明了PBT模型在两个领域( trivia和常识问答)的多代理辩论中是更好的团队成员。我们发现,没有PBT的情况下,强弱模型的组合表现不稳定,展示答案的顺序决定了团队是得到更强模型还是较弱模型的表现。PBT带来了更好的、更稳定的结果,减少了顺序依赖性,并且更强的模型始终在提升较弱模型的表现方面发挥作用。
arXiv:2410.13918v2 宣告类型: 替换-交叉
摘要:区块链技术的进步极大地加速了智能合约的研发和部署。然而,其固有的漏洞和容易出现 Bug 的特性导致了重大的经济损失,突显出确保智能合约安全的挑战。尽管传统的审计方法至关重要,但在应对智能合约不断增加的复杂性和数量方面,它们往往力不从心。近年来,大型语言模型(LLMs)的发展为改善软件审计提供了有希望的解决方案,可以通过自动识别安全漏洞来增强。尽管具有潜力,但在实际应用中这些模型受限于巨大的计算需求。本文探讨了使用较小的、微调模型在智能合约审计中实现类似或更优结果的可行性。我们介绍了 FTSmartAudit 框架,该框架旨在通过 LLM 的微调来开发成本效益高、专门针对智能合约审计的模型。我们的贡献包含:(1)一个单任务学习框架,简化了数据准备、训练、评估和持续学习的流程;(2)利用领域专业知识蒸馏的稳健数据集生成方法,利用如 GPT-4o 这样的高级模型生成高质量的数据集;(3)一种适应性学习策略,以保持模型的准确性和鲁棒性;(4)微调模型在检测特定漏洞和复杂逻辑错误方面的实际效果;以及(5)一种可以扩展到需要 LLM 解决方案的其他领域的框架。我们的实验结果表明,较小的模型在检测智能合约中的漏洞方面可以超越最先进的商业模型和工具。
arXiv:2410.13295v2 宣告类型: 交叉替换
摘要: 在使用点扩展函数 (PSF) 工程进行 3D 定位问题中,我们提出了一种增强我们先前引入的定位神经网络 LocNet 的新方法。改进的网络是一种称为 PiLocNet 的物理导向神经网络 (Physics-Informed Neural Network, PINN)。以往的定位问题研究可能可以分为基于模型的优化方法和神经网络方法两大类。我们的 PiLocNet 结合了这两种方法的独特优势,通过引入基于前向模型的数据拟合损失项,将前向模型的信息纳入网络中,从而使神经网络能够产生物理上合理的结果。我们还从变分方法中引入了某些正则化项,这进一步提高了网络在图像噪声存在情况下的鲁棒性,正如我们针对泊松和高斯噪声模型所展示的那样。这种框架赋予了神经网络解释性,而我们获得的结果也显示了这种方法的优势。尽管论文主要集中在使用单瓣旋转 PSF 编码完整的 3D 源位置,但我们预期该方法可以广泛应用于其他受已知前向过程约束的 PSF 和成像问题上。
arXiv:2410.13237v2 通告类型: 替换-交叉
摘要:语言混淆是一种现象,其中大语言模型(LLMs)生成既不是目标语言,也不是上下文合适的语言文本。这种现象在LLMs的文本生成中提出了一个关键挑战,通常表现为不可预测的行为。我们假设LLMs固有的这种脆弱性中存在语言规律性,并揭示了LLMs中语言混淆模式。我们引入了一个新颖的度量标准,即语言混淆熵,基于由语言类型学和词汇变体指导的语言分布,直接测量和量化这种混淆。与Marchisio等人(2024)提出的语言混淆基准进行全面比较,证实了我们度量标准的有效性,揭示了LLMs中的语言混淆模式。我们进一步将语言混淆与LLMs安全相关联,并发现多语言嵌入反转攻击中的模式。我们的分析表明,语言类型学提供了理论依据的解释,并提供了利用语言相似性作为先验来促进LLMs对齐和安全的宝贵见解。
arXiv:2410.13191v4 宣告类型: replace-cross
摘要:自动问答生成(QG)对于AI和自然语言处理(NLP)至关重要,特别是在智能辅导、对话系统和事实核实等方面。为专业考试生成多项选择题(MCQG),例如美国医学执照考试(USMLE),尤其具有挑战性,需要领域专业知识和复杂的多跳推理来生成高质量的问题。然而,当前的大规模语言模型(LLMs)如GPT-4在专业MCQG方面面临挑战,由于知识过时、虚构问题以及提示敏感性,导致生成的问题质量不佳且难度难以控制。为了解决这些挑战,我们提出了MCQG-SRefine,这是一个基于LLM自我完善(批判与修正)的框架,用于将医疗案例转换为高質量的美国医学执照考试风格的问题。通过结合专家驱动的提示工程与迭代的自我批判和自我修正反馈,MCQG-SRefine显著提高了资深专家对问题质量和难度的满意度。此外,我们还引入了一种基于LLM作为裁判的自动评估度量标准,以取代复杂且昂贵的专家评估过程,确保可靠且与专家一致的评估。
arXiv:2410.12705v4 公告类型: 替换-交叉
摘要:视觉语言模型(VLMs)常常在处理文化特定的知识时遇到困难,特别是在非英语语言和代表性不足的文化背景下。为了评估它们对这种知识的理解,我们引入了WorldCuisines,这是一个大规模的多语言和多文化视觉接地语言理解基准。该基准包括跨30种语言和方言的文字-图像数据集,涵盖了9种语言家族,包含超过100万个数据点,使其成为迄今为止最大的多文化VQA基准。它包括识别菜品名称及其来源的任务。我们提供了两种规模的评估数据集(12k和60k实例)以及一个包含100万个实例的训练数据集。我们的研究发现,虽然VLMs在正确的位置上下文中表现更好,但它们在对抗性上下文以及预测特定区域的菜系和语言方面遇到困难。为支持未来的研究,我们发布了包含标注的食品条目和图像的知识库,以及VQA数据。
arXiv:2410.12656v3 宣告类型: replace-cross
摘要:大型语言模型(LLMs)在各种自然语言生成和理解任务中取得了显著进展。然而,它们的语言一般化能力仍然值得怀疑,引起了人们对这些模型是否像人类一样学习语言的疑问。虽然人类在语言使用中表现出组合一般化和语言创造性,但LLMs在形态学方面再现这些能力的程度,尤其是在形态学方面尚未得到充分探索。在本文中,我们通过组合性的视角系统研究了LLMs的形态学一般化能力。我们将形态素定义为组合基本单元,并设计了一套新颖的生成性和辨别性任务来评估形态生产能力和系统性。以黏着式语言如土耳其语和芬兰语为例,我们评估了几种最新的指令微调多语言模型,包括GPT-4和Gemini。我们的分析表明,当LLMs应用于新词根时,它们在形态组合性一般化方面面临困难,随着形态学复杂性的增加,其性能急剧下降。尽管模型比随机猜测更能识别个别形态组合,但它们的表现缺乏系统性,导致与人类相比在准确度上有显著差距。