本研究对YOLOv8、YOLOv9、YOLOv10和YOLO11所有配置(共22种)进行了广泛评估,用于商业果园的青果检测。研究还使用iPhone和机器视觉传感器对四个苹果品种(SciFresh、SciLate、Honeycrisp和Cosmic Crisp)进行了田间果实计数验证。在评估的22种配置中,YOLO11s和YOLOv9 gelan-base表现最佳,其mAP@50得分分别为0.933和0.935。在召回率方面,YOLOv9 gelan-base在YOLOv9配置中达到最高值0.899,而YOLO11m在YOLO11变体中达到0.897。YOLO11n成为速度最快的模型,推理速度仅为2.4毫秒,显著超过YOLOv10n、YOLOv9 gelan-s和YOLOv8n的领先配置(速度分别为5.5、11.5和4.1毫秒)。该比较评估突出了YOLO11、YOLOv9和YOLOv10的优势,为研究人员选择最适合果实检测和商业果园自动化模型提供了重要见解。对于相关数据集中的实时自动化相关工作,我们建议使用YOLO11n,因为它具有较高的检测和图像处理速度。
近年来,研究人员提出了许多基准来评估大型语言模型(LLM)令人印象深刻的编码能力。然而,目前的基准主要评估LLM生成代码的准确性,而忽略了其他在实际开发中也显著影响代码质量的关键维度。此外,仅仅依赖正确性作为指导指标会使LLM容易受到数据污染的影响。因此,本文提出了RACE基准,该基准从可读性、可维护性、正确性和效率四个维度全面评估LLM生成的代码质量。具体来说,考虑到超越正确性的维度的需求依赖性,我们为每个维度设计了各种类型的用户需求,以评估模型生成既正确又满足用户需求的代码的能力。我们基于RACE分析了28个具有代表性的LLM,发现:1)当前以正确性为中心的基准未能捕捉到现实场景中代码的多方面需求,而RACE提供了一个全面的评估,揭示了LLM在多个维度上的缺陷;2)RACE基准可有效抵御数据污染的风险;3)即使是最先进的代码LLM,在涉及复杂指令的定制化需求方面仍然面临巨大挑战;4)大多数LLM都表现出对特定编码风格的内在偏好。这些发现突出了对代码LLM进行多维度评估的必要性,强调了在实际应用中超越正确性的指标。未来的努力应该旨在开发新的学习算法,以增强在各种约束条件下的代码生成能力,并提高对不同用户需求的覆盖范围和可用性。
检索增强生成 (RAG) 通过知识检索来弥补大型语言模型 (LLM) 的知识缺口,从而增强了大型语言模型的能力。然而,现有的 RAG 方法往往无法确保检索信息的深度和完整性,而这对于复杂的推理任务至关重要。在这项工作中,我们提出了 Think-on-Graph 2.0 (ToG-2),这是一个混合 RAG 框架,它以紧密集成的方式迭代地从非结构化和结构化知识源检索信息。具体来说,ToG-2 利用知识图谱 (KG) 通过实体连接文档,促进深度和知识引导的上下文检索。同时,它使用文档作为实体上下文,实现精确高效的图检索。ToG-2 在图检索和上下文检索之间交替进行,以搜索与问题相关的深入线索,从而使 LLM 能够生成准确的答案。我们进行了一系列实验,以证明 ToG-2 的以下优势:(1)ToG-2 紧密集成上下文检索和图检索,通过 KG 增强上下文检索,同时基于上下文实现可靠的图检索;(2)它通过集成上下文和 KG 的迭代知识检索过程,在 LLM 中实现深度和忠实的推理;(3)ToG-2 是免训练的,并且作为即插即用解决方案与各种 LLM 兼容。大量的实验表明,ToG-2 在 7 个知识密集型数据集中的 6 个数据集上使用 GPT-3.5 达到了最先进 (SOTA) 的性能,并且可以将小型模型(例如,LLAMA-2-13B)的性能提升到 GPT-3.5 直接推理的水平。
图像生成扩散模型已被微调以解锁新的功能,例如图像编辑和新视角合成。我们能否同样地解锁图像生成模型以实现视觉运动控制?我们提出了 GENIMA,这是一种行为克隆代理,它对 Stable Diffusion 进行微调,以在 RGB 图像上将“联合动作”作为目标进行绘制。这些图像被输入到一个控制器中,该控制器将视觉目标映射到一系列关节位置。我们在 25 个 RLBench 任务和 9 个真实世界的操作任务上研究了 GENIMA。我们发现,通过将动作提升到图像空间,互联网预训练的扩散模型可以生成优于最先进视觉运动方法的策略,尤其是在对场景扰动具有鲁棒性和泛化到新物体方面。即使缺少深度、关键点或运动规划器等先验知识,我们的方法也能与 3D 代理相媲美。
图神经网络 (GNN) 已成为机器学习处理图结构数据的关键工具。本文通过引入一种新颖的 GNN 架构——具有随机结构的图注意力网络 (GRASS),探索了图编码、图重连线和图注意力的协同组合。GRASS 利用相对随机游走概率 (RRWP) 编码及其新颖的分解变体 (D-RRWP) 来有效捕获结构信息。它通过叠加一个随机正则图来重连输入图,从而增强远程信息传播。它还采用了一种针对图结构数据定制的新型加性注意力机制。我们的实证评估表明,GRASS 在多个基准数据集上取得了最先进的性能,包括在 ZINC 数据集上将平均绝对误差降低了 20.3%。
多模态大型语言模型(MLLM)的快速发展使得人工智能驱动的科学助手越来越可行,其中解读科学图表是一项至关重要的任务。然而,现有的数据集和基准主要集中在基本的图表和有限的科学科目上,缺乏全面的评估。为了解决这个问题,我们从同行评审的开放获取的《自然通讯》文章中整理了一个多模态、多学科的数据集,涵盖72个科学学科。该数据集包含示意图、模拟图像、宏观/微观照片和实验可视化(例如,蛋白质印迹)等图表,这些图表通常需要研究生水平、学科特定的专业知识才能解读。我们开发了科学图表标题生成和多项选择题的基准,在不同的设置下评估了六个专有模型和十多个开源模型。结果突出了这些任务的高度难度以及模型之间显著的性能差距。虽然许多开源模型在多项选择题任务上的表现达到随机水平,但有些模型与专有模型的性能相当。然而,在标题生成任务中,差距更为明显。我们的数据集也提供了宝贵的训练资源。使用我们特定于任务的多模态训练数据微调Qwen2-VL-2B模型,将其多项选择题的准确率提高到与GPT-4o相当的水平,尽管标题生成仍然具有挑战性。使用我们交错的文章和图表数据对MLLM进行持续预训练,增强了其材料生成能力,展示了整合科学知识的潜力。该数据集和基准将被发布以支持进一步的研究。
人工智能赋能的能力已达到可在现实世界中部署的成熟度,但并不总是能做出正确或安全的决策。解决这些问题的一种方法是利用人工智能控制系统来辅助和支持人类决策,在安全情况下依赖人工智能控制系统,而在关键情况下则依靠人工共同决策者。我们扩展了一种对抗性解释 (AE) 方法,使其适用于最先进的强化学习框架,包括 MuZero。我们提出了对基础智能体架构的多种改进。我们展示了这项技术如何在两个方面得到应用:用于智能决策工具以及增强训练/学习框架。在决策支持的背景下,对抗性解释通过突出那些需要改变才能获得不同 AI 推荐决策的上下文因素来帮助用户做出正确的决策。作为对抗性解释的另一个好处,我们展示了学习到的 AI 控制系统能够抵抗对抗性篡改。此外,我们通过引入战略性相似的自动编码器 (SSA) 来补充 AE,以帮助用户识别和理解 AI 系统正在考虑的所有显著因素。在训练/学习框架中,这项技术可以通过人机交互来改进 AI 的决策和解释。最后,为了识别哪些 AI 决策最能受益于人工监督,我们将此组合系统与我们先前关于对任何时间点决策关键性的统计验证分析的成果联系起来。
受化学和其他科学应用的启发,我们研究了用于几何图的消息传递神经网络的表达能力,其节点特征对应于三维位置。最近的研究表明,此类模型可以分离非同构几何图的一般对,尽管它们可能无法分离一些罕见和复杂的实例。然而,这些结果假设了一个完全连接的图,其中每个节点都拥有所有其他节点的完整知识。相反,在应用中,每个节点通常只拥有少量最近邻的知识。
本文表明,只要底层图是连通的,具有旋转等变特征的消息传递网络就可以分离非同构几何图的一般对。当仅允许不变的中间特征时,对于一般全局刚性图,可以保证一般分离。我们引入了一个简单的架构 $\us$,它实现了我们的理论保证,并在合成和化学基准测试中与替代架构相比具有优势。我们的代码可在 \url{https://github.com/yonatansverdlov/E-GenNet} 获取。
利用语言似然度大小区分人写文本和模型生成文本的方法越来越难以奏效,因为语言模型生成类人文本的能力不断提升。本研究提出了一种新的视角,使用相对似然度值而非绝对值,并从似然度谱视图中提取特征用于人机文本检测任务。我们提出了一种包含两种分类方法(分别为监督方法和启发式方法)的检测程序,其性能与之前的零样本检测方法相比具有竞争力,并在短文本检测方面取得了新的 state-of-the-art 结果。我们的方法还可以揭示人写语言和模型语言之间的细微差异,这些差异在心理语言学研究中找到了理论依据。我们的代码可在 https://github.com/CLCS-SUSTech/FourierGPT 获取。
大型语言模型 (LLM) 在黑盒环境下(即,无法访问输出标记概率等详细信息)如何提升推理能力,是机器学习领域的一个开放性挑战。现有的方法要么依赖于可访问性(这通常是不现实的),要么会显著增加训练和推理时间的成本。本文通过提出一种新方法 CoBB(用于改进黑盒 LLM 的问答推理的校正方法)来解决这些局限性或缺点。它使用一个经过训练的适配模型,对原始黑盒 LLM 的常常不完美的推理进行 seq2seq 映射,以获得正确或改进的推理。具体来说,该适配模型使用一个相对较小的开源 LLM 进行初始化,并在收集的子样本训练对上进行适配。为了选择正确和不正确推理的代表性对,我们将数据集构建公式化为一个最小化样本子集与整个集合之间统计差异的优化问题,并通过遗传算法对其进行求解。然后,我们通过对比正确和不正确推理的可能性,在样本对上训练适配模型。我们的实验结果表明,与性能最佳的基线方法相比,CoBB 显著提高了各种问答基准的推理准确性。