昆虫占全球生物多样性的一半,然而世界上许多昆虫正在消失,这对生态系统和农业造成了严重影响。尽管存在这场危机,但由于缺乏人类专家以及缺乏可扩展的监测工具,昆虫多样性和丰度数据仍然严重不足。生态学家已开始采用相机陷阱来记录和研究昆虫,并提出计算机视觉算法作为可扩展数据处理的解决方案。然而,野外昆虫监测带来了计算机视觉尚未解决的独特挑战,包括长尾数据、极其相似的类别以及显著的分布变化。我们提供了第一个用于细粒度昆虫识别的机器学习大规模基准,旨在匹配生态学家面临的现实世界任务。我们的贡献包括来自公民科学平台和博物馆的精选图像数据集,以及从多个大陆的自动化相机陷阱中提取的专家注释数据集,旨在测试野外条件下的分布外泛化。我们训练和评估了各种基线算法,并引入了一系列数据增强技术,以增强跨地理区域和硬件设置的泛化能力。
大型语言模型 (LLMs) 在推理过程中经常表现出过度自信,尤其是在适应数据有限的下游领域特定任务时。先前的工作通过在 LLM 训练完成后采用近似贝叶斯估计来解决这个问题,使它们能够量化不确定性。然而,这种训练后方法的性能受到训练过程中学习的参数的严重限制。在本文中,我们超越了训练后贝叶斯化,提出了通过反向传播的贝叶斯低秩自适应 (BLoB) 算法,该算法在整个微调过程中连续且联合地调整 LLM 参数的均值和协方差。我们的实证结果验证了 BLoB 在泛化和不确定性估计方面的有效性,在分布内和分布外数据上进行评估。
完形填空测试是衡量大型语言模型在众多基准任务上的行为的一种常用方法。使用 MMLU 数据集,我们表明答案标记之间的基线概率 (BRP) 差异是显著的,并且会影响任务表现,即如果存在不确定性则猜测 A。我们发现反事实提示可以充分缓解 BRP 效应。发现 BRP 效应与人类采用的考试策略有类似的影响,导致任务表现和考试能力的混淆。我们提出了 Nvr-X-MMLU 任务,它是 MMLU 的一个变体,它有助于将考试能力与任务表现区分开来,并报告后者。
尽管模型编辑方法取得了重大进展,但在实际应用中仍然面临挑战,因为它们常常会导致大型语言模型(LLMs)崩溃。其中,ROME 尤其令人担忧,因为它可能仅通过一次编辑就破坏 LLMs。本文研究了这种崩溃的根本原因。通过大量分析,我们确定了导致崩溃的两个主要因素:i)参数更新方程中对带前缀和不带前缀键的不一致处理会导致非常小的分母,从而导致过大的参数更新;ii)崩溃案例的主题通常是第一个标记,其不带前缀键分布与自回归变换器中的带前缀键分布显著不同,导致上述问题出现。为了验证我们的发现,我们提出了一种简单但有效的方法:在编辑阶段统一使用带前缀的键,并在测试阶段添加前缀,以确保训练和测试之间的一致性。实验结果表明,所提出的解决方案可以防止模型崩溃,同时保持编辑的有效性。
本研究旨在评估几种循环神经网络 (RNN) 架构(包括简单 RNN、门控循环单元 (GRU) 和长短期记忆 (LSTM))的性能,并将其与随机森林和 XGBoost 等经典算法进行比较,从而构建东南亚 5 国股票市场早期崩盘检测的分类模型。该研究使用不平衡数据进行检验,由于市场崩盘的罕见性,这种数据很常见。该研究分析了 2010 年至 2023 年期间东南亚 5 国(包括印度尼西亚、马来西亚、新加坡、泰国和菲律宾)主要股票市场的每日数据。当主要股票价格指数跌破 5%、2.5% 和 1% 的风险价值 (VaR) 阈值时,市场崩盘被识别为目标变量。预测因子包括主要本地和全球市场的技术指标以及商品市场指标。本研究包括 213 个预测因子及其各自的滞后值(5、10、15、22、50、200),并使用 7 的时间步长,将预测因子的总数扩展到 1491 个。数据不平衡的挑战通过 SMOTE-ENN 来解决。结果表明,所有基于 RNN 的架构都优于随机森林和 XGBoost。在各种 RNN 架构中,简单 RNN 表现最为出色,这主要是因为数据特征并不过于复杂,并且更关注短期信息。本研究通过纳入不同地理区域和时间段等变量以及方法调整,增强并扩展了先前研究中观察到的现象范围。
大型语言模型 (LLM) 作为评判者在各种任务中为人类评估者提供了一种有前景的替代方案,但其固有的偏差,尤其是位置偏差(倾向于根据解决方案在提示中的位置来偏袒解决方案)损害了其有效性。我们的研究引入了一个系统框架来检查成对比较中的位置偏差,重点关注重复稳定性、位置一致性和偏好公平性。这项研究通过引入理解位置偏差的新概念和提供用于评估的多维框架,为该领域做出了重大贡献。我们使用 12 个 LLM 评判者对 MTBench 和 DevBench 进行了实验,涵盖了 22 个任务和大约 40 个解决方案生成模型(候选者),产生了超过 100,000 个评估实例。我们的发现证实了能力强的 LLM 评判者中的位置偏差并非由于随机机会,并且在不同评判者和任务之间观察到了显著的变化。此外,位置偏差受提示组件长度的影响较小,但受解决方案之间质量差距的影响较大。这些见解可以帮助优化评判者模型选择、改进基准设计并为未来关于去偏差策略的研究提供信息,最终提高 LLM 评判者的可靠性。
大型语言模型 (LLMs) 在零样本或少样本场景下,通过适当的提示在多模态内容理解和推理方面展现出令人印象深刻的能力。尽管已经开发出大量交互式系统来支持跨各种任务的 LLM 提示工程,但大多数系统主要集中在文本或视觉输入上,因此忽略了多模态输入中模态之间复杂的相互作用。这种疏忽阻碍了有效提示的开发,这些提示通过充分利用多种模态提供的丰富上下文来引导模型的多模态推理过程。在本文中,我们提出了 POEM,这是一个可视化分析系统,旨在促进有效的提示工程,以增强 LLM 的多模态推理性能。该系统使用户能够以不同的详细程度探索跨模态的交互模式,从而全面了解各种提示引发的多模态知识。通过演示示例和指导原则的多样化推荐,POEM 支持用户迭代地构建和改进提示,以更好地将模型知识与人类见解相结合并增强模型知识。我们通过两个案例研究和专家访谈验证了我们系统的有效性和效率。
为了使自主机器人能够在城市环境中可靠地导航,机器人必须能够根据对场景的语义理解,从图像中识别出语义上可穿越的地形。这种推理能力基于语义可穿越性,通常使用针对测试域进行微调的语义分割模型来实现。这种微调过程通常涉及使用目标机器人进行手动数据收集,并由人工标注人员进行标注,这非常昂贵且无法扩展。在本研究中,我们提出了一种使用自拍视频和自动化标注过程来训练语义可穿越性估计器的有效方法。自拍视频是从安装在行人胸前的摄像机收集的。用于训练语义可穿越性估计器的训练数据集随后通过使用最新的图像分割基础模型及其提示技术,从每个视频帧中提取语义可穿越区域来自动生成。在涵盖各种城市场景,跨多个国家和城市拍摄的视频上进行的大量实验表明,所提出的标注方法具有很高的可扩展性和泛化能力。此外,性能分析和自主机器人导航的真实世界部署表明,经过训练的语义可穿越性估计器具有高度准确性,能够处理不同的相机视角,计算量轻,并且适用于真实世界。总结视频可在 https://youtu.be/EUVoH-wA-lA 观看。
偏好学习算法(例如,RLHF 和 DPO)经常被用来引导大型语言模型 (LLM) 生成人类更喜欢的输出,但我们对其内部机制的理解仍然有限。在这项工作中,我们研究了偏好学习训练模型将更高可能性分配给比不太喜欢的输出更喜欢的输出的传统观点,这种观点通过排序准确性来衡量。令人惊讶的是,我们发现大多数最先进的偏好调整模型在常见的偏好数据集上的排序准确率不到 60%。我们进一步推导出偏好调整 LLM 在完美优化 DPO 或 RLHF 目标的情况下将达到的理想排序准确率。我们证明现有的模型表现出显著的校准差距——即观察到的排序准确率和理想排序准确率之间的差距。我们将这种差异归因于 DPO 目标,该目标在经验和理论上都不适合修复参考模型中即使是轻微的排序错误,并推导出一个简单高效的公式来量化学习给定偏好数据点的难度。最后,我们证明当模型接近目标中使用的参考模型时,排序准确率与经验流行的胜率指标高度相关,这进一步揭示了在线策略(例如,RLHF)和离线策略(例如,DPO)偏好学习算法之间的差异。
连续时间动态图中的异常检测是一个新兴领域,但在学习算法的背景下尚未得到充分探索。本文率先对链接级异常和图表示学习进行了结构化分析,以识别类别异常的图链接。首先,我们利用结构、时间和上下文图属性,为边缘级异常引入了一个细粒度的分类法。基于这些属性,我们引入了一种方法来生成和注入类型异常到图中。接下来,我们引入了一种新方法来生成连续时间动态图,这些图在时间、结构和上下文中的任何一个或组合方面都具有一致性。为了使时间图学习方法能够检测特定类型的异常链接,而不是仅仅检测链接的存在,我们扩展了通用的链接预测设置: (1) 将链接存在与上下文边缘属性关联起来;(2) 改进训练机制以适应负边缘采样器中的各种扰动。在合成数据集和真实数据集上的综合基准测试(包括合成和标记的有机异常,并采用了六种最先进的链接预测方法)验证了我们对异常和良性图的分类法和生成过程,以及我们对适应异常检测方法的方法。我们的结果表明,不同的学习方法在捕捉图正常性的不同方面和检测不同类型的异常方面表现出色。我们以一份全面总结了研究成果的清单作为结尾,并指出了未来研究的机会。