图池化因其在获取用于各种下游任务的有效节点和图表示的能力而受到关注。尽管近年来图池化方法激增,但缺乏标准化的实验设置和公平的基准来评估其性能。为了解决这个问题,我们构建了一个综合基准,包括 17 种图池化方法和 28 个不同的图数据集。该基准系统地评估了图池化方法在三个维度上的性能,即有效性、鲁棒性和泛化性。我们首先评估了这些图池化方法在不同任务上的性能,包括图分类、图回归和节点分类。然后,我们研究了它们在现实场景中潜在噪声攻击和分布外偏移下的性能。我们还进行了详细的效率分析、主干分析、参数分析和可视化,以提供更多证据。大量的实验验证了图池化方法在各种场景中的强大能力和适用性,这可以为深度几何学习研究提供宝贵的见解和指导。我们的基准的源代码可在 https://github.com/goose315/Graph_Pooling_Benchmark 上获取。
大型语言模型作为评判者为各种任务提供了一种有希望的替代方案,但其固有的偏差,尤其是位置偏差(即倾向于根据解决方案在提示中的位置来偏袒解决方案)已经损害了其有效性。我们的研究引入了一个系统框架来检查成对比较中的位置偏差,重点关注重复稳定性、位置一致性和偏好公平性。这项研究通过引入理解位置偏差的新概念并提供一个多维评估框架,为该领域做出了重大贡献。我们对 12 个大型语言模型评判者进行了实验,涵盖了 MTBench 和 DevBench,包括 22 个任务和大约 40 个解决方案生成模型(候选者),产生了超过 100,000 个评估实例。我们的研究结果证实了能够胜任的大型语言模型评判者中的位置偏差并非随机偶然,并且在不同的评判者和任务之间存在显著差异。此外,位置偏差受提示组件长度的影响较小,但受解决方案之间质量差距的显著影响。这些见解有助于优化评判模型选择、改进基准设计并为未来关于去偏见策略的研究提供信息,最终提高大型语言模型评判者的可靠性。
隐喻是日常生活中常用的沟通工具。文本形式的隐喻检测和生成已被广泛研究,但其他形式的隐喻却鲜有研究。最近的研究表明,视觉-语言 (VL) 模型无法理解模因和广告中的视觉隐喻。截至目前,还没有针对视频中复杂语言现象(如隐喻)进行探究。因此,我们在这项工作中引入了一项新的 VL 任务,即描述视频中存在的隐喻。为了促进这项新任务,我们构建并发布了一个包含 705 个视频和 2115 个人工撰写字幕的手动创建数据集,以及一个名为平均概念距离 (ACD) 的新指标,用于自动评估生成的隐喻的创造力。我们还提出了一种新颖的低资源视频隐喻字幕系统:GIT-LLaVA,它在所提任务上取得了与最先进的视频语言模型相当的性能。我们对现有视频语言模型在这项任务上的表现进行了全面分析,并将我们的数据集、模型和基准结果公布,以促进进一步的研究。
现代深度神经网络(NN)的训练策略倾向于在层权重中诱导出重尾(HT)经验谱密度(ESD)。虽然以前的研究表明 HT 现象与大型 NN 的良好泛化相关,但对其发生原因的理论解释仍然缺乏。特别是,理解导致这种现象的条件可以阐明泛化和权重谱之间的相互作用。我们的工作旨在通过提供一个简单的、丰富的环境来模拟 HT ESD 的出现来弥合这一差距。具体来说,我们提出了一个理论驱动的分析,用于在没有梯度噪声的情况下,在两层 NN 的 ESD 中“构建”重尾。这是第一项分析无噪声设置并将优化器(GD/Adam)相关的(大)学习率纳入 HT ESD 分析的工作。我们的结果突出了学习率在训练初期 ESD 的块状+尖峰和 HT 形状中的作用,这可以促进两层 NN 的泛化。这些观察结果阐明了大型 NN 的行为,尽管是在一个简单得多的环境中。最后但同样重要的是,我们通过分析权重矩阵的奇异向量和优化器更新,对 ESD 演化动力学提出了一个新的视角。
评估模型响应的不确定性或置信度对于评估对响应的信任以及对模型本身的信任都至关重要。本文探讨了在仅能以黑盒或查询方式访问大型语言模型 (LLM) 的情况下,估计其响应置信度的难题。我们提出一个简单且可扩展的框架,在这个框架中,我们设计了新颖的特征并训练了一个(可解释的)模型(即逻辑回归)来估计置信度。我们通过实证证明,我们的简单框架在估计 Flan-ul2、Llama-13b 和 Mistral-7b 在四个基准问答任务上的置信度以及 Pegasus-large 和 BART-large 在两个基准摘要任务上的置信度方面是有效的,在某些情况下,它甚至超过了基线超过 10%(在 AUROC 上)。此外,我们的可解释方法提供了对预测置信度的特征的洞察,从而导致了一个有趣且有用的发现,即我们为一个 LLM 建立的置信度模型在给定数据集上对其他 LLM 进行零样本泛化。
大规模语言模型 (LLM) 的扩展定律已经成为设计 LLM 的事实标准,但这些定律是在训练和推理都拥有无限计算资源的假设下研究的。随着 LLM 越来越多地被用作个性化的智能助手,它们的定制(即通过微调学习)和部署到资源受限的边缘设备将变得越来越普遍。一个迫切但尚未解决的问题是,资源受限的计算环境将如何影响个性化 LLM 的设计选择。我们在本研究中对这个问题进行了实证研究。特别是,我们考虑了几个关键设计因素之间的权衡以及它们对学习效率和准确性的相互影响。这些因素包括 LLM 定制的学习方法、用于学习定制的个性化数据量、LLM 的类型和大小、LLM 的压缩方法、学习所需的时间以及目标用例的难度级别。通过大量的实验和基准测试,我们得出了一系列令人惊讶的洞察性准则,用于将 LLM 部署到资源受限的设备上。例如,参数学习和 RAG 之间的最佳选择可能取决于下游任务的难度,较长的微调时间并不一定有助于模型,而压缩后的 LLM 可能是从有限的个性化数据中学习的更好选择,而不是未压缩的 LLM。
生成式人工智能技术的快速发展引发了重大的版权问题,导致众多针对人工智能开发者提起的诉讼。虽然已经研究了多种减轻版权问题的技术,但仍然存在重大风险。本文提出了一种泛化方法,该方法修改生成模型的输出,使其更加通用,并降低侵犯版权的可能性。为了实现这一点,我们引入了一个指标来量化数据的原创性水平,该指标与法律框架相一致。可以通过从生成模型中抽取样本估计该指标,然后将其用于泛化过程。作为实际实现,我们引入了 PREGen,它将我们的泛化方法与现有缓解技术相结合。实验表明,我们的泛化方法成功地修改了文本到图像生成模型的输出,使其生成更通用的、符合版权的图像。与现有方法相比,当使用受版权保护的角色的名称作为提示时,PREGen 将生成受版权保护的角色的可能性降低了一半以上,显着提高了性能。此外,虽然生成模型即使在提示中未直接提及受版权保护的角色的名称时也能生成受版权保护的角色,但 PREGen 在这些情况下几乎完全阻止了此类角色的生成。
大型语言模型的进步引发了这样一个问题:随着模型变得越来越复杂,人类只能对其进行弱监督,对齐技术将如何适应?弱到强模拟了这样一个场景,其中弱模型监督试图利用一个强大得多的模型的全部能力。这项工作将弱到强扩展到弱S到强,通过探索一个弱模型的集合来模拟人类意见的差异。置信度得分使用贝叶斯方法估计,以指导弱S到强泛化。此外,我们将弱S到强从文本分类任务扩展到文本生成任务,其中研究了更先进的监督策略。此外,直接偏好优化被应用于推进学生模型的偏好学习,超越了教师强迫的基本学习框架。结果证明了所提出方法对于强学生模型可靠性的有效性,显示出超级对齐的潜力。
心理学家资源有限,因此高效识别需要紧急心理健康护理的个人至关重要。本研究探讨了使用自然语言处理 (NLP) 管道分析来自在线心理健康论坛(用于咨询)的文本数据的可能性。通过分析论坛帖子,这些管道可以标记可能需要立即专业关注的用户。该领域的一个关键挑战是数据隐私和稀缺。为了解决这个问题,我们建议利用专门从事心理健康机构中现成的课程文本对 NLP 管道进行预训练。这有助于我们模拟心理医生的训练过程。我们的工作展示了 CASE-BERT,它可以根据论坛文本标记潜在的心理健康障碍。CASE-BERT 表现出优于现有方法的性能,在抑郁症和焦虑症(两种最常报告的心理健康障碍)方面分别获得了 0.91 和 0.88 的 f1 分数。我们的代码和数据公开可用。
训练模型充当能够有效地在复杂环境(例如网络浏览器)中导航和执行操作的代理,一直是一个挑战,因为缺乏训练数据。大型语言模型 (LLM) 最近在零样本或少样本的情况下展现出一定能力,可以作为代理导航新环境,完全由自然语言指令作为提示引导。最近的研究还表明,LLM 能够通过自我改进(即在模型自身生成的数据上进行微调)超越其基本性能。在这项工作中,我们探索了 LLM 在 WebArena 基准测试中,通过自我改进程序,在长时程任务中作为代理,其性能能够自我改进的程度。在 WebArena 中,代理必须自主地在网页上导航并执行操作以实现指定的目标。我们探索了对三种不同的合成训练数据混合进行微调,并在 WebArena 基准测试中,通过自我改进程序,使任务完成率比基础模型提高了 31%。此外,我们还贡献了新的评估指标,用于在更大程度上评估我们微调的代理模型的轨迹的性能、鲁棒性、能力和质量,而不是目前用于衡量自我改进的简单聚合级基准分数。