LLM2D

arXiv 论文列表

大型视觉语言模型在预测多个人类标注者提供的答案,尤其是当这些答案表现出人类的不确定性时,常常难以准确地预测。本研究重点关注视觉问答 (VQA) 任务,并全面评估了最先进的视觉语言模型与人类回答分布的相关性。为此,我们根据样本在不同意意见中的人类不确定性水平(低、中、高)对样本进行分类,并不仅使用准确率,还使用三个新的与人类相关的 VQA 度量指标,来调查 HUD 的影响。为了使模型更好地与人类对齐,我们还验证了常见校准和人类校准的效果。我们的结果表明,即使是 BEiT3,目前该任务中最好的模型,也难以捕捉到人类回答多样性所固有的多标签分布。此外,我们观察到常用的以准确率为导向的校准技术会对 BEiT3 捕捉 HUD 的能力产生不利影响,进一步加大了模型预测与人类分布之间的差距。相反,我们展示了将模型校准到人类分布以进行 VQA 的好处,使模型置信度与人类不确定性更好地对齐。我们的发现表明,对于 VQA,人类回答与模型预测之间的一致性对齐是研究不足的,应该成为未来研究的下一个关键目标。
发布时间: 10/7/2024
查看原文
近年来,手势识别系统取得了许多令人振奋的进展,并在人机交互 (HCI) 中变得越来越流行,其应用领域涵盖从安全和安保到汽车领域。各种深度神经网络架构已被用于手势识别系统,包括多层感知器 (MLP)、卷积神经网络 (CNN)、循环神经网络 (RNN) 以及后两种架构的级联,称为 CNN-RNN。然而,仍然存在一个主要问题,即大多数现有的机器学习算法都是为实值 (RV) 设计和开发的构建块和技术。研究人员将各种 RV 技术应用于复值 (CV) 雷达图像,例如通过将复数分成实部和虚部,将 CV 优化问题转化为 RV 问题。然而,这种方法的主要缺点是,由此产生的算法会使网络维度加倍。最近关于 RNN 和其他基本理论分析的研究表明,CV 数字具有更丰富的表示能力,但由于缺乏设计此类模型所需的构建块,CV 网络的性能被边缘化。在本报告中,我们提出了一种全 CV-CNN,包括所有构建块、正向和反向操作以及复数域中的导数。我们探索了我们提出的分类模型在两组 CV 手势雷达图像上的表现,并将其与等效的 RV 模型进行了比较。在第五章中,我们提出了一种 CV 正向残差网络,用于对两组 CV 手势雷达数据集进行二元分类,并将其性能与我们提出的 CV-CNN 和基线 CV 正向 CNN 进行了比较。
发布时间: 10/7/2024
查看原文
本文提出了一种方法,用于在开发和实施基于董事会自治系统的企业自治管理系统时,形成一个专门的操作环境。自治公司管理系统操作环境的重要组成部分是公司运营的监管和法律环境。为了为自治人工智能系统创造一个特殊的操作环境,可以同时以两种版本呈现当地监管文件的措辞:供人使用和供自治系统使用。在这种情况下,人工智能系统将获得一个明确定义的操作环境,允许该系统在所需标准内执行功能。提供个人和自治人工智能系统联合工作细节的当地法规可以为管理自治系统开发和实施的相关立法奠定基础。
发布时间: 10/7/2024
查看原文
作者: Jin Chen, Kaijing Ma, Haojian Huang, Jiayu Shen, Han Fang, Xianghao Zang, Chao Ban, Zhongjiang He, Hao Sun, Yanmei Kang
多模态模型的开发正在迅速发展,其中一些模型展示了非凡的能力。然而,对视频-文本对进行标注仍然成本高昂且不足。以视频问答 (VideoQA) 任务为例,人工标注的问题和答案往往只涵盖视频的一部分,而且相似的语义也可以通过不同的文本形式表达,导致视频信息利用不足。为了解决这个问题,我们提出了 BoViLA,一个自训练框架,它通过基于 LLM 的自我问答在训练过程中增加问题样本,帮助模型更全面地利用视频信息和 LLM 的内部知识,从而提高模态对齐。为了过滤掉质量不好的自生成问题,我们引入了证据深度学习 (EDL) 来估计不确定性,并通过评估上下文中的模态对齐来评估自生成问题的质量。据我们所知,这项工作是第一个探索基于 LLM 的模态对齐自训练框架的研究。我们在五个强大的 VideoQA 基准上评估了 BoViLA,它优于几种最先进的方法,并证明了它的有效性和通用性。此外,我们对自训练框架和基于 EDL 的不确定性过滤机制进行了广泛的分析。代码将在 https://github.com/dunknsabsw/BoViLA 上提供。
发布时间: 10/7/2024
查看原文
近年来,机器学习模型从多个方向取得了进展,朝着类人的推理能力迈进。本文回顾了当前文献的现状,并描述了实现能够执行类似于人类的系统 2 推理的神经模型所需的剩余步骤。我们认为,如果当前模型不足以被归类为执行推理,那么要实现这一目标所需的额外进展非常少。
发布时间: 10/7/2024
查看原文
作者: Jonathan Cook, Tim Rockt\"aschel, Jakob Foerster, Dennis Aumiller, Alex Wang
鉴于大型语言模型 (LLM) 的广泛采用和使用,对它们指令遵循能力进行灵活且可解释的评估至关重要。模型输出之间的偏好判断已成为事实上的评估标准,尽管它将复杂的多方面偏好提炼成单一排名。此外,由于人工标注速度慢且成本高,LLM 越来越被用于做出这些判断,但代价是可靠性和可解释性。在本研究中,我们提出了 TICK(带检查清单的目标指令评估),这是一种完全自动化的、可解释的评估协议,它使用 LLM 生成的、特定于指令的检查清单来构建评估。我们首先表明,给定一条指令,LLM 可以可靠地生成高质量的、定制的评估检查清单,将指令分解成一系列是/否问题。每个问题询问候选响应是否满足指令的特定要求。我们证明,与让 LLM 直接对输出进行评分相比,使用 TICK 会导致 LLM 判断与人类偏好之间完全一致的频率显着增加(46.4% $\to$ 52.2%)。然后,我们证明 STICK(Self-TICK)可用于通过自我完善和最佳 N 选择来提高多个基准的生成质量。STICK 在 LiveBench 推理任务上的自我完善导致绝对收益 +7.8%,而使用 STICK 的最佳 N 选择在真实世界指令数据集 WildBench 上获得了 +6.3% 的绝对改进。鉴于此,结构化的、多方面的自我改进被证明是进一步提升 LLM 能力的一种很有前景的方式。最后,通过向负责直接对 LLM 对 WildBench 指令的响应进行评分的人类评估者提供 LLM 生成的检查清单,我们显着提高了评估者间一致性(0.194 $\to$ 0.256)。
发布时间: 10/7/2024
查看原文
作者: Jianpeng Chen, Yawen Ling, Yazhou Ren, Zichen Wen, Tianyi Wu, Shufei Zhang, Lifang He
随着图结构数据的日益普及,多视图图聚类已广泛应用于各种下游应用。现有的方法主要依赖于统一的消息传递机制,这显著提高了聚类性能。然而,这种机制限制了其在异质情况下的适用性,因为它本质上基于同质性的假设,即连接的节点通常属于同一类。实际上,这一假设并不总是成立;由于图中不可避免的异质信息,中等甚至轻微同质的图比完全同质的图更为常见。为了解决这个问题,本文提出了一种新颖的用于多视图异质图聚类的相似性增强同质性 (SMHGC) 方法。通过分析相似性和图同质性之间的关系,我们提出了一种无标签的方式,通过引入三个相似性项来增强同质性,即邻居模式相似性、节点特征相似性和多视图全局相似性。然后,提出了一种基于共识的视图间和视图内融合范式,以融合来自不同视图的改进同质图,并将其用于聚类。在多视图异质和同质数据集上的最先进实验结果共同证明了相似性在无监督多视图异质图学习中的强大能力。此外,在具有不同同质性水平的半合成数据集上的持续性能进一步证明了 SMHGC 对异质性的弹性。
发布时间: 10/7/2024
查看原文
作者: Lijie Hu, Liang Liu, Shu Yang, Xin Chen, Zhen Tan, Muhammad Asif Ali, Mengdi Li, Di Wang
大型语言模型在各种任务中展现出非凡的能力,其中思维链(CoT)提示已成为增强推理能力的关键技术。然而,现有的研究主要集中在提高性能上,缺乏一个全面的框架来解释和理解 CoT 成功背后的基本因素。为了弥合这一差距,我们引入了一种基于认知神经科学中霍普菲尔德认知观点的新视角。我们将 CoT 推理与刺激、行动、神经群体和表征空间等关键认知元素联系起来。从我们的观点来看,我们可以将推理过程理解为在这些表征空间之间的移动。基于这一见解,我们开发了一种方法来定位 CoT 响应中的推理错误。此外,我们提出了思维表征(RoT)框架,该框架利用低维表征空间的鲁棒性来增强 CoT 中推理过程的鲁棒性。实验结果表明,RoT 提高了 CoT 推理的鲁棒性和可解释性,同时提供了对推理过程的细粒度控制。
发布时间: 10/7/2024
查看原文
作者: Lu\'is Cruz-Filipe, Jonas Vistrup
我们提出了 f{\ae}rdXel,一个用于丹麦交通法领域符号推理的工具。f{\ae}rdXel 将逻辑编程技术与一种新颖的界面相结合,允许用户浏览其推理过程,从而确保系统的可信度。初步的实证评估表明,这项工作被认为非常有前景,并有可能成为支持丹麦法律领域专业人士的现实世界 AI 工具的基础。
发布时间: 10/7/2024
查看原文
深度学习在过去十年中取得了长足进步,催生出越来越强大的系统,并被应用于各种各样的领域。在自然语言处理领域,大型语言模型等一系列突破性进展彻底改变了该领域,并被越来越多地应用于面向用户的应用程序中。为了充分利用这项技术的优势并减少潜在的危害,对模型预测的可靠性和其发展过程中存在的各种不确定性进行量化至关重要。 本论文从语言学、统计学和神经网络的角度研究了自然语言处理中的不确定性如何进行刻画,以及如何通过实验流程的设计来减少和量化这种不确定性。我们进一步探讨了建模中的不确定性量化,从理论和实证角度研究了归纳模型偏差对文本分类任务的影响。相应的实验包括三种不同语言(丹麦语、英语和芬兰语)的数据和任务,以及大量不同的不确定性量化方法。此外,我们提出了一种基于非交换一致性预测的自然语言生成中校准采样方法,该方法能够提供更紧密的词元集,并更好地覆盖实际的延续。最后,我们开发了一种方法,利用辅助预测器来量化大型黑盒语言模型的置信度,其中置信度仅根据目标模型的输入和生成的输出文本进行预测。
发布时间: 10/7/2024
查看原文