什么主义(Whataboutism),作为一种扰乱叙事和播撒不信任的有力工具,在定量自然语言处理研究中仍然未得到充分探索。此外,过去的研究没有区分其作为误导信息和宣传策略的使用与其作为实用和语义框架工具的使用。我们从Twitter和YouTube引入了新的数据集,揭示了什么主义、宣传和你也一样谬误之间的重叠和区别。此外,借鉴语言语义学的最新研究,我们区分了“what about”词汇结构与什么主义。我们的实验揭示了准确检测中独特的挑战,促使我们引入了一种使用注意力权重进行负样本挖掘的新方法。我们报告了在Twitter和YouTube数据集上分别比以前的最先进方法提高了4%和10%的显著改进。
面部动作单元(AU)检测在检测AUs激活时的细微特征差异方面长期面临挑战。现有方法通常依赖于编码AU的像素级信息,这不仅会编码额外的冗余信息,还会导致模型复杂性增加和泛化能力有限。此外,每种AU类型的类别不平衡问题以及存在噪声和错误的AU标签都对AU检测的准确性产生负面影响。在本文中,我们引入了一种新颖的对比学习框架,旨在通过融入自监督和监督信号来增强辨别特征的学习,从而提高AU检测的准确性。为解决类别不平衡问题,我们采用了一种负样本重加权策略,调整少数类和多数类样本参数更新的步长。此外,为应对噪声和错误AU标签带来的挑战,我们使用了一种包含三种不同类型正样本对的采样技术,这使我们能够将自监督信号注入到监督信号中,有效减轻噪声标签的不利影响。我们在四个广泛使用的基准数据集(BP4D、DISFA、GFT和Aff-Wild2)上进行的实验评估,突显了我们的方法相较于最先进的AU检测方法的优越性能。我们的代码可在 \url{https://github.com/Ziqiao-Shang/AUNCE} 获取。
本文提出了一种用于高海拔环境(空中索道)中钢索无损检测的新算法。该算法包含两个关键组件:首先,设计了一种名为RGBD-UNet的分割模型,用于从复杂背景中准确提取钢索。该模型具备通过所提出的CMA模块处理和结合色彩与深度信息的能力。其次,开发了一种名为VovNetV3.5的检测模型,用于区分正常和异常钢索。该模型结合了VovNet架构和DBB模块以提升性能。此外,提出了一种新的背景增强方法以提高分割模型的泛化能力。为训练和测试分割与检测模型,创建了包含不同场景下钢索图像的数据集。实验表明,与基线模型相比,算法具有显著的改进。在所提出的数据集上,检测模型的最高准确率达到了0.975,分割模型的最大F值达到了0.948。
万维网的连接性很大程度上归功于HTTP协议,HTTP消息提供的信息头字段在网络安全和隐私保护等领域,特别是网络追踪方面,具有重要作用。尽管现有研究利用HTTP请求消息来识别网络追踪器,但HTTP响应头常被忽视。本研究旨在通过二值化的HTTP响应头设计有效的机器学习分类器来检测网络追踪器。我们利用通过流量监控浏览器扩展T.EX从Chrome、Firefox和Brave浏览器中获取的数据作为数据集。十个监督模型在Chrome数据上训练,并在所有浏览器上测试,包括一年后获取的Chrome数据集。结果显示,Chrome和Firefox的准确率、F1分数、精确度、召回率和最小对数损失误差都很高,但在Brave上的表现较差,这可能是由于其数据分布和特征集的不同所致。研究表明这些分类器在网络追踪器检测中是可行的。然而,实际应用测试尚未进行,未来研究可以探讨追踪器类型的区分和更广泛的标签来源。
这篇论文介绍了由肯塔基大学应用人工智能中心开发的一个用户友好平台,旨在使大型、定制化的语言模型(LLMs)更易于访问。通过利用最近在多-LoRA推理方面的进展,该系统高效地适应了各种用户和项目的定制适配器。论文概述了系统的架构和主要特性,包括数据集策划、模型训练、安全推理和基于文本的特征提取。我们展示了使用基于代理的方法建立一个租户感知的计算网络,安全地将孤立资源岛作为一个统一的系统使用。该平台致力于提供安全的LLM服务,强调过程和数据隔离、端到端加密以及基于角色的资源认证。这一贡献与简化获取先进人工智能模型和技术的总体目标一致,以支持科学发现。
大型语言模型(LLMs)的推理能力是人工智能和认知科学中越来越多研究的主题。在本文中,我们探讨了二十五个LLMs在区分逻辑上正确的推理和逻辑上谬误的推理方面的能力。我们重点关注涉及条件句(例如,“如果安有一张皇后,那么鲍勃有一张杰克”)和认知模态(例如,“安可能有一张A”,“鲍勃必须有一张K”)的推理模式。这些推理对于逻辑学家、哲学家和语言学家来说特别重要,因为它们在人类推理远程可能性这一基本能力中起着核心作用。因此,评估LLMs在这些推理中的表现对于了解LLMs的推理能力与人类的匹配程度具有高度相关性。在我们测试的LLMs中,除了GPT-4模型系列外,所有模型在条件句上经常犯基本错误,尽管零样本链式思维提示有助于减少错误。此外,即使是GPT-4系列在涉及认知模态的推理模式中也表现出逻辑不一致的判断,几乎所有模型在文献中广泛讨论的某些复杂条件推理问题上的回答都不符合人类判断。这些结果突显了当今LLMs在基本逻辑推理方面的差距。
我们提出了一种具有可扩展框架的解决方案,以应对获取现实世界操作技能的挑战。我们认为,确定一个能够利用大规模数据集的适当预测目标对于实现高效和普遍的学习至关重要。因此,我们提出利用3D流作为理想的预测目标,该流代表了感兴趣对象上3D点的未来轨迹。为了利用可扩展的数据资源,我们将注意力转向人类视频。我们首次开发了一种基于大规模RGBD人类视频数据集的语言条件3D流预测模型。我们预测的流提供了可操作的指导,从而在现实世界场景中促进了零样本技能迁移。我们通过基于闭环流预测的策略部署了我们的方法。值得注意的是,在没有任何域内微调的情况下,我们的方法在零样本人类到机器人技能迁移中达到了81%的成功率,涵盖了6个场景中的18项任务。我们的框架具有以下优点:(1) 可扩展性:利用跨实体数据资源;(2) 广泛应用:多种对象类别,包括刚性、关节和软体;(3) 稳定的技能迁移:提供可操作指导,推理域差距较小。代码、数据和补充材料可在https://general-flow.github.io获取。
工具学习作为大型语言模型(LLMs)与物理世界互动的重要手段,引起了广泛关注。当前研究主要强调LLMs在结构良好的环境中使用工具的能力,而忽视了它们在面对现实世界不可避免的噪声时的稳定性。为弥补这一差距,我们引入了RoTBench,一个用于评估LLMs在工具学习中鲁棒性的多级基准。具体而言,我们建立了五个外部环境,每个环境具有不同程度的噪声(即干净、轻微、中等、严重和综合),对模型在三个关键阶段(工具选择、参数识别和内容填充)的韧性进行深入分析。对六种广泛使用的模型进行的实验突显出提高LLMs在工具学习中鲁棒性的迫切必要性。例如,当手动准确性没有显著变化时,GPT-4的性能甚至从80.00显著下降到58.10。更令人惊讶的是,GPT系列固有的噪声校正能力反而妨碍了其在轻微噪声下的适应性。鉴于这些发现,我们提出了RoTTuning,一种通过丰富训练环境的多样性来增强LLMs在工具学习中鲁棒性的策略。代码和数据可在https://github.com/Junjie-Ye/RoTBench获得。
大型基础模型,包括大型语言模型(LLMs)、视觉转换器(ViTs)、扩散模型以及基于LLM的多模态模型,正在从训练到部署的整个机器学习生命周期中引发革命性变化。然而,这些模型在多功能性和性能方面的重大进步,伴随着硬件资源方面的巨大成本。为了在可扩展和环境可持续的方式中支持这些大型模型的增长,开发资源高效的策略成为了关注重点。这篇综述深入探讨了这类研究的重要性,考察了算法和系统两个方面。它提供了对现有文献的全面分析和宝贵见解,涵盖了从前沿的模型架构和训练/服务算法到实际系统设计和实现的广泛主题。该综述的目标是提供对当前方法如何应对大型基础模型所带来的资源挑战的全面理解,并有望激发该领域未来的突破。
几十年后,回归森林继续提供最先进的准确性,在这方面超越了回归树甚至神经网络等替代机器学习模型。然而,作为一种集成方法,回归森林在可解释性方面通常远逊于回归树。在本研究中,我们重新审视了森林剪枝,这是一种旨在兼具回归森林的准确性和回归树的可解释性的方法。这种追求的基础源自随机森林理论的核心,并在经验研究中取得了巨大成功。在本文中,我们贡献了支持和限定这些经验发现的理论结果;即,我们证明了在极其弱的假设下,Lasso剪枝森林相对于未剪枝森林的渐近优势,以及根据主要方法剪枝的回归森林的高概率有限样本泛化界限,然后通过模拟验证这些界限。接着,我们在19个不同的数据集(16个合成数据,3个真实数据)上测试了剪枝回归森林与未剪枝森林的准确性。我们发现,在绝大多数测试场景中,至少有一种森林剪枝方法能够在期望上提供与原始完整森林相同或更好的准确性,而仅使用了少量的树木。我们展示了在某些情况下,森林规模的减少是如此显著,以至于生成的子森林可以有意义地合并成一棵单树,获得的可解释性在质量上优于原始回归森林,后者仍然是一个黑箱。