时间序列异常检测在工程过程中扮演着重要角色,如开发、制造以及其他涉及动态系统的操作。这些过程可以从该领域的进步中大大受益,因为最先进的方法可能在处理高维数据等情况下提供帮助。为了帮助读者理解术语,本综述引入了一种新的分类法,区分了在线与离线、训练与推理。此外,它介绍了文献中最常用的数据集和评估指标,并进行了详细分析。进一步地,本综述提供了基于模型的在线半监督和无监督异常检测方法的广泛概述,这些方法适用于多元时间序列数据,并根据不同的模型家族和其他属性进行分类。最大的研究挑战在于基准测试,因为目前没有可靠的方法来比较不同的方法。这个问题是双重的:一方面,公共数据集至少存在一个根本性缺陷,另一方面,该领域缺乏直观且具有代表性的评估指标。此外,大多数出版物选择检测阈值的方式忽略了现实条件,这阻碍了在现实世界中的应用。为了在该领域取得实质性进展,这些问题必须在未来的工作中得到解决。
arXiv:2407.00449v2 公告类型: 替换-交叉 摘要: 给出了超复数神经网络的全张量理论。它允许神经网络使用基于任意代数的算术。关键点在于观察到代数乘法可以表示为三阶张量,并在每次代数运算中使用该张量。这种方法对于支持有效张量操作的神经网络库具有吸引力。它与四维代数的先前实现一致。
大多数强化学习(RL)方法侧重于在低级动作空间中学习最优策略。尽管这些方法在其训练环境中表现良好,但它们缺乏灵活性,无法迁移到新任务中。相比之下,能够执行有用、时间延展技能而非低级动作的RL代理可以更容易地学习新任务。基于技能的RL先前工作要么需要专家监督来定义有用技能,这难以扩展,要么从离线数据中学习技能空间,但这些技能受限于启发式方法,适应性有限,使得它们在下游RL中难以迁移。我们的方法EXTRACT则利用预训练的视觉语言模型从离线数据中提取一组离散的语义上有意义的技能,每个技能由连续参数化,无需人工监督。这种技能参数化使得机器人只需学习何时选择特定技能以及如何为特定任务修改其参数,从而学习新任务。我们在稀疏奖励、基于图像的机器人操作环境中进行的实验表明,EXTRACT比先前的工作能更快地学习新任务,并在样本效率和性能上取得了显著提升。
领域专家与数据科学家合作,探索利用机器学习技术解决其问题的需求日益增长。从领域问题/疑问出发,基于机器学习的解决问题通常包括三个步骤:(1)将业务问题(问题领域)表述为数据分析问题(解决方案领域),(2)根据领域需求和可用数据的属性,勾勒出基于机器学习的高层次解决方案模式,(3)设计和优化解决方案模式的不同组成部分。必须存在大量机器学习研究人员公认的、机器学习从业者常规应用的机器学习问题解决知识,以解决最常见的问题。我们的工作涉及捕捉这一知识体系,并将其体现在一个机器学习问题解决工作台中,以帮助非机器学习专家的领域专家探索机器学习解决方案空间。本文重点讨论:1)领域问题、机器学习问题以及主要机器学习解决方案成果的表示,2)一种启发式匹配函数,该函数有助于识别最适用于当前领域问题的机器学习算法家族,考虑到领域(专家)需求和训练数据的特征。我们回顾了相关工作,并概述了验证工作台的策略。
arXiv:2406.13605v2 公告类型: 替换-交叉 摘要: 大型语言模型 (LLMs) 作为人工社会代理的行为在很大程度上尚未被探索,我们仍然缺乏这些代理如何对简单的社会刺激做出反应的广泛证据。在经典博弈论实验中测试人工智能代理的行为,为评估这些代理在典型社会情境中的规范和价值观提供了一个有前景的理论框架。在这项工作中,我们研究了三个 LLMs (Llama2、Llama3 和 GPT3.5) 在迭代囚徒困境中与表现出不同敌意水平的随机对手对战时的合作行为。我们引入了一种系统的方法来评估 LLM 对游戏规则的理解及其解析历史游戏记录以进行决策的能力。我们进行了持续 100 轮的游戏模拟,并根据行为经济学文献中定义的维度分析了 LLMs 的决策。我们发现,所有模型都不倾向于发起背叛,而是谨慎行事,只有在对手的背叛率较低时才倾向于合作。总体而言,LLMs 的行为至少与典型的人类玩家一样合作,尽管我们的结果表明模型之间存在一些显著差异。特别是,Llama2 和 GPT3.5 比人类更合作,尤其是对于对手背叛率低于 30% 的情况,它们表现出极大的宽容和不报复性。与人类更相似的是,Llama3 除非对手始终合作,否则表现出持续的不合作和剥削行为。我们对 LLMs 在博弈论场景中的系统研究是朝着利用这些模拟来指导 LLM 审计和调整实践迈出的一步。
arXiv:2405.19300v2 公告类型: 替换-交叉 摘要: 受欧盟《人工智能法案》当前修正案第67条的启发,我们提出并介绍了针对表格数据集中歧视问题的措施和缓解策略。我们特别关注包含多个受保护属性的数据集,如国籍、年龄和性别。这使得测量和缓解偏见更具挑战性,因为许多现有方法是为单一受保护属性设计的。本文的贡献是双重的:首先,引入了新的歧视测量方法。这些方法在我们的框架中与现有方法一起分类,指导研究人员和从业者选择合适的测量方法来评估基础数据集的公平性。其次,展示了现有偏见缓解方法FairDo的新应用。我们表明,通过转换数据集,这种策略可以缓解任何类型的歧视,包括交叉歧视。通过在真实世界数据集(Adult、Bank、COMPAS)上进行实验,我们证明了去偏见多受保护属性数据集是可能的。所有转换后的数据集平均减少了28%的歧视。此外,与原始数据集相比,这些数据集不会显著影响任何测试的机器学习模型的性能。总之,本研究展示了所用缓解策略的有效性,并有助于欧盟《人工智能法案》实施的持续讨论。
高斯过程回归(GPR)在统计学和机器学习中广泛应用于需要不确定性度量的预测任务。其有效性依赖于均值函数、协方差核函数及其相关超参数的适当指定。严重的错误指定可能导致不准确的结果和问题性后果,尤其是在安全关键应用中。然而,文献中缺乏系统处理这些错误指定的方法。本文提出了一种通用框架来解决这些问题。首先,我们引入了一个灵活的两阶段GPR框架,将均值预测与不确定性量化(UQ)分离,以防止均值错误指定引入模型偏差。其次,通过一种新颖的自动核搜索算法来解决核函数错误指定问题,该算法由理论分析支持,从候选集中选择最优核。此外,我们提出了一种基于子采样的预热启动策略,用于超参数初始化,以提高效率并避免超参数错误指定。与仅在完整数据集上训练相比,我们的基于子采样的策略在计算成本大幅降低的情况下,能够产生更具竞争力或更好的性能。结合所有这些组件,我们推荐了两种GPR方法——精确和可扩展——旨在匹配可用的计算资源和特定的UQ需求。在包括UCI基准和安全关键医疗案例研究在内的真实世界数据集上的广泛评估,展示了我们方法的鲁棒性和精确性。
大规模语言模型(LLMs)的部署面临资源限制和推理效率方面的重大挑战。近期研究越来越关注通过从LLMs中提炼知识来增强的小型、任务特定模型。然而,先前的研究往往忽视了知识的多样性和质量,特别是未被充分利用的负面知识。构建有效的负面知识仍然严重不足。本文介绍了一种名为质量引导对比推理提炼的新框架,旨在通过对比知识学习增强推理能力。对于正面知识,我们通过温度采样丰富其多样性,并采用自一致性进行进一步的去噪和精炼。对于负面知识,我们提出了一种创新的自对抗方法,通过采样较小语言模型的先前迭代生成低质量的推理依据,秉承了从自身弱点中学习的理念。我们开发了一种对比损失,将正面和负面知识提炼到较小的语言模型中,并集成了一个在线更新的判别器,用于评估推理依据的质量并赋予其适当的权重,优化训练过程。通过在多个推理任务上的广泛实验,我们证明了我们的方法始终优于现有的提炼技术,生成更高质量的推理依据。
本文探讨了通过从训练集中移除特定数据点以实现该集合中人口公平表示的偏差缓解技术。机器学习模型在这些预处理后的数据集上进行训练,并期望其预测结果是公平的。然而,此类方法可能会排除相关数据,使得所获得的子集在进一步使用时可信度降低。为了提高先前方法的可信度,我们提出了子集必须满足的额外要求和目标,除了公平性之外,还包括(1)群体覆盖率,和(2)最小数据损失。尽管移除整个群体可能会提高测量的公平性,但这种做法存在很大问题,因为未能代表每个群体不能被视为公平。在我们的第二个关注点中,我们主张在最小化歧视的同时保留数据。通过引入考虑公平性和数据损失的多目标优化问题,我们提出了一种方法来找到平衡这些目标的帕累托最优解。通过识别这些解决方案,用户可以就公平性和数据质量之间的权衡做出明智的决策,并选择最适合其应用的子集。我们的方法通过PyPI以Python包的形式发布,名为FairDo(https://github.com/mkduong-ai/fairdo)。
深度强化学习(DRL)在模拟领域展示了显著的成功,然而其在设计机器人控制器方面的应用仍然有限,这主要归因于其单一任务导向以及对环境变化适应性不足。为了克服这些限制,我们提出了一种新颖的自适应代理,该代理利用迁移学习技术,以动态适应不同任务和环境条件下的策略。该方法通过飞艇控制挑战进行了验证,其中多任务能力和环境适应性至关重要。代理使用基于IsaacGym构建的自定义、高度并行化的模拟器进行训练。我们实现了零样本迁移,在现实世界中操控飞艇以解决各种任务。我们的代码可在https://github.com/robot-perception-group/adaptive_agent获取。