意图识别,即预测另一个智能体的行动能力,在设计和开发能够支持人类日常任务的自动化助手方面发挥着至关重要的作用。特别是工业环境带来了诸多有趣的挑战,包括决策者可能分心以及观察结果存在噪声或不完整等问题。在这种环境下,负责帮助和支持人类工人的机器人助手必须将其自身主动任务与信息收集行动交织在一起,这种方法被称为主动目标识别。本文描述了一种用于在线意图识别的部分可观测模型,展示了一些初步的实验结果,并讨论了这类问题中存在的一些挑战。
利用大型语言模型(LLM)赋能具身智能体已成为一种流行方法,但在实践中存在一些局限性。本研究并非直接将LLM用作智能体,而是探索将其作为具身智能体学习的工具。具体来说,为了通过离线强化学习(RL)训练独立的智能体,LLM被用来为训练数据集中的单个动作提供密集的奖励反馈。为此,我们提出了一种一致性引导的奖励集成框架(CoREN),旨在解决将LLM生成的估计值与目标环境领域相结合的难题。该框架采用自适应集成时空一致性奖励,以在训练数据集中导出基于领域的奖励,从而能够在不同的环境领域有效地进行具身智能体的离线学习。在VirtualHome基准测试中的实验表明,CoREN显著优于其他离线RL智能体,并且在智能体策略网络只有1.17亿参数且仅在训练中使用LLM的情况下,其性能也与拥有80亿参数的最新LLM型智能体相当。
在一个封闭系统中训练的智能体,只要满足以下三个条件,就能掌握任何所需的能力:(a) 它接收足够信息丰富且一致的反馈;(b) 它拥有的经验/数据覆盖面足够广;(c) 它拥有足够的容量和资源。本文档中,我们论证了这些条件,并在假设 (c) 不是瓶颈的情况下,考虑了 (a) 和 (b) 在封闭系统中带来的局限性。考虑到输入和输出空间匹配的智能体(即语言)的特殊情况,我们认为这种纯粹的递归自我改进,我们称之为“苏格拉底学习”,可以将性能提升到远远超出其初始数据或知识的水平,并且仅受时间以及逐渐出现的错位问题的限制。此外,我们基于语言游戏的概念,提出了一个具体的实施框架。
本文提出了一种名为LLaMo(大型语言和人体运动助手)的多模态框架,用于人体运动指令微调。与传统的指令微调方法(将视频或运动序列等非语言输入转换为语言标记)不同,LLaMo保留了运动的原始形式进行指令微调。这种方法保留了标记化过程中往往会丢失的运动特异性细节,从而提高了模型解释复杂人类行为的能力。通过同时处理视频和运动数据以及文本输入,LLaMo实现了灵活的人本化分析。在包括人类行为和专业活动在内的高复杂度领域进行的实验评估表明,LLaMo有效地捕捉了特定领域的知识,增强了在运动密集型场景中的理解和预测能力。我们希望LLaMo能够为未来的多模态人工智能系统提供基础,这些系统具有广泛的应用,从体育分析到行为预测。我们的代码和模型可在项目网站上获取:https://github.com/ILGLJ/LLaMo。
值函数分解方法常用于合作多智能体强化学习中,其中QMIX受到了广泛关注。许多基于QMIX的方法引入了联合动作值和个体动作值之间的单调性约束,以实现去中心化执行。然而,这种约束限制了值分解的表示能力,限制了它可以表示的联合动作值,并阻碍了最优策略的学习。为了解决这一挑战,我们提出了潜在最优联合动作加权QMIX (POWQMIX)算法,该算法识别潜在的最优联合动作,并在训练过程中为这些联合动作的对应损失分配更高的权重。我们从理论上证明,这种加权训练方法可以保证恢复最优策略。在矩阵博弈、难度增强的捕食者-猎物和星际争霸II多智能体挑战环境中的实验表明,我们的算法优于最先进的基于值的强化学习多智能体方法。
我们提出了一种名为CatNet的算法,该算法有效地控制了错误发现率(FDR),并利用高斯镜像(GM)方法在长短期记忆网络(LSTM)中选择显著特征。为了评估LSTM在时间序列中的特征重要性,我们引入了一种基于SHapley Additive exPlanations (SHAP)导数的向量来衡量特征重要性。我们还提出了一种新的基于核的依赖性度量方法,以避免GM算法中的多重共线性,从而实现具有受控FDR的鲁棒特征选择。我们使用模拟数据评估了CatNet在具有不同链接函数的线性模型和LSTM模型中的性能。该算法在所有情况下都能有效地控制FDR,同时保持较高的统计功效。我们还在不同的低维和高维情况下评估了该算法的性能,证明了其在各种输入维度下的鲁棒性。为了评估CatNet在实际应用中的性能,我们构建了一个多因素投资组合来预测标准普尔500指数成分股的价格。结果表明,与没有特征选择和FDR控制的传统LSTM模型相比,我们的模型实现了更高的预测精度。此外,CatNet有效地捕捉了常见的市场驱动因素,这通过增强预测的可解释性,有助于在金融市场中做出明智的决策。我们的研究首次将高斯镜像算法与LSTM模型相结合,并将SHAP值作为FDR控制方法中一种新的特征重要性度量指标,标志着神经网络特征选择和误差控制方面的一项重大进展。
现代大型语言模型 (LLM) 能够生成高度可读的抽象摘要,以至于传统的用于评估摘要质量的自动化指标(如 ROUGE)已经饱和。然而,LLM 有时仍会在摘要中引入不需要的内容,即与来源不一致或来源不支持的信息。自动衡量这些通常难以察觉的“幻觉”已被证明具有挑战性。这反过来又推动了各种旨在衡量生成摘要与其来源事实一致性的指标的开发。但这些方法是否真的在衡量它们声称要衡量的内容呢?在这项工作中,我们对自动事实性指标进行了压力测试。具体来说,我们调查了摘要文本的表面属性在多大程度上足以预测“事实性”,发现仅使用此类浅层特征的(监督式)模型与最先进的事实性评分方法具有相当的竞争力。然后,我们评估了事实性指标如何响应不一致摘要中的事实更正,发现只有少数指标显示出有意义的改进。相反,一些指标对良性的、非事实性编辑更敏感。基于这些见解,我们证明可以“操纵”(大多数)自动事实性指标,即通过在生成的摘要中附加无关紧要的句子来可靠地提高“事实性”分数。总而言之,我们的结果对我们应该在多大程度上依赖现有的自动化事实性指标以及我们究竟希望“事实性指标”衡量什么提出了质疑。
可穿戴式加速度计(活动记录仪)自20世纪70年代以来就为临床研究提供了宝贵的数据,并且随着可穿戴设备的日益普及,其重要性也日益提高。活动记录仪在研究和临床环境中的有效性在很大程度上取决于所使用的建模架构。为了解决这个问题,我们开发了预训练活动记录转换器(PAT)——第一个专门用于处理活动记录的预训练且完全基于注意力机制的模型。PAT 使用来自 NHANES 中 29,307 名参与者的活动记录进行预训练,使其能够在微调到精神健康领域中的各种活动记录预测任务后,即使在数据有限的情况下也能实现最先进的性能。例如,当使用仅来自 500 名标记参与者的活动记录来预测苯二氮卓类药物的使用时,PAT 的 AUC 比最佳基线提高了 8.8 个百分点。PAT 拥有不到 200 万个参数并具有内置的模型可解释性,因此它既健壮又易于在健康研究环境中部署。
本文研究了大型语言模型 (LLM) 在评估另类用途测试 (AUT) 响应中的创造力方面是否一致。虽然 LLM 越来越多地用于评估创意内容,但之前的研究主要集中于单个模型评估相同模型或人类生成的响应。本文探讨了 LLM 是否能够公平且准确地评估自身和其他模型生成的输出的创造力。使用由创造力水平(常见、创造性和高度创造性)分类的 AUT 响应预言基准集,我们使用四个最先进的 LLM 来评估这些输出。我们测试了评分和排序方法,并采用了两种评估设置(综合和分段)来检查 LLM 是否在另类用途的创造力评估上达成一致。结果显示模型间高度一致,模型间的斯皮尔曼相关系数平均高于 0.7,相对于预言模型的相关系数超过 0.77,这表明 LLM 在另类用途创造力评估方面具有高度一致性和可靠性。值得注意的是,模型并不偏袒自身的响应,而是对其他模型生成的另类用途提供相似的创造力评估分数或排名。这些发现表明,LLM 在创造力评估中表现出公正性和高度一致性,为其在自动化创造力评估中的应用提供了令人鼓舞的意义。
在人机协作中,黄金标准是互补性——即组合后的性能超过人类和算法单独的性能。我们研究了二元分类设置中的这一挑战,目标是最大化 0-1 准确率。鉴于可以进行校准概率预测的两个或多个智能体,我们展示了一个“没有免费午餐”式的结果。任何不基本上总是依赖于同一智能体的确定性协作策略(将校准概率映射到二元分类的函数)有时会比精度最低的智能体表现更差。换句话说,互补性无法“免费”获得。该结果确实提出了一种具有保证的协作模型,其中一个智能体识别另一个智能体的“明显”错误。我们还利用该结果来理解其他协作技术成功的必要条件,从而为 人机协作提供指导。