飓风造成巨大的经济和人员损失,迫使人们在不确定性和压力下做出关键的疏散决定。为了更好地理解这一决策过程,我们建议使用贝叶斯网络(BNs)来模拟飓风期间的疏散决定。我们收集了来自两次重大飓风事件(哈维飓风和艾尔玛飓风)的问卷数据。我们采用数据驱动的方法,首先利用互信息进行变量选择,然后使用两种基于约束的算法进行BN结构学习。通过基于自举重采样的模型平均,增强了学习到的结构的稳健性。我们检查并比较了两种飓风学习到的结构,揭示了疏散的关键预测因素之间的潜在因果关系,包括风险感知、从媒体获得的信息、家人和朋友的建议以及邻居的疏散。我们的发现突出了社会影响的重要作用,为疏散决策过程提供了宝贵的见解。我们的结果证明了数据驱动BN建模在疏散决策中的适用性和有效性。
重叠社区检测是图挖掘中的一个关键问题。一些研究已经考虑将图卷积网络 (GCN) 应用于解决该问题。然而,在一般不规则图的情况下,将深度图卷积网络纳入其中仍然具有挑战性。在本研究中,我们基于我们新颖的动态扩张聚合机制和统一的端到端编码器-解码器框架,设计了一个深度动态残差图卷积网络 (DynaResGCN),用于检测网络中的重叠社区。深度 DynaResGCN 模型用作编码器,而我们将伯努利-泊松 (BP) 模型作为解码器。因此,我们在没有地面真值的科研主题数据集、具有可靠(人工标记)地面真值的 Facebook 网络集以及具有经验(非人工标记)地面真值的非常大的合著网络集中应用了我们的重叠社区检测框架。我们对这些数据集的实验表明,在检测网络中的重叠社区方面,我们的方法明显优于许多最先进的方法。
我们提出了一种完全自主的真实世界移动操作强化学习框架,该框架可以在没有大量仪器或人工监督的情况下学习策略。这得益于 1) 任务相关自主性,它引导探索朝向物体交互并防止在目标状态附近停滞,2) 通过利用行为先验中的基本任务知识来实现高效的策略学习,以及 3) 制定通用奖励,将人类可解释的语义信息与低级、细粒度的观察结果相结合。我们证明,我们的方法允许 Spot 机器人在四项具有挑战性的移动操作任务集上持续提高其性能,在所有任务中获得平均 80% 的成功率,比现有方法提高了 3-4 倍。视频可在 https://continual-mobile-manip.github.io/ 找到。
语言模型 (LMs) 具有强大的理解自然语言的能力,使其能够有效地将人类指令翻译成用于简单机器人任务的详细计划。然而,处理长时域任务仍然是一个重大挑战,特别是在合作异构机器人团队的子任务识别和分配方面。为了解决这个问题,我们提出了一种语言模型驱动的多智能体 PDDL 规划器 (LaMMA-P),这是一种新颖的多智能体任务规划框架,在长时域任务上取得了最先进的性能。LaMMA-P 集成了 LMs 的推理能力和传统启发式搜索规划器的优势,以实现高成功率和效率,同时展现出跨任务的强大泛化能力。此外,我们创建了 MAT-THOR,一个综合基准,其特点是基于 AI2-THOR 环境的两种不同复杂程度的家务任务。实验结果表明,LaMMA-P 比现有的基于 LM 的多智能体规划器实现了 105% 的更高成功率和 36% 的更高效率。本工作的实验视频、代码和数据集以及每个模块中使用的详细提示可在 https://lamma-p.github.io 获取。
代码生成旨在根据输入需求自动生成代码,显著提高开发效率。近年来,基于大型语言模型 (LLMs) 的方法取得了可喜的成果,彻底改变了代码生成任务。尽管性能令人瞩目,但 LLMs 往往会生成包含幻觉的内容,尤其是在代码生成场景中,需要处理实际开发过程中复杂的上下文依赖关系。虽然之前有研究分析了 LLM 驱动的代码生成中的幻觉,但研究局限于独立函数生成。在本文中,我们进行了一项实证研究,以研究 LLM 幻觉在更实际、更复杂的存储库级生成场景中的现象、机制和缓解措施。首先,我们手动检查了来自六个主流 LLMs 的代码生成结果,以建立 LLM 生成的代码的幻觉分类法。接下来,我们阐述了幻觉现象,分析了它们在不同模型中的分布。然后,我们分析了幻觉的原因,并确定了四个可能导致幻觉的因素。最后,我们提出了一种基于 RAG 的缓解方法,该方法在所有研究的 LLM 中都表现出持续的有效性。包含代码、数据和实验结果的复制包可在 https://github.com/DeepSoftwareAnalytics/LLMCodingHallucination 获取。
本文介绍了 Robi Butler,一个新颖的家用机器人系统,它能够与远程用户进行多模态交互。基于先进的通信接口,Robi Butler 允许用户监控机器人的状态,发送文本或语音指令,并通过手势指向选择目标物体。我们系统的核心是一个高级行为模块,由大型语言模型 (LLM) 驱动,它解释多模态指令以生成行动计划。这些计划由一组开放词汇原语组成,这些原语由视觉语言模型 (VLM) 支持,处理文本和指向查询。上述组件的集成使 Robi Butler 能够以零样本的方式将远程多模态指令落地到现实世界的家庭环境中。我们使用各种日常家务任务来证明该系统的有效性和效率,这些任务涉及远程用户给出多模态指令。此外,我们进行了一项用户研究,以分析多模态交互如何影响远程人机交互过程中的效率和用户体验,并讨论潜在的改进方向。
人类语言旨在传达意义,但本质上存在歧义。这给语音和语言处理带来了挑战,但也发挥着重要的沟通功能。有效地解决歧义既是期望也是必要的特征。词语在语境中的词汇意义可以通过词义消歧 (WSD) 算法自动确定,这些算法依赖于外部知识,而这些知识通常有限且偏向英语。在将内容改编成其他语言时,自动翻译经常不准确,需要高度的人工专家验证来确保准确性和理解。本研究通过引入一种新的西班牙语 WSD 资源来解决以前存在的局限性。它包括一个词义清单和一个词汇数据集,这些数据集来自西班牙皇家学院维护的《西班牙语词典》。我们还回顾了西班牙语的现有资源,并通过最先进的系统报告了它们的指标。
我们研究了策略训练和部署环境不同的非动力强化学习 (RL)。为了处理这种环境扰动,我们专注于在分布式鲁棒马尔可夫决策过程 (DRMDP) 框架下学习对转移动力学不确定性鲁棒的策略,其中标称和扰动动力学是线性马尔可夫决策过程。我们提出了一种新的算法 We-DRIVE-U,它具有平均次优性 $\widetilde{\mathcal{O}}\big({d H \cdot \min \{1/{\rho}, H\}/\sqrt{K} }\big)$,其中 $K$ 是情节数,$H$ 是时间范围长度,$d$ 是特征维度,$\rho$ 是不确定性水平。该结果将现有技术水平提高了 $\mathcal{O}(dH/\min\{1/\rho,H\})$。我们还构建了一个新的困难实例,并推导出该设置中的第一个信息论下界,这表明我们的算法对于任何不确定性水平 $\rho\in(0,1]$ 都是近似最优的,最多为 $\mathcal{O}(\sqrt{H})$。我们的算法还具有“罕见切换”设计,因此只需要 $\mathcal{O}(dH\log(1+H^2K))$ 次策略切换和 $\mathcal{O}(d^2H\log(1+H^2K))$ 次调用来解决对偶优化问题,这显着提高了现有 DRMDP 算法的计算效率,其策略切换和预言机复杂度均为 $\mathcal{O}(K)$。
尽管机器学习(ML)和神经网络近年来取得了长足的进步,但对这些系统行为的正式保证仍然是一个悬而未决的问题,也是它们在受监管或安全关键场景中应用的关键要求。我们考虑训练可微分 ML 模型的任务,该模型保证满足设计者选择的属性,这些属性以输入-输出蕴涵的形式给出。由于严格验证和强制执行现代神经模型中的合规性的计算复杂性,这非常具有挑战性。我们提供了一种基于三个组成部分的创新方法:1) 一种通用、简单的架构,能够以保守的语义进行有效的验证;2) 基于投影梯度法的严格训练算法;3) 搜索强反例问题的公式化。所提出的框架几乎不受模型复杂性的影响,能够很好地扩展到实际应用中,并产生提供完整属性满足保证的模型。我们评估了在回归中由线性不等式定义的属性,以及在多标签分类中相互排斥的类别上的方法。我们的方法与基线方法相比具有竞争力,该基线方法包括在预处理(即在训练数据上)和后处理(即在模型预测上)期间执行属性强制。最后,我们的贡献建立了一个框架,打开了多个研究方向和潜在改进。
日志数据源自源代码中的日志语句,提供了对软件应用程序和系统执行过程的洞察。最先进的基于日志的异常检测方法通常利用深度学习模型来捕获日志数据中的语义或顺序信息,并检测异常的运行时行为。然而,这些不同类型信息的影响尚不清楚。此外,现有的方法没有捕获日志数据中的时间戳,而时间戳可能比顺序信息提供更细粒度的时序信息。在这项工作中,我们提出了一种可配置的基于 Transformer 的异常检测模型,该模型可以捕获日志数据中的语义、顺序和时序信息,并允许我们将不同类型的信息配置为模型的特征。此外,我们使用不同长度的日志序列训练和评估所提出的模型,从而克服了现有方法依赖于固定长度或时间窗口日志序列作为输入的限制。利用所提出的模型,我们进行了一系列实验,使用不同的输入特征组合来评估不同类型信息在异常检测中的作用。当提供不同长度的日志序列时,与基线相比,该模型可以实现具有竞争力且始终稳定的性能。结果表明,事件发生信息在识别异常方面起着关键作用,而顺序和时序信息对所研究的公共数据集中的异常检测影响不大。另一方面,这些发现也揭示了所研究的公共数据集的简单性,并强调了构建包含不同类型异常的新数据集的重要性,以更好地评估异常检测模型的性能。