我们提出了第一个针对一组约束下最大化非负单调可分解子模函数 $F=\sum_{i=1}^N f^i$ 的小批量算法。我们考虑两种采样方法:均匀采样和加权采样。我们首先证明了加权采样的小批量算法在理论和实践上都优于最先进的稀疏化方法。
令人惊讶的是,我们的实验结果表明均匀采样优于加权采样。然而,无法用最坏情况分析来解释这一点。我们的主要贡献是使用平滑分析为我们的实验结果提供理论基础。我们证明了在非常温和的假设下,均匀采样在小批量和稀疏化方法中都更优。我们通过实验证明了这些假设对我们的数据集成立。均匀采样易于实现,其复杂度与 $N$ 无关,使其成为处理海量现实世界数据集的完美选择。
我们提出了 LogicAsker,这是一种用于评估和增强大型语言模型(LLM)如 ChatGPT 和 GPT-4 逻辑推理能力的新方法。尽管 LLM 在写作辅助、代码生成和机器翻译等任务中表现出色,但评估其推理能力一直具有挑战性。传统的评估通常优先考虑下游任务的准确性,而不是直接评估推理过程。LogicAsker 通过使用一组基于命题逻辑和谓词逻辑的原子推理技能来解决这一差距,以系统地检验和改进 LLM 的推理能力。我们的方法揭示了 LLM 在学习逻辑规则方面的重大差距,识别出的推理失败率在不同模型之间从 29% 到 90% 不等。此外,我们利用这些发现来构建目标演示示例和微调数据,从而显着提高了 GPT-4o 等模型的逻辑推理能力,最高可达 5%。据我们所知,这是第一个利用测试用例结果来有效地改进 LLM 正式推理能力的尝试。我们公开发布了我们的代码、数据和结果(https://github.com/yxwan123/LogicAsker),以便进一步研究和复制我们的发现。
医疗保健的进步已将重点转移到以患者为中心的方案,特别是在自我保健和患者教育方面,这得益于电子健康记录 (EHR) 的使用。然而,EHR 中的医学术语给患者理解带来了重大挑战。为了解决这个问题,我们引入了一个新的任务,即自动生成通俗定义,旨在将复杂的医学术语简化为患者友好的通俗语言。我们首先创建了 README 数据集,这是一个包含超过 50,000 个独特的(医学术语,通俗定义)对和 300,000 个提及的大型集合,每个集合都提供了由领域专家手动标注的上下文感知通俗定义。我们还设计了一个以数据为中心的“人机”管道,该管道协同数据过滤、增强和选择来提高数据质量。然后,我们使用 README 作为模型的训练数据,并利用检索增强生成方法来减少幻觉并提高模型输出的质量。我们广泛的自动和人工评估表明,当使用高质量数据进行微调时,开源移动友好型模型能够匹配甚至超越 ChatGPT 等最先进的封闭源大型语言模型的性能。这项研究代表了在弥合患者教育中的知识差距和推动以患者为中心的医疗保健解决方案方面取得的重大进展。
本文探讨了一个重要的图异常检测 (GAD) 任务,即开放集 GAD,其目标是使用少量正常节点和异常节点(称为已知异常)训练检测模型,以检测已知异常和未知异常(即无法通过训练异常进行说明的异常)。这些标记的训练数据为 GAD 模型提供了关于异常的关键先验知识,从而能够大幅减少检测错误。然而,当前的监督 GAD 方法倾向于过度强调拟合已知异常,导致将许多未知异常错误地检测为正常节点。此外,现有的开放集 AD 模型被引入来处理欧几里得数据,无法有效地从图结构和节点属性中捕获用于 GAD 的判别特征。在这项工作中,我们提出了一种新颖的开放集 GAD 方法,即正常结构正则化 (NSReg),以实现对未知异常的泛化检测能力,同时保持其对已知异常检测的有效性。NSReg 的关键思想是引入一个正则化项,该项强制学习基于正常节点与其其他节点的结构关系的紧凑、语义丰富的表示。当与监督异常检测损失一起优化时,正则化项有助于将强规范性融入建模,因此,它有效地避免了过度拟合已知异常并学习了更好的规范性决策边界,从而大幅减少了将未知异常错误地检测为正常的假阴性。在七个真实世界数据集上的大量实证结果表明,NSReg 在未知异常类别上至少比最先进的竞争方法高出 14% AUC-ROC,在所有异常类别上高出 10% AUC-ROC。
文档级关系抽取旨在从文本文档中推断出结构化的知识。当前最先进的方法使用预训练语言模型 (LM) 通过微调来完成此任务,但微调计算量大,无法适应新的关系类型或新的 LM。为了解决这个问题,我们利用预训练 LM 的泛化能力,提出了一种用于文档级上下文少样本关系抽取的新框架。我们的框架具有三个优点:它无需 (1) 进行命名实体识别,(2) 进行文档的人工标注,以及 (3) 在更新到新的 LM 时无需重新训练。我们使用 DocRED 对我们的框架进行评估,DocRED 是最大的公开可用的文档级关系抽取数据集,结果表明我们的框架达到了最先进的性能。我们进一步证明,我们的框架实际上比 DocRED 开发集中的原始标签表现得更好。最后,我们进行了一项广泛的基准测试,证明了我们框架的有效性,在六个关系抽取数据集上取得了最先进的结果,超过了 30 多种基线方法。与我们的框架不同,基线方法具有较大的计算开销(例如,来自微调)。据我们所知,我们是第一个将文档级关系抽取任务重新定义为定制的上下文少样本学习范式的。
机器人应该存在于人类存在的任何地方:室内、室外,甚至未经映射的环境。相比之下,最近在目标导向导航 (OGN) 方面的进展集中在利用室内环境的时空线索进行导航,这些线索无法推广到室外环境。尽管这些贡献为室内场景提供了宝贵的见解,但更广泛的现实世界机器人应用通常扩展到室外环境。当我们过渡到广阔而复杂的外界环境时,新的挑战随之而来。与室内环境的结构化布局不同,室外环境缺乏清晰的空间界限,并且充满了固有的语义歧义。尽管如此,人类能够轻松地进行导航,因为我们可以推断未见过的东西。我们引入了一项新任务 OUTDOOR,一种新的机制,用于让大型语言模型 (LLMs) 准确地幻化可能出现的未来,以及一种新的计算感知成功指标,用于推动该领域更复杂的研究。此外,我们在模拟无人机和室外环境中的物理四足动物上展示了令人印象深刻的结果。我们的代理没有预先映射,我们的形式主义优于基于 LLM 的朴素方法。
我们提出了一种新的对数-Q动力学家族,通过将正则形式博弈重复博弈的对数线性学习(也称为对数动力学)与辅助阶段博弈框架内未知马尔可夫决策过程的Q学习相结合,以实现随机博弈中的高效学习。在这个框架中,我们将随机博弈视为代理人反复玩一些与底层博弈当前状态相关的阶段博弈,而代理人的Q函数决定这些阶段博弈的收益。我们证明了所提出的对数-Q动力学在具有未知动态的随机团队中达到了(接近)有效均衡,并量化了近似误差。我们还展示了对数-Q动力学相对于遵循纯稳态策略的代理人的理性,以及在阶段收益引起潜在博弈的随机博弈中动力学的收敛性,但只有一个代理人控制着随机团队以外的状态转换。关键思想是通过一个虚构场景来近似动力学,在这个场景中,Q函数估计在长度以足够慢的速度增长的时期内保持静止。然后,我们将主场景和虚构场景中的动力学耦合起来,以表明由于步长消失和时期长度增长,这两个场景在各个时期变得越来越相似。
从示范中学习 (LfD) 是一种用于训练策略的有效范式,这些策略可以解决涉及复杂运动的任务,例如机器人操作中遇到的任务。在实践中,LfD 的成功应用需要克服策略执行过程中的误差累积,即由于误差随时间累积而产生的漂移问题,以及由此导致的分布外行为。现有的研究试图通过扩展数据收集、通过人机交互纠正策略错误、时间集成策略预测,或通过学习具有收敛保证的动力系统模型来解决这个问题。在这项工作中,我们提出并验证了一种克服这个问题的替代方法。受储层计算的启发,我们开发了一个循环神经网络层,该层包含一个具有可调动力学特性的固定非线性动力系统,用于模拟时间动力学。我们使用 LASA 人类手写数据集验证了我们的神经网络层在重现人类手写运动任务中的有效性。通过实证实验,我们证明了将我们的层纳入现有的神经网络架构可以解决 LfD 中的累积误差问题。此外,我们还与现有方法进行了比较评估,包括策略预测的时间集成和回声状态网络 (ESN) 实现。我们发现,我们的方法在手写任务中产生了更高的策略精度和鲁棒性,同时还能够推广到多种动力学机制,并保持有竞争力的延迟得分。
概率关系模型提供了一种成熟的形式化方法,将一阶逻辑和概率模型结合起来,从而允许在关系域中表示对象之间的关系。与此同时,人工智能领域需要越来越多的关系训练数据来完成各种机器学习任务。然而,由于隐私问题、数据保护法规、高昂的成本等等,收集真实世界数据往往具有挑战性。为了减轻这些挑战,合成数据的生成是一种很有前景的方法。在本文中,我们解决了通过概率关系模型生成合成关系数据的难题。特别是,我们提出了一条完整的流水线,从关系数据库到概率关系模型,该模型可以用来从其底层概率分布中采样新的合成关系数据点。作为我们提出的流水线的一部分,我们引入了一种学习算法,从给定的关系数据库中构建概率关系模型。
尽管大型语言模型 (LLM) 在演绎和归纳推理方面得到了充分评估,但它们在交互式环境中的溯因推理和整体规则学习方面的能力尚待探索。我们引入了 RULEARN,这是一个专门为评估 LLM 智能体在交互式环境中的规则学习能力而设计的全新基准。在 RULEARN 中,智能体以策略性的方式与模拟环境交互,以收集观察结果、识别模式并解决复杂问题。为了增强 LLM 智能体的规则学习能力,我们提出了 IDEA,这是一个将归纳、演绎和溯因过程相结合的新推理框架。IDEA 智能体通过溯因从有限的观察结果中生成初始假设,通过演绎设计验证这些假设的计划或利用它们来解决问题,并通过归纳利用从新观察结果中识别的模式来改进先前的假设,动态地建立和应用模仿人类规则学习行为的规则。我们对 IDEA 框架的评估(涉及五个具有代表性的 LLM)表明,与基线相比,它取得了显著的改进。此外,在该框架内,我们与 50 名人类参与者的比较揭示了规则学习行为的显著差异。LLM 智能体倾向于生成合理的初始假设,但难以通过交互来改进它们。相反,人类虽然有时会忽略初始细节,但在整合反馈和不断改进其假设方面却表现出色。我们相信,我们的基准 RULEARN 将成为一个有价值且具有挑战性的资源,而 IDEA 框架将为开发能够在现实世界场景中进行类似人类规则学习的 LLM 智能体提供重要的见解。我们将在论文被接受后发布我们的代码和数据。