arXiv:2408.00490v4 通告类型: replace-cross
摘要: 基于图神经网络(GNN)的推荐算法通常假设训练数据和测试数据来自独立同分布(IID)空间。然而,在存在分布外(OOD)数据的情况下,这种假设往往无法成立,导致性能显著下降。在本研究中,我们构建了一个结构因果模型(SCM)来分析交互数据,揭示了环境混杂因素(例如,COVID-19大流行)会导致基于GNN的模型中的不稳定相关性,从而妨碍其对OOD数据的泛化能力。为了解决这个问题,我们提出了一种新方法,即因果扩散图表示学习(CausalDiffRec)来处理OOD推荐。该方法通过消除环境混杂因素并学习不变的图表示,增强模型对OOD数据的泛化能力。具体而言,我们使用后门调整和变分推断来推断实际环境分布,从而消除环境混杂因素的影响。然后将该推断出的分布作为先验知识,指导在扩散过程的逆向阶段进行表示学习,以学习不变的表示。此外,我们提供了理论推导,证明优化CausalDiffRec的目标函数可以促使模型学习环境不变的图表示,从而在分布转移下的推荐中实现卓越的泛化性能。我们的大量实验验证了CausalDiffRec在提高OOD数据泛化能力方面的有效性,平均改进幅度分别达到Food数据集10.69%、KuaiRec数据集18.83%、Yelp2018数据集22.41%和Douban数据集11.65%。
arXiv:2405.10391v3 宣告类型:replace-cross
摘要:我们展示了基于注意力机制的端到端方法在密集且杂乱的环境中实现高速视觉障碍物回避的能力,并与各种最先进的学习架构进行了比较。四旋翼无人机在高速飞行时具有巨大的机动性;然而,随着飞行速度的增加,通过独立感知、制图、规划和控制模块进行的传统基于模型的导航方法因传感器噪声增加、累积误差和增加的处理延迟而变得无效。因此,基于学习的端到端视觉到控制网络在通过杂乱环境控制这些快速机器人方面展现出了极大的潜力。我们训练并比较了卷积、U-Net和循环架构与视觉变换器(ViT)模型在高保真仿真中的深度图像到控制性能,观察到随着四旋翼速度的增加和对未见过的环境的一般化能力,ViT模型比其他模型更为有效,而循环的添加进一步提高了性能,降低了所有测试飞行速度下的四旋翼能量消耗。我们在模拟和硬件中评估了在高达7m/s的速度下的表现。据我们所知,这是首次使用视觉变换器进行端到端基于视觉的四旋翼控制的工作。
arXiv:2405.08460v3 宣布类型: replace-cross
摘要:大型语言模型(LLMs)的快速发展促使开发出了考虑时间动态特性的基准测试,然而,由于语言和信息的固有动态性,人们仍然不完全理解这些模型能否有效地跨时间上下文进行泛化。本文介绍了LLMs中时间泛化的概念,包括过去和未来泛化中的偏差。然后,我们介绍了FreshBench,这是一个新的评估框架,采用新颖的文本和事件预测来评估LLMs的时间适应性,确保评估过程不受数据泄漏和主观偏见的影响。实验显示了显著的时间偏差和随着时间的推移性能下降。我们的发现表明,尽管强大的模型在初期表现更优,但在未来泛化中下降速度更快。此外,强大的开源模型在长期内的适应性优于其闭源对应物。代码可在 https://github.com/FreedomIntelligence/FreshBench 获取。
arXiv:2403.05842v2 宣告类型: replace-cross
摘要:水印化是一种关键的工具,用于验证模型的所有权。然而,现有的水印技术通常为特定的数据模态和下游任务而设计,而不考虑模型固有的架构特性。这种缺乏通用性和鲁棒性凸显了需要一种更灵活的水印方法的必要性。在此项工作中,我们研究了Transformer模型的特性,并提出了一种模态无关、鲁棒的预训练模型水印系统——TokenMark,利用了置换等变性的特性。TokenMark 通过在一组特定排列的数据样本上微调预训练模型来嵌入水印,结果产生了一个包含两组不同权重的水印模型——一组用于正常功能,另一组用于提取水印,后者仅在排列输入时被触发。在最先进的预训练模型上的广泛实验表明,TokenMark 显著提高了模型水印的鲁棒性、效率和通用性,突显了其作为统一水印解决方案的潜力。
arXiv:2402.16200v2 宣告类型: 替换-交叉
摘要:在训练数据有限的环境中有效地进行信息检索(IR),特别是在处理复杂查询时,仍然是一项具有挑战性的任务。本文介绍了IR2,信息正则化用于信息检索,这是一种在合成数据生成过程中减少过拟合的技术。这种方法代表了在IR中的合成数据创建中应用正则化技术的一种新颖应用,并在处理复杂查询的三个最新IR任务(DORIS-MAE、ArguAna和WhatsThatBook)上进行了测试。实验结果显示,我们的正则化技术不仅在考虑的任务中优于以前的合成查询生成方法,而且还通过最多可减少50%的成本。此外,本文在查询合成流水线的不同阶段(输入、提示、输出)分类并探讨了三种正则化方法,每种方法在不应用正则化模型时具有不同程度的性能提升。这为在数据有限和复杂查询IR场景中优化合成数据生成提供了一种系统的方法。所有代码、提示和合成数据可在 https://github.com/Info-Regularization/Information-Regularization 获取。
arXiv:2210.13455v5 公告类型: 替换-交叉
摘要:AlphaZero/MuZero(A/MZ)家族的算法通过将蒙特卡洛树搜索(MCTS)与学习模型结合,已经在众多充满挑战的领域中取得了显著的成功。学习模型引入了认识不确定性,这种不确定性是由于从有限的数据中学习所引起的,在稀疏奖励环境中对于探索非常有用。然而,MCTS 并未考虑这种不确定性的传播。为了解决这个问题,我们引入了认识不确定性蒙特卡洛树搜索(Epistemic MCTS,EMCTS):一种在搜索过程中考虑认识不确定性的理论动机方法,并利用搜索进行深入探索。在 Assembly 语言 {\sc subleq} 中编写代码这一具有挑战性的稀疏奖励任务中,结合我们方法的 AZ 较基准 AZ 在样本效率上获得了显著提升。使用 EMCTS 进行搜索比那种不使用搜索进行不确定性估计的等效方法更快地解决了标准困难探索基准 Deep Sea 的变体,这表明了对认识不确定性进行估计时搜索的优势。
arXiv:2504.00907v2
Announce Type: replace
摘要:在真实世界环境中运行的具身智能体必须解析模糊和欠定义的人类指令。一个能干的家庭机器人应当识别模糊性并提出相关澄清问题,以准确推断用户意图,从而提高任务执行的有效性。为研究这一问题,我们引入了“请求-执行”任务,即具身智能体必须在家庭环境中根据模糊的指令获取特定的对象实例。智能体必须在部分可观测性下,战略性地提出最少但相关的澄清问题,以解决模糊性。为解决这一问题,我们提出了一种新颖的方法,利用在线强化学习(RL)结合LLM生成的奖励对多模态大型语言模型(MLLMs)进行微调,作为视觉-语言-动作(VLA)策略。我们的方法消除了需要大规模人工演示或手动工程化奖励来训练这种智能体的必要性。我们在我们的任务上将我们的方法与强大的零-shot基线,包括GPT-4o和监督微调的MLLMs进行对比。我们的结果表明,我们的RL微调MLLM在所有基线中表现显著更好(19.1%-40.3%),并且能够很好地泛化到新的场景和任务中。据我们所知,这是第一次展示适应MLLM作为VLA智能体,利用LLM生成的奖励通过在线RL进行行动和请求帮助的能力。
arXiv:2504.00762v2 提交类型: 重新提交
摘要:本文提出了一种简单、有效且成本效益高的策略,通过扩展测试时计算来提高LLM性能。该策略建立在重复采样和投票框架之上,具有一个新颖的变体:结合多个模型,即使这些模型较弱,也可以利用它们由于多样化的训练数据和范式而可能产生的互补优势。通过使用一致性作为信号,我们的策略可以动态切换模型。理论分析突显了该策略的效率和性能优势。在六个数据集上的 extensive 实验表明,我们的策略不仅优于自我一致性以及最先进的多智能体辩论方法,而且显著降低了推理成本。此外,ModelSwitch 只需少量可比拟的LLM就能达到最佳性能,并且可以与验证方法结合使用,展示了利用多个LLM进行生成-验证范式的潜力。
arXiv:2503.23633v2 宣告类型:替换
摘要:生成式AI以大型语言模型(LLMs)为代表,为地理信息的表示和计算开辟了新的方式,并超越了地理知识生产的过程,推动地理信息系统(GIS)向自主GIS转变。利用LLMs作为决策核心,自主GIS可以独立生成和执行地理处理工作流,进行空间分析。在本文中,我们阐述了自主GIS的概念,并提出一个框架,定义了其五个自主目标、五个自主层次、五个核心功能和三个操作尺度。我们通过四个概念GIS代理展示了自主GIS如何进行地理空间数据检索、空间分析和制图。我们还总结了关键挑战和未来研究方向,包括调整和自我生长的决策核心、自主建模以及自主GIS的伦理和实际影响。通过在GIScience领域奠定转变的基石,本文构想了GIS超越传统工作流,自主思考、衍生、创新和推进解决全球紧迫挑战的未来愿景。
arXiv:2503.23339v2 声明类型: 替换
摘要:大型语言模型(LLMs)已成为分析复杂数据集的强大工具。近期的研究表明,当提供给模型包含生活方式、生物标志物和上下文的患者特定健康信息时,它们能够生成有用且个性化的回应。随着以LLM驱动的健康应用程序的逐步 adoption,确保多维度响应质量(包括准确性、个性化和安全性)的严格且高效的单向评估方法变得至关重要。当前对开放文本回应的评估实践主要依赖于人类专家。这种做法引入了人类因素,并且往往成本高昂、工作量大,限制了可扩展性,特别是在需要领域专业知识来评估响应并考虑多方面患者数据的复杂领域如医疗保健中。在这项工作中,我们引入了自适应精确布尔评判标准:一种通过使用少量有针对性的评判标准问题来识别模型回应缺口,从而简化人类和自动化评估开放问题的评估框架。我们的方法基于在更广泛评估环境中进行的工作,将一组复杂的评估目标与一组更精确、细致且可通过简单布尔响应回答的目标进行对比。我们在代谢健康领域验证了这种方法,该领域包括糖尿病、心血管疾病和肥胖症。结果显示,自适应精确布尔评判标准在专家和非专家评估者之间以及在自动化评估中获得了更高的评价者间一致性,与传统的李克特量表相比,所需评价时间大约为李克特量表方法的一半。这种增强的效率,特别是在自动化评估和非专家贡献方面,为在医疗保健领域更广泛和成本效益更高的评估LLMs铺平了道路。