拥有无限多的高质量数据点、无限的计算能力、一个拥有完美训练算法且在预训练任务上保证零泛化误差的无限大的基础模型,该模型可以用于解决所有问题吗?现有的表示、优化或泛化理论无法回答这个问题,因为它们主要研究的问题在这里被假设为不存在。在本文中,我们展示了范畴论为回答这个问题提供了强大的工具。我们证明了三个结果。第一个结果限制了基于提示学习的能力,指出模型能否通过提示解决下游任务取决于该任务是否可表示。第二个结果指出微调没有这种限制,因为具有最小所需能力(直至对称性)的基础模型理论上可以通过微调和足够的资源来解决由预训练任务定义的范畴的下游任务。我们的最终结果可以看作是一种新型的泛化定理,表明基础模型可以使用来自源范畴(例如,文本)的结构信息来生成目标范畴(例如,图像)中未见过的对象。在此过程中,我们提供了一个用于监督学习和自监督学习的范畴框架,这可能具有独立的意义。
我们提出了Plingo,一个用多种概率推理模式扩展ASP系统Clingo的工具。Plingo的核心是LP^MLN,一个基于马尔可夫逻辑权重方案的ASP概率扩展。这种选择是基于这样一个事实:核心概率推理模式可以映射到优化问题上,并且LP^MLN可以作为一个连接其他概率方法的中间形式化方法。因此,Plingo提供了三个替代前端,用于LP^MLN、P-log和ProbLog。相应的输入语言和推理模式是通过Clingo的多轮求解和理论求解能力实现的。Plingo的核心在于使用现代ASP技术重新实现了LP^MLN,并通过基于一种新的按最优性顺序枚举答案集的方法的近似技术进行了扩展。我们通过将其与其他概率系统进行比较,对Plingo的性能进行了实证评估。
加速非英语语言大型多模态模型 (LMM) 的研究对于提升更广泛人群的用户体验至关重要。本文介绍了 JMMMU(日语 MMMU),这是首个基于日本文化背景,用于评估 LMM 在专家级任务上的大型日语基准。为了促进全面的文化感知评估,JMMMU 包含两个互补的子集:(i) 文化无关 (CA) 子集,其中选择与文化无关的主题(例如,数学)并将其翻译成日语,从而能够与英语对应的 MMMU 进行一对一的比较;(ii) 文化特定 (CS) 子集,包含反映日本文化背景的新创建的主题。使用 CA 子集,我们观察到许多 LMM 在日语评估中的性能下降,这完全归因于语言差异。使用 CS 子集,我们揭示了它们对日本文化的理解不足。此外,通过结合这两个子集,我们发现一些 LMM 在 CA 子集上表现良好,但在 CS 子集上表现不佳,这暴露出对日语的理解肤浅,缺乏对文化理解的深度。我们希望这项工作不仅有助于提高日语 LMM 的性能,而且可以作为创建用于多语言 LMM 开发的高标准、文化多样化基准的指导方针。项目页面为 https://mmmu-japanese-benchmark.github.io/JMMMU/。
尽管视觉运动策略学习已经推动了机器人操作技术的发展,但由于视觉在推理物理交互方面的局限性,精确执行富含接触的任务仍然具有挑战性。为了解决这个问题,最近的研究试图将触觉传感整合到策略学习中。然而,许多现有的方法依赖于光学触觉传感器,这些传感器要么局限于识别任务,要么需要复杂的降维步骤才能进行策略学习。在这项工作中,我们探索了使用磁性皮肤传感器学习策略,这种传感器固有地低维、高灵敏度且易于与机器人平台集成。为了有效地利用这些传感器,我们提出了 Visuo-Skin (ViSk) 框架,这是一种简单的方法,它使用基于 Transformer 的策略,并将皮肤传感器数据作为视觉信息之外的附加标记进行处理。在涉及信用卡刷卡、插头插入、USB 插入和书架检索的四个复杂的现实世界任务中进行评估,ViSk 的性能明显优于仅视觉和基于光学触觉传感的策略。进一步的分析表明,结合触觉和视觉模式可以增强策略性能和空间泛化能力,在各个任务中平均提高 27.5%。
大型语言模型(LLM)驱动的网页代理已成为自动化网页任务完成的一种很有前景的方向,显著提升了用户体验。然而,现有的基于LLM的网页代理忽略了个性化数据(例如,用户画像和历史网页行为)在理解用户个性化指令和执行定制化操作中的重要性。为了克服这一局限性,我们首先制定了LLM赋能的个性化网页代理任务,该任务整合个性化数据和用户指令,以实现指令理解和动作执行的个性化。针对缺乏全面评估基准的问题,我们构建了一个个性化网页代理基准(PersonalWAB),其中包含用户指令、个性化用户数据、网页功能以及跨三个个性化网页任务的两种评估范式。此外,我们提出了一种基于个性化用户记忆增强的对齐框架(PUMA),以使LLM适应个性化网页代理任务。PUMA利用具有特定任务检索策略的记忆库来过滤相关的历史网页行为。基于这些行为,PUMA通过微调和直接偏好优化来调整LLM以实现个性化动作执行。大量的实验结果验证了PUMA在PersonalWAB上优于现有网页代理的性能。
股票收益预测是众多金融应用中的一个重要组成部分。预测的股票收益可以整合到投资组合交易算法中,以做出明智的买卖决策,从而优化收益。在这样的投资组合交易应用中,时间序列预测模型的预测性能至关重要。在这项工作中,我们提出使用增强记忆模型的进化探索 (EXAMM) 算法来逐步进化用于股票收益预测的循环神经网络 (RNN)。针对每支股票独立进化 RNN,并根据预测的股票收益做出投资组合交易决策。用于测试的投资组合由道琼斯指数 (DJI) 中的 30 家公司组成,每支股票的权重相同。结果表明,使用这些进化后的 RNN 和简单的每日多空策略,在 2022 年(熊市)和 2023 年(牛市)都能产生比道琼斯指数和标准普尔 500 指数更高的收益。
目的:孟加拉国的法律体系面临着诸多重大挑战,例如诉讼延迟、程序复杂、成本高昂以及数百万件未决案件,这些都使得许多人因缺乏知识或资金限制而放弃寻求法律援助。本研究旨在开发一个专门用于协助孟加拉国法律体系的大型语言模型(LLM)。方法:我们通过收集和抓取各种法律法规的数据,创建了一个孟加拉国法律文件英文语料库UKIL-DB-EN。我们在这个数据集上微调了GPT-2模型,开发了一个专注于提供英文法律援助的LLM,即GPT2-UKIL-EN。结果:该模型使用语义评估进行了严格的评估,包括专家意见支持的案例研究。评估结果令人鼓舞,证明了该模型在协助孟加拉国法律事务方面的潜力。结论:我们的工作代表了构建孟加拉国基于人工智能的法律助理的首次有组织的努力。虽然结果令人鼓舞,但仍需要进一步改进以提高模型的准确性、可信度和安全性。这是朝着创建能够服务于1.8亿人口需求的法律AI迈出的重要一步。
基于大型语言模型 (LLM) 的成功,最近的进展(例如 GPT-4o)使得通过基于 LLM 的语音助手实现实时语音交互成为可能,与传统的基于文本的交互相比,这显著改善了用户体验。然而,缺乏用于评估这些语音交互能力的基准测试阻碍了基于 LLM 的语音助手发展的进步。目前的评估主要集中在自动语音识别 (ASR) 或使用清晰语音的一般知识评估上,忽略了更复杂、更贴近现实世界的场景,这些场景涉及不同的说话者特征、环境和内容因素。为了解决这个问题,我们引入了 VoiceBench,这是第一个旨在对基于 LLM 的语音助手进行多方面评估的基准。VoiceBench 还包括真实和合成的语音指令,这些指令包含上述三个关键的现实世界变化。大量的实验揭示了当前基于 LLM 的语音助手模型的局限性,并为该领域的未来研究和发展提供了宝贵的见解。
数据集蒸馏在CIFAR、MNIST和TinyImageNet等简单数据集上表现出色,但在更复杂的场景中却难以取得类似的结果。本文提出了一种名为EDF(强调判别特征)的数据集蒸馏方法,该方法利用Grad-CAM激活图增强合成图像中的关键判别区域。我们的方法受到一个关键观察结果的启发:在简单的数据集中,高激活区域通常占据图像的大部分,而在复杂的场景中,这些区域的大小要小得多。与以往在合成图像时平等对待所有像素的方法不同,EDF利用Grad-CAM激活图来增强高激活区域。从监督的角度来看,我们弱化了损失较低的监督信号,因为它们包含常见的模式。此外,为了帮助数据集蒸馏领域更好地探索复杂场景,我们精心选择了ImageNet-1K的十六个子集(八个简单子集和八个困难子集),构建了复杂数据集蒸馏(Comp-DD)基准。特别是,EDF在复杂的场景(如ImageNet-1K子集)中始终优于最先进的结果。希望这项工作能够激励更多研究人员改进数据集蒸馏的实用性和有效性。我们的代码和基准将在https://github.com/NUS-HPC-AI-Lab/EDF公开发布。
信息路径规划 (IPP) 是各种现实世界机器人应用(例如环境监测)中一种重要的规划范式。IPP 涉及规划一条能够学习感兴趣数量的准确置信度的路径,同时遵守规划约束。传统的 IPP 方法通常需要较高的执行计算时间,因此产生了基于强化学习 (RL) 的 IPP 方法。然而,现有的基于 RL 的方法并没有考虑时空环境,由于环境特征的变化,这带来了自身挑战。在本文中,我们提出了 DyPNIPP,这是一个强大的基于 RL 的 IPP 框架,旨在有效地在具有不同动态特性的时空环境中运行。为了实现这一点,DyPNIPP 集成了领域随机化以在不同的环境中训练智能体,并引入了一个动态预测模型来捕获和调整智能体动作以适应特定的环境动态。我们在野火环境中进行的大量实验表明,DyPNIPP 通过显著提高鲁棒性并在不同的环境条件下执行,优于现有的基于 RL 的 IPP 算法。