推荐系统通过提供与用户偏好相符的个性化推荐来帮助用户应对信息过载。协同过滤(CF)是一种广泛采用的方法,但尽管图神经网络(GNNs)和自监督学习(SSL)等高级技术已经增强了CF模型以更好地表示用户,它们通常缺乏为推荐项目提供解释的能力。可解释推荐旨在通过提供透明性和洞察推荐决策过程来弥补这一差距,增强用户的理解。本研究利用大型语言模型(LLMs)的语言能力推进可解释推荐系统的边界。我们介绍了一个与模型无关的框架,称为XRec,允许LLMs为推荐系统中的用户行为提供全面的解释。通过整合协同信号并设计一个轻量级协同适配器,该框架使LLMs能够理解用户-项目交互中的复杂模式,并对用户偏好有更深入的理解。我们的广泛实验展示了XRec的有效性,显示其在生成全面且有意义的解释方面优于可解释推荐系统中的基线方法。我们在 https://github.com/HKUDS/XRec 开源了我们的模型实现。
我们专注于强化学习(RL)环境中学习价值函数的任务。这个任务通常通过更新一对在线和目标网络,同时确保这两个网络的参数等价来解决。我们提出了Lookahead-Replicate(LR),这是一种对这种参数空间等价性不敏感的新价值函数近似算法。相反,LR算法设计旨在在函数空间中保持两个网络之间的等价性。这种基于价值的等价性通过采用一种新的目标网络更新来实现。我们证明了LR在学习价值函数时会导致收敛行为。我们还展示了实证结果,证明基于LR的目标网络更新显著提升了在Atari基准上的深度RL表现。
寻求长视频的有效答案对于建立视频问答(videoQA)系统至关重要。先前的方法自适应地从长视频中选择帧和区域以节省计算资源。然而,这无法对整个视频序列进行推理,导致次优的性能。为了解决这个问题,我们在多模态Transformer中引入了一个状态空间层(SSL),以有效整合视频的全局语义,从而缓解了由帧和区域选择模块引起的视频信息丢失。我们的SSL包括一个门控单元,能够控制全局语义流入视觉表示。为了进一步增强这种可控性,我们引入了一个跨模态组合一致性(C^3)目标,以鼓励全局语义与问题对齐。为了严格评估长视频问答的能力,我们构建了两个新基准Ego-QA和MAD-QA,分别包含长度为17.5分钟和1.9小时的长视频。大量实验表明,我们的框架在这些新数据集以及现有数据集上具有优越性。
大型语言模型(LLMs)作为阅读和摘要助手工具正日益流行。然而,当它们与混合现实(MR)界面结合以支持日常阅读助手时,其潜在优势知之甚少。我们开发了RealitySummary,这是一款MR阅读助手,能够无缝整合LLMs、始终开启的相机访问、基于OCR的文本提取以及在MR界面中的增强空间和视觉响应。RealitySummary通过迭代开发,经历了三个版本,每个版本都由用户反馈和反思分析所塑造:1)初步用户研究以了解用户感知(N=12),2)实地部署以探索真实世界中的使用情况(N=11),以及3)日记研究以捕捉真实工作环境中的见解(N=5)。我们的研究结果突显了结合AI和MR的独特优势,包括始终开启的隐式助手、最小化的上下文切换以及空间功能,展示了未来LLM-MR界面在传统屏幕交互之外的巨大潜力。
正式交通场景的表示可以用于生成自动驾驶安全验证的测试用例。然而,由于交通场景的复杂性和多样性,大多数现有方法仅限于高速公路或高度简化的交叉路口场景。针对这一问题,我们提出了交通场景逻辑(TSL),这是一种用于建模和推理城市无行人交通场景的时空逻辑。TSL提供了一种可以从OpenDRIVE(即自动驾驶高清地图的事实标准)中派生的城市道路网络的形式表示,能够在不进行离散化近似的情况下表示广泛的交通场景。我们使用基于答案集编程的时序程序求解器Telingo实现了TSL的推理,并在不同的城市道路布局上进行了测试。演示表明,TSL在测试场景生成中具有有效性,并在自动驾驶的决策和控制验证等方面具有潜在价值。TSL推理的代码已公开。
大型语言模型(LLM)-参与的应用程序已被证明能够有效解释用户的命令、制定计划,并相应地操作外部工具/系统。然而,LLM代理的操作范围仍然局限于被动地跟随用户,要求用户在使用底层工具/系统时明确表达需求。我们注意到LLM代理用户界面(LAUI)的潜力远不止于此。一个对底层工具/系统几乎不了解的用户应该能够通过LAUI发现新的工作流程。与传统设计可探索GUI以教用户预定义使用系统的方法不同,在理想的LAUI中,LLM代理首先熟练掌握系统,主动研究用户及其需求,并向用户提出新的交互方案。为了展示LAUI,我们介绍了Flute X GPT,这是一个使用LLM代理、提示管理器和长笛教学的多模态软硬件系统的具体示例,以便于学习长笛演奏的复杂、实时用户体验。
我们介绍了一种用于会议的抽取式摘要系统,该系统利用话语结构更好地识别复杂多方讨论中的重要信息。通过使用话语图来表示会议中发言内容之间的语义关系,我们训练了一个基于图神经网络(GNN)的节点分类模型来选择最重要的发言,然后将这些发言组合起来创建一个抽取式摘要。AMI 和 ICSI 上的实验结果表明,我们的方法在分类和摘要指标上均超过了现有的基于文本和图的抽取式摘要系统。此外,我们对话语结构和关系类型进行了消融研究,为未来利用话语分析理论的自然语言处理应用提供了见解。
低秩适应(LoRA)是一种广泛使用的参数高效微调方法,适用于大型语言模型。LoRA通过仅训练选定权重矩阵的低秩扰动来节省内存。在这项工作中,我们比较了LoRA和完全微调在编程和数学这两个目标领域的表现。我们考虑了指令微调(约10万个提示-响应对)和持续预训练(200亿非结构化标记)的数据机制。我们的结果表明,在标准低秩设置中,LoRA的表现明显不如完全微调。然而,LoRA更好地保持了基础模型在目标领域之外任务上的性能。我们表明,LoRA比常见的正则化技术(如权重衰减和丢弃)更能减轻遗忘现象;它还帮助保持更多样化的生成。最后,我们发现完全微调学习的扰动的秩比典型的LoRA配置高出10-100倍,这可能解释了某些报告的差距。我们最终提出了使用LoRA进行微调的最佳实践。
基础模型(FMs)在语言、图像、音频和视频领域的快速发展展示了其在各种任务中的显著能力。然而,基础模型的普及带来了一个关键挑战:生成幻觉输出的潜在风险,特别是在高风险应用中。基础模型产生幻觉内容的倾向可以说是其在真实世界场景中广泛应用的最大障碍,尤其是在可靠性和准确性至关重要的领域。这篇综述论文全面概述了旨在识别和缓解基础模型幻觉问题的最新发展,涵盖了文本、图像、视频和音频多种模态。通过综合最近在检测和缓解各种模态幻觉方面的进展,本文旨在为研究人员、开发人员和从业者提供有价值的见解。本质上,它建立了一个明确的框架,涵盖了多模态基础模型幻觉问题的定义、分类和检测策略,为这一重要领域的未来研究奠定了基础。
预训练语音模型的持续进化极大地推动了语音情感识别(SER)的发展。然而,目前的研究通常依赖于话语级别的情感标签,无法充分捕捉单个话语中情感的复杂性。在本文中,我们介绍了一种新颖的SER框架GMP-TL,该框架采用基于性别增强的多尺度伪标签(GMP)的迁移学习来缓解这一问题。具体而言,GMP-TL首先使用预训练的HuBERT,实施多任务学习和多尺度k均值聚类以获取帧级GMPs。随后,为了充分利用帧级GMPs和话语级情感标签,提出了一种两阶段模型微调方法以进一步优化GMP-TL。在IEMOCAP上的实验表明,我们的GMP-TL达到了80.0%的加权准确率(WAR)和82.0%的未加权准确率(UAR),在性能上优于最先进的单模态SER方法,同时也取得了与多模态SER方法相当的结果。