当前的长文本基准测试主要关注基于检索的测试,要求大型语言模型 (LLM) 在广泛的输入上下文中定位特定信息,例如“大海捞针”(NIAH)基准测试。长文本生成是指语言模型生成连贯且上下文准确的文本的能力,这些文本跨越冗长的段落或文档。虽然最近的研究表明在 NIAH 和其他基于检索的长文本基准测试中表现出色,但缺乏评估长文本生成能力的基准测试。为了弥补这一差距并提供全面的评估,我们引入了一个综合基准 LongGenBench,它允许灵活配置自定义生成的上下文长度。LongGenBench 通过重新设计问题的格式并要求 LLM 以单个、连贯的长文本答案进行响应,超越了传统的基准测试。在使用 LongGenBench 进行广泛评估后,我们观察到:(1) API 访问和开源模型在长文本生成场景中的性能都下降,范围从 1.2% 到 47.1%;(2) 不同系列的 LLM 表现出不同的性能下降趋势,其中 Gemini-1.5-Flash 模型在 API 访问模型中表现出最小的下降,而 Qwen2 系列在 LongGenBench 中的开源模型中表现出最小的下降。
多步采样机制是视觉扩散模型的关键特征,它具有显著潜力,能够通过增加推理计算成本,复制OpenAI的Strawberry在提升性能方面的成功。之前的研究充分表明,正确地扩大采样过程中的计算量可以成功地提高生成质量、增强图像编辑能力和组合泛化能力。虽然在开发计算密集型算法以改进图像生成方面取得了快速进展,但探索视频扩散模型(VDM)中的推理缩放规律的研究相对较少。此外,现有研究表明,只有极少的性能提升是肉眼可见的。为了解决这个问题,我们设计了一种新颖的免训练算法IV-Mixed Sampler,该算法利用图像扩散模型(IDM)的优势来帮助VDM超越其当前的能力。IV-Mixed Sampler的核心是利用IDM显著提高每个视频帧的质量,并利用VDM确保采样过程中视频的时间一致性。我们的实验表明,IV-Mixed Sampler在UCF-101-FVD、MSR-VTT-FVD、Chronomagic-Bench-150和Chronomagic-Bench-1649四个基准测试中取得了最先进的性能。例如,使用IV-Mixed Sampler的开源Animatediff将UMT-FVD分数从275.2降低到228.6,接近于闭源Pika-2.0的223.1。
异常检测是一个重要的问题,其应用领域广泛,例如欺诈检测、模式识别或医学诊断。一些算法已经使用经典计算方法被提出。然而,利用量子计算解决时间序列数据中的异常检测问题是一个尚未充分探索的研究领域。
本文探讨了量子自动编码器在时间序列异常检测中的应用。我们研究了两种主要的异常分类技术:(1)分析量子自动编码器生成的重建误差,以及(2)潜在表示分析。我们在各种 ansatz 上进行的模拟实验结果表明,与基于经典深度学习的自动编码器相比,量子自动编码器在多个数据集上始终表现更好。具体而言,量子自动编码器在参数数量减少 60-230 倍,训练迭代次数减少 5 倍的情况下,实现了优越的异常检测性能。此外,我们在真实的量子硬件上实现了我们的量子编码器。我们的实验结果表明,量子自动编码器的异常检测性能与其模拟对应物相当。
图自监督学习 (GSSL) 已成为一种引人注目的框架,用于从图结构数据中提取信息表示,而无需过多依赖标记输入。本研究介绍了图交互 (GIP),这是一种创新且通用的方法,可以显著增强配备各种现有 GSSL 方法的性能。为此,GIP 通过在标准批次中引入随机图间边来倡导直接的图级通信。针对 GIP 的简洁性,我们进一步从理论上证明,GIP 本质上通过结合图间消息传递和 GSSL 执行原则性流形分离,从而带来更有结构的嵌入流形,并因此有利于一系列下游任务。我们的实证研究表明,GIP 在多个基准测试中均以显著优势超越了现有 GSSL 方法的性能,突出了其作为突破性方法的潜力。此外,GIP 可以轻松地集成到一系列 GSSL 方法中,并始终提供额外的性能提升。这一进步不仅增强了 GSSL 的能力,而且可能在更广泛的意义上为一种新的图学习范式奠定了基础。
近年来,时间序列模型及其在时间序列预测、分类和异常检测等各种独立任务中的基准测试取得了长足进展。与此同时,时间序列中的组合推理在现实应用(例如决策和组合式问答)中普遍存在,并且需求量很大。与主要关注预测准确性的简单任务不同,组合推理强调综合来自时间序列数据和各种领域知识的多种信息,这使其独具特色且极具挑战性。本文介绍了组合时间序列推理,这是一项处理时间序列数据中复杂多步推理任务的新任务。具体来说,这项新任务侧重于各种需要对时间序列数据进行结构化和组合推理能力的问题实例,例如决策和组合式问答。作为解决这项新任务的初步尝试,我们开发了 TS-Reasoner,这是一种程序辅助方法,它利用大型语言模型 (LLM) 将复杂任务分解为利用现有时间序列模型和数值子程序的程序步骤。与仅调用现成模块的现有推理工作不同,TS-Reasoner 允许创建自定义模块,并提供更大的灵活性来整合领域知识以及用户指定的约束条件。我们通过一套全面的实验论证了我们方法的有效性。这些令人鼓舞的结果表明时间序列推理这项新任务中存在潜在机遇,并突出了进一步研究的必要性。
近年来,Transformer模型在非侵入式负荷监测(NILM)应用中展现出令人印象深刻的性能。尽管取得了成功,但现有研究尚未彻底考察各种超参数对模型性能的影响,而这对于推进高性能Transformer模型至关重要。本研究进行了一系列全面的实验,以分析这些超参数在住宅NILM环境中的影响。本研究深入探讨了注意力层隐藏维度数量、注意力层数量、注意力头数量和 dropout 比率对Transformer性能的影响。此外,还探讨了BERT风格Transformer训练中掩码比率的作用,并对其在NILM任务中的影响进行了详细研究。基于这些实验,我们选择了最佳超参数,并用其训练了一个Transformer模型,该模型的性能超过了现有模型。实验结果为优化Transformer架构提供了宝贵的见解和指导,旨在提高其在NILM应用中的有效性和效率。预期这项工作将为未来更强大、更有效的NILM Transformer模型的研究和开发奠定基础。
大型语言模型展现出令人印象深刻的推理能力,但由于缺乏个体用户偏好信息,难以提供个性化内容。现有的方法,例如上下文学习和参数高效微调,在捕捉人类偏好的复杂性方面存在不足,尤其是在个体拥有的个人数据集较小的情况下。本文提出了一种新方法,利用小型参数模型作为偏好代理来生成自然语言规则,指导更大的预训练模型,从而实现高效的个性化。我们的方法涉及一个小型、局部的“方向盘”模型,它引导大型基础模型的输出,生成符合个人偏好的内容,同时利用大型模型的广泛知识和能力。重要的是,这种个性化无需对大型模型进行微调。在电子邮件和文章数据集上的实验结果表明,我们的技术显著优于基线个性化方法。通过允许基础模型以数据和计算高效的方式适应个人偏好,我们的方法为高度个性化的语言模型应用铺平了道路。
大型语言模型(LLM)和检索增强生成(RAG)系统在实际应用中确保对上下文的忠实度至关重要,因为不正确或不受支持的信息会损害用户信任。尽管在标准基准测试方面取得了进展,但模型生成与提供的上下文不符的响应——即忠实度幻觉——仍然是一个重大挑战。在这项工作中,我们引入了FaithEval,这是一个新颖且全面的基准,旨在评估LLM在三种不同任务(不可回答的、不一致的和反事实的上下文)中的上下文场景下的忠实度。这些任务模拟了检索机制可能出现不完整、矛盾或虚假信息时的现实世界挑战。FaithEval总共包含4900个高质量问题,通过严格的四阶段上下文构建和验证框架进行验证,该框架同时采用了基于LLM的自动评估和人工验证。我们对各种开源和专有模型的广泛研究表明,即使是最先进的模型也常常难以保持对给定上下文的忠实度,并且更大的模型并不一定表现出更高的忠实度。项目地址:\url{https://github.com/SalesforceAIResearch/FaithEval}。
在集体利益与个人利益冲突的社会困境中,人们与机器合作的程度通常低于与人类合作,这种现象被称为“机器惩罚”。克服这种惩罚对于成功的人机集体至关重要,然而,目前的解决方案往往涉及伦理上存疑的策略,例如隐瞒机器的非人类本质。本研究邀请了1152名参与者,探讨了利用大型语言模型(LLM)解决这一研究问题的可能性,研究情境为互动双方可以进行沟通。我们设计了三种类型的LLM:(i)合作型,旨在协助其人类伙伴;(ii)自私型,专注于最大化自身利益;(iii)公平型,在自身利益和集体利益之间取得平衡,同时略微优先考虑自身利益。我们的研究结果表明,与人类互动时,公平型LLM能够诱导与人际互动中观察到的合作水平相当的合作水平,即使它们的非人类本质被完全披露。相比之下,自私型和合作型LLM未能实现这一目标。实验后分析表明,所有三种类型的LLM都能成功与人类形成互惠合作协议,但只有偶尔违背承诺的公平型LLM能够在人类中灌输与它们合作是社会规范的认知,并引发对它们的信任度、体贴度、智力和沟通质量的积极评价。我们的研究结果表明,为了有效的人机合作,机器人制造商应避免设计只具有理性决策能力或仅仅专注于协助人类的机器。相反,他们应该设计能够明智地平衡自身利益和人类利益的机器。
我们提出了一种实用的蒸馏方法,用于微调大型语言模型 (LLM),以便在实时应用中调用工具。我们关注视觉编辑任务;具体来说,我们通过解释用户用自然语言指定的风格化请求(例如“黄金时段”),利用大型语言模型选择合适的工具及其参数来实现所需的视觉效果,从而修改图像和视频。我们发现,诸如 GPT-3.5-Turbo 之类的专有大型语言模型在该任务中显示出潜力,但其高成本和高延迟使其不适用于实时应用。在我们的方法中,我们使用来自教师大型语言模型的指导和行为信号来微调(较小)的学生大型语言模型。我们引入了离线指标来评估学生大型语言模型。在线和离线实验都表明,我们的学生模型能够匹配教师模型(GPT-3.5-Turbo)的性能,显著降低了成本和延迟。最后,我们表明,在低数据情况下,使用数据增强可以将微调效果提高 25%。