arXiv:2409.13701v1 公告类型: 交叉 摘要: 自动化聊天系统中的有效沟通依赖于理解和响应上下文的能力。传统模型在确定何时需要额外上下文以生成适当响应时常常遇到困难。本文介绍了上下文感知BERT(CA-BERT),这是一种专门微调以应对这一挑战的基于Transformer的模型。CA-BERT创新性地应用深度学习技术来识别多轮聊天互动中的上下文需求,从而提高响应的相关性和准确性。我们描述了CA-BERT的开发过程,该模型通过专注于专门的聊天对话数据集的新训练方案,适应了BERT的强大架构。该模型在分类上下文需求的能力上进行了评估,展示了在准确性和效率方面优于基线BERT模型的性能。此外,CA-BERT的实现展示了显著减少的训练时间和资源使用,使其适用于实时应用。结果表明,CA-BERT通过提供对上下文的细致理解,能够有效增强聊天机器人的功能,从而提高自动化系统中的用户体验和交互质量。本研究不仅推动了聊天应用中的自然语言处理领域,还为未来上下文敏感AI发展的研究提供了框架。
基于大语言模型的多智能体系统在跨领域复杂决策任务管理中具有潜在优势,但其在下一个兴趣点推荐中的应用仍未得到充分探索。本文提出了一种名为MAS4POI的新系统,旨在通过多智能体交互增强下一个兴趣点推荐。MAS4POI支持专门化的大语言模型,如数据智能体、管理智能体、分析智能体和导航智能体,每个智能体在生成下一个兴趣点推荐的过程中发挥协同作用。该系统通过整合六种不同的大语言模型,并使用两个真实世界的数据集进行评估,以提高在实际场景中的推荐准确性。我们的代码可在https://github.com/yuqian2003/MAS4POI获取。
arXiv:2409.13697v1 公告类型: 交叉 摘要: 改变大型语言模型(LLM)行为的两种主要方式是提示和权重更新(例如,微调)。提示LLM简单有效,通过自然语言明确指定所需的变化,而权重更新则提供更具表现力和永久性的行为变化,通过在大数据集上训练隐式指定。我们提出了一种将提示"烘焙"到LLM权重中的技术。提示烘焙将提示$u$和初始权重$\theta$转换为一组新的权重$\theta_u$,使得新的"烘焙"LLM表现得像原始提示的LLM。在数学上,我们最小化$P_\theta(\cdot | u)$和$P_{\theta_u}(\cdot)$之间的KL散度,其中$P$是LLM在token序列上的概率分布。在我们所有的实验中,我们发现提示可以很容易地烘焙到权重更新中。烘焙思维链提示提高了GSM8K、ASDiv、MBPP、ARC-Easy、ARC-Challenge和CommonsenseQA基准上的零样本性能。直接烘焙新闻标题更新了LLM的知识。烘焙指令和角色缓解了长序列中的"提示遗忘"。此外,提前停止烘焙会创建"半烘焙"模型,持续扩展提示强度。烘焙模型保留了对进一步提示和烘焙的敏感性,包括使用烘焙提示重新提示。令人惊讶的是,重新提示的模型在指令跟随以及数学推理和编码基准上进一步提高了性能。将重新提示和重新烘焙推向极限,产生了一种我们称之为提示追求的迭代自我改进形式,初步结果表明在指令跟随方面取得了显著的性能提升。最后,我们讨论了对AI安全、持续模型更新、增强基于LLM的代理的实时学习能力以及生成更稳定的AI角色的影响。
支持大型语言模型(LLM)处理更长上下文是一个有前景的方向,以推动LLM的发展。由于为更长上下文窗口训练模型在计算上非常昂贵,许多替代解决方案,如检索增强生成(RAG),已被采用。然而,大多数现有的RAG方法采用基于嵌入的检索,在处理长上下文时表现不佳。为了应对这些挑战,我们提出了一种基于注意力的检索技术,称为“你只使用反应性注意力切片”(YOURA)。YOURA利用一种称为反应分数的新颖检索启发式方法,来评估输入上下文中每个句子与查询句子的相关性。直观地说,我们测量每个标记的注意力分数对查询的“反应”,并贪婪地检索最具反应性的句子。在内部,YOURA为整个输入上下文生成一个标记索引向量(称为反应向量)。为了将每个句子映射到标记索引向量,我们提出了一种嵌入无关的句子生成(EASY),这是一种尽力而为的标记微调算法。我们在三个开源预训练的LLM模型上,对六个LongBench QA数据集评估了我们的检索技术。我们的技术在处理长上下文查询时,实现了高达30%的vLLM推理吞吐量提升,且质量评分与简单而有效的截断中间方法几乎相同。
arXiv:2409.13694v1 公告类型: 交叉 摘要: 检索增强生成(RAG)通过集成检索机制增强了生成模型,使这些模型能够访问和利用外部知识源。尽管RAG具有优势,但在有效处理现实世界查询和减少幻觉方面仍面临重大挑战。KDD Cup 2024 CRAG竞赛通过将网页和模拟API作为知识源,增加了解析HTML的复杂性,从而将这些问题置于前沿。本文提出了一种新的RAG基准,旨在应对这些挑战。我们的工作提供了一套全面的实验结果,为RAG研究提供了宝贵的见解。我们全面考察了RAG过程,包括知识源选择、检索、组织和推理。研究的关键发现包括使用代理进行自动化知识源选择的影响以及噪声块对RAG推理的影响。此外,我们还进行了详细的实验,分析了各种超参数对RAG性能的影响。为了支持进一步研究,我们已将结果、相关代码和解析后的CRAG数据集公开发布,为RAG方法的发展和该领域未来工作的基础奠定了坚实的基础。
arXiv:2409.13693v1 公告类型: 交叉 摘要: 本文介绍了一种创新的架构,旨在以声明式方式将大型语言模型(LLMs)与共享历史和触发器结合,以识别最适合特定任务的LLM。我们的方法通用且声明式,依赖于有限自动机与事件管理系统相结合的构建。开发的工具旨在促进LLMs与最小编程努力的高效复杂集成,特别是但不限于将积极心理学方法集成到人工智能中。通过自动化、通信和伦理中的应用示例展示了我们技术的灵活性。
arXiv:2409.15260v1 公告类型: 新 摘要: 腰背痛(LBP)是全球致残的主要原因之一。在腰背痛发作及后续治疗后,充分的患者教育对于改善功能和长期预后至关重要。尽管患者教育策略有所进步,但在向腰背痛患者提供个性化、基于证据的信息方面仍存在显著差距。近期,大型语言模型(LLMs)和生成式人工智能(GenAI)的进展展示了增强患者教育的潜力。然而,这些技术在向腰背痛患者提供教育内容方面的应用和效果仍未得到充分探索,值得进一步研究。在本研究中,我们提出了一种利用LLMs结合检索增强生成(RAG)和少样本学习生成针对腰背痛患者的个性化教育材料的新方法。物理治疗师使用李克特量表手动评估了我们模型的响应,以检查其冗余性、准确性和完整性。此外,使用Flesch阅读易度分数评估生成教育材料的易读性。研究结果表明,基于RAG的LLMs优于传统LLMs,提供更准确、完整且易读的患者教育材料,冗余性更低。尽管如此,我们的分析显示,生成的材料尚未准备好用于临床实践。本研究强调了利用RAG的AI驱动模型在改善腰背痛患者教育方面的潜力;然而,确保这些模型生成内容的临床相关性和细节性仍面临重大挑战。
arXiv:2409.15243v1 公告类型: 新文章 摘要: 本文介绍了一种多模态环境上下文增强智能平台(MACeIP),该平台专为智慧城市设计,旨在提升城市管理和市民参与度。我们的平台集成了先进技术,包括物联网(IoT)传感器、边缘和云计算以及多模态人工智能,以构建一个响应迅速且智能的城市生态系统。关键组件包括市民互动中心、广泛的物联网传感器网络、智能公共资产管理、行人监控系统、城市规划门户和云计算系统。我们在多个城市展示了MACeIP的原型,重点关注新不伦瑞克省的弗雷德里克顿。这项工作通过提供一种可扩展、高效且以用户为中心的城市智能和管理方法,为创新城市发展做出了贡献。
大型语言模型(LLM)在各个领域的实用性正在不断被检验。然而,当将这些模型应用于精确科学时,其内在的语言特性仍然是限制因素之一。本文提出了一种利用通用预训练变换器在数据采集系统设计阶段提供辅助的新方法。该解决方案以应用程序的形式呈现,保留了LLM的对话特性,用户需要提供所需项目的详细信息,以便模型根据基于限制的自上而下的方法,起草系统级架构图和模块级规格。为了测试该工具,使用了两种不同的用户模拟,其中一种使用了额外的GPT模型。总共在测试阶段使用了4个不同的数据采集项目,每个项目都有自己的测量要求:角位置、温度、加速度以及一个同时测量压力和表面温度的项目。经过160次测试迭代后,研究表明这些模型有可能作为数据采集系统的综合/辅助工具,但仍存在技术限制。结果显示了连贯的架构和拓扑结构,但GPT在同时考虑所有要求时存在困难,并且经常犯理论错误。
arXiv:2409.15182v1 公告类型: 新论文 摘要: 车辆轨迹预测在智能交通系统和自动驾驶中起着至关重要的作用,因为它显著影响车辆行为规划和控制,从而影响交通安全和效率。已有大量研究致力于预测短期内的车辆轨迹。然而,长期轨迹预测仍然是一个重大挑战,因为累积误差和不确定性。此外,在预测车辆轨迹时平衡准确性与可解释性是另一个具有挑战性的问题。为了应对这些挑战,本文提出了一种基于目标的神经物理车辆轨迹预测模型(GNP)。GNP模型将车辆轨迹预测简化为两个阶段:确定车辆的目标,然后选择适当的轨迹以达到该目标。GNP模型包含两个子模块来实现这一过程。第一个子模块采用多头注意力机制来准确预测目标。第二个子模块将深度学习模型与基于物理的社会力模型相结合,利用生成的目标逐步预测完整的轨迹。与四个基线模型相比,GNP展示了最先进的长期预测准确性。我们提供了可解释的可视化结果,以突出我们神经物理框架的多模态和内在特性。此外,还进行了消融研究,以验证我们关键设计的有效性。