LLM2D

arXiv 论文列表

我们介绍了TheraGen,一个利用LLaMA 2 7B模型的高级AI驱动的精神健康聊天机器人。这种方法建立在语言模型和变换器架构的最新进展之上。TheraGen通过利用包含100万条对话条目的大型数据集,结合匿名的治疗记录、在线精神健康讨论和心理学文献(包括APA资源),提供全天候个性化、富有同情心的精神健康护理。我们的实现采用了迁移学习、微调和高阶训练技术来优化性能。TheraGen提供了一个用户友好的界面,实现无缝互动,提供同理心回应和基于证据的应对策略。评估结果显示用户满意度高,94%的用户报告精神健康状况有所改善。系统达到了0.67的BLEU评分和0.62的ROUGE评分,表明回应准确性高。平均响应时间为1395毫秒,确保了实时、高效的支持。尽管不能替代专业治疗,TheraGen作为一项有价值的补充工具,显著改善了用户福祉,并解决了精神健康治疗中的可及性差距。本文详细介绍了TheraGen的架构、训练方法、伦理考量和未来方向,为日益增长的AI辅助精神健康护理领域做出了贡献,并提供了一个可扩展的解决方案,以应对迫切需要的精神健康支持需求。
发布时间: 9/24/2024
查看原文
术语规范化是将自由文本中的术语映射到本体中的标准化概念及其机器可读代码的过程。准确规范化捕捉患者和疾病之间表型差异的术语对于精准医学计划的成功至关重要。大型语言模型(如GPT-4o)可以将术语规范化到人类表型本体(HPO),但可能会检索到错误的HPO ID。由于测试数据集偏向于高频术语,LLM在这些任务上的报告准确率可能被夸大。在我们的研究中,使用来自HPO的12,655种疾病的268,776个表型注释的综合数据集,GPT-4o在规范化11,225个唯一术语时达到了13.1%的准确率。然而,准确率的分布不均匀,高频和较短的术语比低频和较长的术语更准确地被规范化。使用SHAP和排列方法的特征重要性分析确定术语频率低是规范化错误的最显著预测因子。这些发现表明,基于LLM的术语规范化训练和评估数据集应平衡低频和高频术语,以提高模型性能,特别是对于精准医学至关重要的不常见术语。
发布时间: 9/24/2024
查看原文
arXiv:2409.13745v1 公告类型: 交叉 摘要: 先前的成员推理攻击(MIAs)针对预训练的大型语言模型(LLMs),借鉴了分类模型攻击的方法,但由于忽略了LLMs在标记序列中的生成过程而失败。本文提出了一种新的攻击方法,将MIA统计测试适应于数据点内子序列的困惑度动态。我们的方法显著优于先前的基于损失的方法,揭示了预训练LLMs中依赖上下文的记忆模式。
发布时间: 9/24/2024
查看原文
大型语言模型(LLMs)在结合了基于术语定义提供候选归一化的检索器后,在表型术语归一化任务中展示了更高的准确性。本文介绍了一种简化的检索器,通过使用BioBERT的上下文词嵌入在人类表型本体(HPO)中搜索候选匹配项,从而提升LLM的准确性,无需明确的术语定义。在基于在线孟德尔遗传学数据库(OMIM)临床摘要提取的术语上测试该方法,结果显示,在没有检索器增强的情况下,最先进的LLM的归一化准确率为62.3%,而在检索器增强后,准确率提升至90.3%。这种方法可能适用于其他生物医学术语归一化任务,并提供了一种比复杂检索方法更高效的替代方案。
发布时间: 9/24/2024
查看原文
语言模型被认为会产生错误信息,其在科学研究中的准确性和可靠性仍存疑问。我们开发了一种详细的人工智能对比方法,用于评估语言模型在真实文献搜索任务中的表现,包括信息检索、总结和矛盾检测。我们的研究发现,专注于提高事实准确性的先进语言模型PaperQA2,在三项现实文献搜索任务中与领域专家的表现相当或更优,且对人类参与者无任何限制(完全互联网访问、搜索工具和时间)。PaperQA2生成的科学主题引用式、维基百科风格的总结,其准确性显著高于当前人类编写的维基百科条目。我们还推出了LitQA2,一个用于科学文献研究的新基准,该基准塑造了PaperQA2的开发,并促使其表现卓越。此外,PaperQA2能够识别科学文献中的矛盾,这是人类面临的挑战性任务。在随机抽样的生物学论文中,它平均每篇发现2.34±1.99个矛盾,其中70%的矛盾得到了人类专家的验证。这些结果表明,语言模型在重要的科学文献任务中现已能超越领域专家。
发布时间: 9/24/2024
查看原文
指令微调(IFT)通过监督学习激发了大语言模型(LLMs)的指令跟随能力,并引导其行为。然而,现有基于开源IFT数据集训练的模型仅具备跟随用户指令的能力,往往无法遵循开发者指定的复杂角色和规则,即系统提示。这种遵循角色和规则的能力对于部署至关重要,因为它确保模型在开发者定义的指南内安全地与用户互动。为了提升这种角色和规则跟随能力,我们提出了\model,一个自动化的数据生成管道,从现有IFT指令中生成多样化的角色和规则,并生成相应的响应。这些数据随后可用于训练遵循复杂系统提示的模型。这些模型在我们的新创建的角色和规则跟随能力基准测试以及标准指令跟随基准测试和通用NLP任务中进行了评估。我们的框架显著提升LLMs的角色和规则跟随能力,实验结果显示,在Alpaca和Ultrachat数据集上,规则遵守率(即遵循所有要求)提高了超过25%。此外,我们的模型在实现这一提升的同时,并未在流行的指令跟随基准测试中出现性能下降。
发布时间: 9/24/2024
查看原文
arXiv:2409.13731v1 公告类型: 交叉 摘要: 最近开发的检索增强生成(RAG)技术能够高效构建特定领域应用。然而,它面临模糊检索过程、通用语言模型理解和推理能力的"幻觉"问题以及复杂系统中的级联损失等局限。这些挑战阻碍了专业知识服务的有效性。然而,在科学计算、医学和法律等领域,知识的准确性、信息的完整性以及规则、时间和价值的逻辑严谨性尤为关键。我们引入专业领域知识服务框架:知识增强生成(KAG),通过双向增强大型语言模型(LLM)和知识图谱(KG),包括五个关键增强:1)LLM友好的知识语义表示,2)知识图谱与原始块之间的相互索引,3)逻辑形式引导的混合推理和求解,4)基于语义推理的知识对齐,5)KAG模型。我们在多跳问答中比较了KAG与现有RAG方法。结果显示,KAG显著优于最先进的方法,F1相对提升19.6%至33.4%。我们将KAG应用于蚂蚁集团的两个专业知识问答任务,包括政务问答和健康问答,与NaiveRAG相比,专业性显著提升。我们将在开源KG引擎OpenSPG上原生支持KAG,使开发者更容易构建严谨的知识决策或便捷的信息检索服务。
发布时间: 9/24/2024
查看原文
大型语言模型(LLMs)在数学推理方面,特别是在基于文本的数学问题上,展示了显著的能力。然而,当前的多模态大型语言模型(MLLMs),尤其是那些专门针对数学的模型,往往主要集中在解决几何问题上,而忽略了数学其他领域中丰富的视觉信息多样性。此外,这些专门数学MLLMs的几何信息通常来源于几个公开数据集,这些数据集在多样性和复杂性方面通常有限。为了解决这些限制,我们旨在构建一个名为MathVL的微调数据集,并通过在MathVL上进行监督微调(SFT),开发一系列称为MathGLM-Vision的专门数学MLLMs,采用各种参数规模的主干模型。为了广泛评估MathGLM-Vision的有效性,我们在几个公开基准和我们精心策划的包含2000个问题的MathVL-test上进行了实验。实验结果表明,与一些现有模型(包括主干模型和开源数学MLLMs)相比,MathGLM-Vision取得了显著的改进。这些发现表明,多样化的数据集在提升MLLMs的数学推理能力方面具有重要意义。
发布时间: 9/24/2024
查看原文
arXiv:2409.13726v1 公告类型: 交叉 摘要: 非言语行为是理解对话动态和对话者之间情感状态的核心挑战,这些情感状态源于互动。尽管心理学研究表明非言语行为在不同文化中有所不同,但关于这些差异及其对参与度识别影响的计算分析却非常有限。为了更深入地理解广泛文化和语言领域中的参与度和非言语行为,本研究进行了多语言计算分析,探讨了非言语特征在参与度和参与度预测中的作用。为此,我们首先扩展了NoXi数据集,该数据集包含来自法国、德国和英国参与者的互动数据,通过收集日本和中国双人对话的会话数据,形成了增强数据集NoXi+J。接着,我们通过各种模式识别技术和算法提取了多模态非言语特征,包括语音声学、面部表情、反馈和手势。然后,我们对倾听行为和反馈模式进行了统计分析,以识别每种语言中文化依赖和独立特征以及多种语言中的共同特征。这些特征还与对话者的参与度相关联。最后,我们分析了LSTM模型在预测五种语言数据集参与度时输入特征中文化差异的影响。结合迁移学习的SHAP分析证实了语言集输入特征重要性与分析的文化特征显著性之间存在相当大的相关性。
发布时间: 9/24/2024
查看原文
大型语言模型(LLMs)在自然语言理解和生成方面展现出巨大的潜力。然而,当前的LLMs远非可靠:它们容易生成不实信息,更关键的是,在提示推理实体间关系时容易自相矛盾。这些问题目前通过大规模微调或委托外部工具进行推理来解决。在本研究中,我们寻求一个中间地带,并引入了一种基于神经符号推理的损失函数,该损失函数教导LLM在外部事实和规则集下保持逻辑一致性,即使在有限的事实集上进行微调时也能提高自身的连贯性。我们的方法还允许以一种有原则的方式轻松结合多个逻辑约束,从而生成相对于所有约束更一致的LLMs,并在给定约束下超越多个基线。此外,我们的方法使LLMs能够更系统地外推到未见但语义相似的事实知识,这些知识在未见的数据集中表示。
发布时间: 9/24/2024
查看原文