arXiv:2504.08758v1 交叉公告类型
摘要:大型语言模型(LLMs)通过增强内容生成和决策过程,已在教育、金融和医疗等多个领域取得了变革性进展。然而,由于存在幻觉现象,即生成的内容偏离事实准确性,可能导致不良后果,其在医疗领域的整合受到谨慎对待。为了解决这一问题,我们引入了基于超图的检索增强生成方法Hyper-RAG,它可以全面捕捉领域内知识的成对和超出成对的关联,从而减轻幻觉现象。在NeurologyCrop数据集上使用六种主流LLM进行的实验表明,Hyper-RAG直接使用LLM的准确性平均提升了12.3%,并且分别比Graph RAG和Light RAG高出6.3%和6.0%。此外,Hyper-RAG在查询复杂性增加时仍能保持稳定性能,而其他现有方法则会下降。进一步在九个不同的数据集上进行验证显示,Hyper-RAG相比Light RAG在选择性评估中提高了35.5%的性能。轻量级变体Hyper-RAG-Lite的速度是Light RAG的两倍,并且性能提升了3.3%。这些结果证实Hyper-RAG在提升LLM可靠性、减少幻觉现象方面的有效性,使其成为像医学诊断这样高风险应用中一个稳健的解决方案。
arXiv:2504.08757v1 类型:交叉学科
摘要:几十年来,计算机科学和设计从业者一直在研究和提出替代方案,以应对用户界面推荐、标准或最佳实践的匮乏。现在,随着生成型人工智能(GenAI)的出现,我们再次面临一种新兴且强大的技术,该技术在可能的交互方式、输入和输出方面缺乏足够的指导。在此背景下,本文提出了一种轻量级框架,用于在将提示发送给GenAI之前推荐负责任的提示。该框架包括:(1) 一个由人类精心策划的数据集以提供推荐,(2) 一个红队数据集以评估推荐,(3) 一个句向量变换器用于语义映射,(4) 一个相似度度量将输入提示映射到推荐,(5) 一组相似度阈值,(6) 量化句向量嵌入,(7) 一个推荐引擎,以及(8) 一个评估步骤,使用红队数据集。通过所提出的框架和开源系统,可以将其贡献应用于多种情境,使终端用户能够以更负责任的方式与GenAI交互,推荐有益的价值并移除有害的句子。
arXiv:2504.08756v1 基准类型:跨领域
摘要:现有的RAG基准经常会忽视查询难度,导致对简单问题的性能被夸大,评估结果不可靠。一个稳健的基准数据集必须满足三个关键标准:质量、多样性以及难度,这捕捉了基于跳转的推理复杂性和支持证据的分布。本文提出了一种新的数据集合成框架MHTS(多跳树结构),通过利用多跳树结构系统地控制多跳推理的复杂性,生成逻辑上相连、多段落的问题。我们精细的难度估算公式与RAG系统的总体性能指标之间表现出强烈的关联性,验证了其在评估检索和答案生成能力方面的有效性。通过确保高质量、多样性和难度控制的问题,我们的方法提高了RAG评估和基准测试的能力。
arXiv:2504.08755v1 跨学科公告类型
摘要:随着人们越来越清楚地认识到互联网正变得充斥着由生成式 AI 大型语言模型创建的内容,准确测量这一现象的规模却证明颇具挑战性。通过分析经常被 ChatGPT 使用的特定关键词频率,本文展示了这类语言标志可以有效用于估计互联网上生成式 AI 内容的存在。研究结果表明,至少有 30% 的活跃网页文本源于 AI 生成的来源,而实际比例可能接近 40%。考虑到自噬循环的潜在影响,这一发现令人警醒。
arXiv:2504.08754v1 类别:交叉
摘要:对话推荐系统(CRSs)旨在通过对话与用户互动以提供个性化的推荐。虽然传统的CRSs主要关注于提取偏好和检索项目,但现实中的电子商务互动涉及更加复杂的决策过程,其中用户会考虑超出简单属性的多个因素。为了弥补这一差距,我们引入了对话销售(CSales)这一新任务,它统一了偏好提取、推荐和说服,以更好地支持用户的决策。为了对CSales进行现实评估,我们提出了CSUser,一个基于LLM的用户模拟器,该模拟器基于真实世界的数据构建,能够模拟具有多样需求和个性的用户画像。此外,我们还提出了一种对话销售代理CSI,它通过对话主动推断上下文画像,以实现个性化行动规划。广泛的实验表明,CSUser有效地复制了真实世界的用户,并强调了在战略行动选择中上下文画像的重要性,最终推动了电子商务中的成功购买。
arXiv:2504.08752v1 类别:交叉学科
摘要:大型语言模型(LLMs)已在多个学科中得到应用,以提供问答支持。这些模型本身已经在回答基本问题方面展示了潜力,但在需要专家领域知识或问题较为复杂的场合下表现不佳。科学研究往往包括查找相关的文献、从这些文献中提取关键信息以及分析这些发现如何支持或反驳彼此的观点。这些信息通常包含在研究文章的全文中,而不仅仅是摘要。这些文章中的陈述往往需要更广泛的上下文才能完全理解。我们建立了一个基于LLM的系统,用于在科学文献中进行此类搜索和信息提取,并使用以前发布的与生物学相关的文献基准问题来评估我们的基于关键词的搜索和信息提取系统。我们展示了稀疏检索方法在无需密集检索相关基础设施和复杂性开销的情况下,仍能获得接近最先进的结果。此外,我们展示了如何增加用于文献综述生成的相关文档覆盖面。
arXiv:2504.08751v1 交叉公告类型: cross
摘要:随着短视频平台的快速发展,推荐系统已成为提升用户体验和增强平台参与度的关键技术。然而,虽然短视频推荐系统利用多模态信息(如图像、文本和音频)来提高推荐效果,但也面临着严重的用户隐私泄露挑战。本文提出了一种基于多模态信息和差分隐私保护的短视频推荐系统。首先,使用深度学习模型进行多模态数据的特征提取和融合,有效提高了推荐准确性。然后,设计了一种适合推荐场景的差分隐私保护机制,在确保用户数据隐私的同时保持系统性能。实验结果表明,所提出的方法在推荐准确性、多模态融合效果和隐私保护性能等方面优于现有主流方法,为短视频平台推荐系统的设计提供了重要的见解。
arXiv:2504.08748v1 交叉公告类型:跨领域
摘要:多模态检索增强生成(MRAG)通过将多模态数据(文本、图像、视频)纳入检索和生成过程中,增强了大型语言模型(LLMs),克服了仅依赖文本的检索增强生成(RAG)的局限性。虽然RAG通过整合外部文本知识提高了响应准确性,MRAG则将此框架扩展至包含多模态检索和生成,利用来自不同数据类型上下文的信息。这种方法通过将响应扎根于事实性的多模态知识来减少幻想现象,并增强问答系统。最近的研究显示,MRAG在需要同时理解和处理视觉和文本信息的情景中,比传统RAG表现出更优的效果。本文综述了MRAG的关键组成部分、数据集、评估方法及其局限性,提供了有关其构建和改进的见解。此外,本文还指出了面临的挑战和未来的研究方向,突显了MRAG有潜力彻底改变多模态信息检索和生成。通过提供全面的视角,本文鼓励进一步探索这一有前途的范式。
arXiv:2504.08746v1 声明类型: cross
摘要:近年来,语言模型和预训练语言模型(如BERT和RoBERTa)的进展已经彻底改变了自然语言处理领域,使得人类语言的理解更加深入。在这篇论文中,我们探索使用预训练语言模型的文本嵌入来增强推荐系统,以解决传统推荐系统仅依赖用户、项目和用户-项目交互的显式特征所面临局限性。通过将结构化数据转换为自然语言表示,我们生成了高维度的嵌入,捕捉了用户、项目和上下文之间的更深层次的语义关系。我们的实验表明,这种方法显著提高了推荐的准确性和相关性,从而实现了更加个性化和上下文感知的推荐。这些发现突显了预训练语言模型在提高推荐系统效果方面的潜力。
arXiv:2504.08745v1 宣传类型: 多领域交叉
摘要: 使用检索增强生成(RAG)进行个性化往往会忽略作者的细微特征,使得难以识别作者的独特特质。为了丰富RAG的上下文,我们提议除了提供作者过去的样本外,还向大型语言模型(LLMs)提供作者特定的特征,如平均情感极性和常用词汇。我们引入了一种新特征称为对比示例:检索其他作者的文档以帮助LLM识别作者的风格与其他人之间的独特之处。我们的实验表明,增加关于命名实体、依赖模式以及人们常用词汇的几句话,显著提高了个性化文本生成的效果。结合特征与对比示例进一步提升了性能,相对于基线RAG,取得了15%的相对改进,并且超过了基准测试。我们的结果展示了细微特征对于更好个性化的重要性,同时为将对比示例作为RAG的补充纳入研究开辟了一个新的研究方向。我们已公开发布我们的代码。