arXiv:2504.06292v1 类别: cross
摘要: 通过准确预测行人过街意图(PCI)来确保弱势道路使用者的安全,在自动驾驶和辅助驾驶的背景下起着至关重要的作用。在自我视角下分析观察到的视频帧被大多数PCI预测方法广泛用于预测过街意图。然而,由于视频帧的高度冗余性,它们在时间维度上难以捕捉到与行人行为相关的关键事件,这导致了PCI预测的次优性能。我们的研究通过引入一种名为 \underline{T}emporal-\underline{c}ontextual Event \underline{L}earning(TCL)的新方法来应对这一挑战。TCL 由 Temporal Merging Module(TMM)组成,其目标是通过将观察到的视频帧聚类成多个关键时间事件来管理冗余。然后,采用 Contextual Attention Block(CAB)来适应性地聚合多种事件特征以及视觉和非视觉数据。通过在关键事件的关键信息上综合时间特征提取和上下文注意机制,TCL 可以学习出具有表现力的表示形式以进行 PCI 预测。在 PIE、JAAD-beh 和 JAAD-all 三个广泛采用的数据集上进行了大量实验。结果显示,TCL 显著超越了现有最先进的方法。我们的代码可以在 https://github.com/dadaguailhb/TCL 获得。
arXiv:2504.06277v1 声明类型:交叉领域
摘要:近年来生成式AI的进步显著增加了对个性化代理的兴趣。随着个性化程度的提高,也对能够信任这些代理的决策能力和行动能力的需求也更大。然而,这些代理的评估方法仍然过时且不够充分,往往无法捕捉用户互动的动态性和演变性。在本文中,我们主张评估个性化和自适应代理的范式转变。我们提议了一个全面的新框架,该框架使用具有独特属性和偏好的用户画像。在此框架中,代理通过结构化访谈与这些模拟用户互动,以收集其偏好并提供定制化建议。然后,使用大型语言模型(LLMs)驱动的模拟对其进行动态评估,从而实现自适应和迭代的评估过程。我们的灵活框架旨在支持各种代理和应用,确保全面且多样的评估,重点关注前瞻性的、个性化且可信的建议策略。
arXiv:2504.06275v1 交叉类型公告
摘要:本研究提出了一种级联架构,通过音频到文本对齐进行多媒体内容的提取式摘要。所提出的框架解决了从YouTube视频等多媒体来源中提取关键见解的挑战。该框架结合了使用Microsoft Azure Speech进行的音频到文本转换以及Whisper、Pegasus和Facebook BART XSum等高级提取式摘要模型。系统使用Pytube、Pydub和SpeechRecognition等工具进行内容检索、音频提取和转录。通过命名实体识别和语义角色标注增强了语言分析。使用ROUGE和F1分数进行的评估表明,级联架构在面对如转录错误等挑战的情况下,优于传统的摘要方法。未来改进可能包括模型微调和实时处理。本研究通过改进信息检索、可访问性和用户体验,为多媒体摘要做出了贡献。
arXiv:2504.06274v1 交叉发布类型:跨领域
摘要:群体推荐系统旨在生成与群体共同偏好相一致的推荐,这引入了与个体推荐场景截然不同的挑战。本文提出了一种基于深度神经网络的多任务学习框架,即联合群体特征分析与推荐,该框架将群体特征分析和推荐任务统一在一个模型中。通过同时学习这些任务,模型对群体动态有了更深的理解,从而提高了推荐的准确性。两个任务之间的共享表示有助于发现对两者都至关重要的潜在特征,从而产生更丰富和更具信息量的群体嵌入。为了进一步增强性能,引入了一个注意力机制来动态评估不同群体特征和项目属性的相关性,确保模型优先考虑最具影响力的Information。在实际数据集上的实验和评估表明,我们的多任务学习方法在准确性方面始终优于基线模型,验证了其有效性和鲁棒性。
arXiv:2504.06273v1 通知类型: cross
摘要:设计有效的债务催收系统对于提高金融行业的运营效率并降低运营成本至关重要。然而,保持脚本多样性、上下文相关性和连贯性的挑战使得这一任务尤为困难。本文提出了一种基于一家大型商业银行实际债务人-催收员对话数据的债务催收系统。我们从实际的债务催收对话中构建了一个脚本库,并提出了一种基于两阶段检索的响应系统,以提高上下文相关性。实验结果表明,通过知识蒸馏,我们的系统提高了脚本多样性、增强了响应的相关性,并实现了实际部署效率。这项工作提供了一个可扩展和自动化的解决方案,为推进实际应用中的债务催收实践提供了宝贵的见解。
arXiv:2504.06272v1 Announce Type: cross
摘要:我们提出了一种名为RAVEN的适应性AI代理框架,该框架旨在在大规模视频集合中进行多模态实体发现和检索。RAVEN自主地综合视觉、音频和文本模态的信息,以生成面向下游任务的结构化和可操作的表示。关键贡献包括(1)一个类别理解步骤,用于推断视频主题和通用实体,(2)一种动态定义领域特定实体和属性的模式生成机制,以及(3)一个丰富的实体提取过程,利用语义检索和模式引导提示。RAVEN设计为模型无关,允许根据具体应用需求集成不同的视觉语言模型(VLMs)和大型语言模型(LLMs)。这种灵活性支持广泛的个性化搜索、内容发现和可扩展信息检索应用,能够在大规模数据集中实现实际应用。
arXiv:2504.06271v1 宣告类型:交叉
摘要:大型语言模型(LLMs)在问答(QA)任务上表现出色,检索增强生成(RAG)通过结合来自网页、数据库和知识图等多种来源的外部证据,提升了其精度。然而,当前的RAG方法依赖于针对个体数据源的特定策略,这在低资源或黑盒环境中提出了挑战,并且当证据分散在多个来源时,操作复杂化。为了解决这些局限性,我们提出了一种ER-RAG框架,该框架通过实体-关系(ER)模型统一了异构数据源中的证据整合。ER-RAG通过基于ER的API使用GET和JOIN操作标准化实体检索和关系查询。该框架采用两阶段生成过程:首先,偏好优化模块选择最优的来源;其次,另一个模块基于源模式构建API链。这一统一的方法允许高效微调并在多种数据源之间无缝集成。ER-RAG在2024年KDDCup CRAG挑战赛的三个赛道中均取得了胜利,使用8B LLM骨干取得了与商业RAG流水线相当的性能。与混合竞争对手相比,其LLM得分提高了3.1%,检索速度加快了5.5倍。
arXiv:2504.06270v1 交叉类型
摘要:预测点击率是推荐和广告平台中的一个关键功能,因为点击率预测的结果决定了呈现给用户的物品顺序。嵌入和MLP范式已成为工业推荐系统的标准方法,并且已被广泛部署。然而,这种方法在冷启动问题上存在缺陷,当没有或仅有有限的用户行为数据可用时,会导致学习不良的ID嵌入。冷启动问题影响新物品的性能。为了解决这一问题,我们设计了一种新的扩散模型来生成新物品的预热嵌入。具体而言,我们定义了一个新的ID嵌入空间与辅助信息空间之间的扩散过程。此外,由于我们的扩散模型是非马尔可夫的,我们可以从扩散步骤中导出一个子序列以加速训练。我们的扩散模型同时受变分推断和二元交叉熵目标的监督,使其能够在冷启动和暖启动阶段为物品生成预热嵌入。此外,我们在三个推荐数据集上进行了广泛的实验。结果证实了我们方法的有效性。
arXiv:2504.06269v1 交叉类型公告:
摘要:虚假信息继续构成当今信息生态系统中的重大挑战,深刻地影响着公众的认知和行为。在其各种表现形式中,脱离上下文(OOC)的虚假信息尤为隐秘,因为它通过将真实的图像与误导性的文字叙述配对,扭曲了意义。现有检测OOC虚假信息的方法主要依赖于图像-文本对之间的粗粒度相似性度量,往往无法捕捉到细微的不一致或提供有意义的解释性信息。虽然多模态大型语言模型(MLLMs)在视觉推理和解释生成方面展现出惊人的能力,但它们尚未证明有能力解决复杂、细粒度且跨模态的区别,这对于稳健的OOC检测至关重要。为克服这些限制,我们引入了EXCLAIM,这是一种基于检索的框架,旨在通过多粒度的多模态事件和实体索引来利用外部知识。我们的方法将多粒度上下文分析与多代理推理架构相结合,系统性地评估多模态新闻内容的一致性和完整性。全面的实验验证了EXCLAIM的有效性和鲁棒性,证明了其在检测OOC虚假信息方面比最先进的方法高出4.3%的准确性,同时提供了可解释且可操作的洞察。
arXiv:2504.05804v1 交叉类型公告
摘要:将大语言模型(LLMs)集成到信息检索系统中引入了新的攻击面,特别是针对对抗性排名操纵。我们提出了一种名为StealthRank的新型对抗性排名攻击,它在保持文本流畅性和隐蔽性的同时,操纵LLM驱动的产品推荐系统。不同于现有方法通常会引入可检测的异常,StealthRank采用了基于能量的优化框架结合兰格维恩动力学,生成StealthRank提示(SRP),这是一种嵌入在产品描述中的对抗性文本序列,它虽微小但有效影响LLM排名机制。我们跨多个LLM评估了StealthRank,证明了它能够在不留下明显的操纵痕迹的情况下,隐蔽地提升目标产品的排名。我们的结果表明,StealthRank在有效性和隐蔽性方面均优于最先进的对抗性排名基线,突显了LLM驱动的推荐系统中的关键漏洞。