LLM2D

arXiv 论文列表

作者: Michael J Bommarito II, Jillian Bommarito, Daniel Martin Katz
arXiv:2504.07854v1 宣布类型: cross 摘要:几乎所有大型语言模型都在具有与版权侵犯和合同违约相关全局不确定性的数据上进行了预训练。这给用户和开发者带来了潜在的风险,因为这些数据的法律状态存在不确定性。KL3M数据项目直接应对这一关键问题,通过引入一个最大程度降低版权或合同违约风险的最大规模综合训练数据管道来解决这个问题。该项目的基础是一个包含超过1.32亿份文件的语料库,这些文件跨越16个不同的来源,并已验证符合本文详细说明的严格的版权和许可协议。我们正在发布整个管道,包括1) 获取和处理这些文件的源代码,2) 原始文档格式附带相关的来源和元数据,3) 标准化格式的提取内容,4) 文档的预分词表示,以及5) 各种中间和后期训练资源,如问答、总结、转换、草拟、分类、预测和对话数据。所有这些资源都在CC-BY条款下在S3、Hugging Face和GitHub上向公众免费提供。我们致力于继续这个项目,以推动更符合道德、法律和可持续性的AI模型开发和使用方法。
发布时间: 4/11/2025
查看原文
作者: Cansu Koyuturk, Emily Theophilou, Sabrina Patania, Gregor Donabauer, Andrea Martinenghi, Chiara Antico, Alessia Telari, Alessia Testa, Sathya Bursic, Franca Garzotto, Davinia Hernandez-Leo, Udo Kruschwitz, Davide Taibi, Simona Amenta, Martin Ruskov, Dimitri Ognibene
arXiv:2504.07840v1 交叉论文类型:交叉研究 摘要:大型语言模型(LLMs)通过使人工智能聊天机器人基于自然语言的沟通成为可能,从而变革了人机交互。这些模型旨在直观且用户友好,使用户能够以最小的努力表达需求。然而,尽管它们易于访问,研究表明用户在有效提示方面常常遇到困难,导致响应效率低下。现有研究强调了LLMs在解释含糊不清或结构不良的提示方面的局限性,以及用户在构建精确查询方面面临的困难。本研究通过一项教育实验调查了学习者与AI的交互,该实验为参与者提供了有效的提示的结构化指导。我们引入并比较了三种提示规范类型:通过结构化方法开发的任务特定框架以及两种基线方法。为了评估用户行为和提示的有效性,我们分析了来自107名用户的642次交互的数据集。使用Von NeuMidas,即LLM交互分析的扩展实用主义注释方案,我们对常见提示错误进行分类,并识别反复出现的行为模式。然后,我们通过检查用户行为变化、遵循提示策略的情况以及AI生成响应的整体质量来评估不同规范的影响。我们的发现提供了对用户如何与LLMs互动以及结构化提示指导在增强AI辅助沟通中的作用的更深层次理解。通过比较不同的指导框架,我们为提高用户在AI互动中的能力提供了见解,这对于AI素养、聊天机器人可用性和设计更响应的AI系统具有意义。
发布时间: 4/11/2025
查看原文
作者: Zhiwei Xu, Yujuan Wu, Shiheng Wang, Jiabao Gao, Tian Qiu, Ziqi Wang, Hai Wan, Xibin Zhao
arXiv:2504.07839v1 入侵检测系统类型: 交叉 摘要:入侵检测系统(IDS)一直是网络安全社区的热门话题。近年来,随着深度学习(DL)技术的应用,由于其不断增强的泛化能力,IDS取得了巨大的进步。这背后的原理是,通过学习已知系统行为的潜在模式,IDS检测可以泛化到利用零日漏洞的入侵。在本文综述中,我们将这类IDS称为基于DL的IDS(DL-IDS)。从DL的角度来看,本文综述系统地回顾了DL-IDS的所有阶段,包括数据收集、日志存储、日志解析、图汇总、攻击检测和攻击调查。为了适应当前的研究人员,还包含了一个描述公开可用基准数据集的章节。本文综述进一步讨论了当前挑战和潜在的未来研究方向,旨在帮助研究人员了解DL-IDS研究的基本理念和愿景,以及激发他们的研究兴趣。
发布时间: 4/11/2025
查看原文
作者: Junli Liu, Qizhi Chen, Zhigang Wang, Yiwen Tang, Yiting Zhang, Chi Yan, Dong Wang, Xuelong Li, Bin Zhao
arXiv:2504.07836v1 任务类型: cross 摘要: 视觉定位(VG)的目标是根据自然语言描述在图像中定位目标对象。在这项研究中,我们提出了AerialVG,一个专注于从航拍视角进行视觉定位的新任务。相比于传统的VG,AerialVG提出了新的挑战,例如,基于外观的定位在区分多个视觉上相似的对象时不够充分,位置关系应当被强调。此外,现有的VG模型在应用于航拍图像时遇到困难,高分辨率图像导致显著的困难。为了解决这些挑战,我们引入了第一个AerialVG数据集,包含5000张真实的航拍图像,50000个人工标注的描述,以及103000个对象。特别地,AerialVG数据集中每个标注包含多个用相对空间关系标注的目标对象,这要求模型进行全面的空间推理。此外,我们为AerialVG任务提出了一种创新的模型,其中设计了一种分层交叉注意力来关注目标区域,并设计了一种关系感知的定位模块来推断位置关系。实验结果验证了我们数据集和方法的有效性,突出了在航拍视觉定位中空间推理的重要性。代码和数据集将被发布。
发布时间: 4/11/2025
查看原文
作者: Genglin Liu, Salman Rahman, Elisa Kreiss, Marzyeh Ghassemi, Saadia Gabriel
arXiv:2504.07830v1 社交网络模拟框架类型:交叉学科 摘要:我们提出了一种新颖的开源社会网络模拟框架MOSAIC,其中生成性语言代理预测用户的点赞、分享和标记内容等行为。该模拟结合了LLM代理和有向社会图,以分析新兴的欺骗行为,并更好地了解用户如何判断在线社会内容的真实性。通过从多样化的精细人设中构建用户表示,我们的系统使多代理模拟得以实现,模型内容传播和参与动态的大规模情况。在此框架内,我们评估了三种不同的内容审核策略在模拟虚假信息传播中的效果,并发现它们不仅减少了非事实内容的传播,还增加了用户的参与度。此外,我们分析了我们在模拟中获得的流行内容的轨迹,并探讨模拟代理在社会互动中阐述的理由是否真正与他们集体的参与模式一致。我们开源我们的模拟软件,以促进在人工智能和社会科学领域内的进一步研究。
发布时间: 4/11/2025
查看原文
作者: Wanna Cui, Peizheng Wang, Faliang Yin
arXiv:2504.07822v1 ANNOUNCE 类型: cross 摘要:时空交通预测是智能交通系统中的关键。准确预测的关键挑战是如何建模复杂的空间-时间依赖关系,并适应数据中的内在动力学。传统的图卷积网络(GCNs)往往难以处理静态邻接矩阵引入的领域偏差,或者难以纠正可学习的矩阵可能对特定模式的过度拟合。当考虑到多任务学习(MTL)时,这一挑战变得更加复杂。虽然MTL有潜力通过任务协同效应提高预测准确性,但也可能因任务干扰而面临重大障碍。为克服这些挑战,本研究提出了一种新的MTL框架,动态组别时空多任务学习(DG-STMTL)。DG-STMTL提出了一种混合邻接矩阵生成模块,该模块通过特定于任务的门控机制结合静态矩阵和动态矩阵。我们还引入了一种组别GCN模块,以增强对时空依赖关系建模的能力。我们在两个真实世界的数据集上进行了广泛的实验来评估我们的方法。结果表明,我们的方法优于其他最先进的方法,这表明了其有效性和鲁棒性。
发布时间: 4/11/2025
查看原文
作者: Mattia Rengo, Senad Beadini, Domenico Alfano, Roberto Abbruzzese
arXiv:2504.07803v1 交叉类型: cross 摘要:检索增强生成(RAG)已成为通过整合检索机制来提高大型语言模型(LLMs)的事实准确性和上下文相关性的标准范式。然而,现有的评估框架无法提供一种全面的黑盒方法来评估RAG系统,特别是在实际部署场景中。为了解决这一问题,我们引入了SCARF(全面评估RAG框架的系统),这是一种模块化和灵活的评估框架,旨在系统性地基准测试部署中的RAG应用程序。SCARF提供了一种端到端的黑盒评估方法论,使得在不同的RAG框架之间进行有限努力的比较成为可能。我们的框架支持多种部署配置,并在向量数据库和LLM服务策略上实现了自动化测试,生成详细的性能报告。此外,SCARF结合了实际考虑因素,如响应一致性,为研究人员和行业专业人士提供了一个可扩展和可适应的解决方案,用于评估RAG应用程序。通过使用REST APIs接口,我们展示了SCARF如何应用于实际场景,展示了其在评估不同RAG框架和配置方面的灵活性。SCARF可在GitHub仓库中获取。
发布时间: 4/11/2025
查看原文
作者: Chandan Kumar Sah, Xiaoli Lian, Tony Xu, Li Zhang
arXiv:2504.07801v1 类型: cross 摘要: 近期大规模语言模型(LLMs)的发展使其能够应用于推荐系统(RecLLMs),但人们仍对这些模型在人口统计和心理用户维度上的公平性存有担忧。我们引入了FairEval,一个全新的评估框架,用于系统地评估基于LLM的推荐系统的公平性。FairEval将个性特征与八个人口统计敏感属性相结合,包括性别、种族和年龄,从而能够全面评估用户层面的偏差。我们对ChatGPT 4o和Gemini 1.5 Flash等模型在音乐和电影推荐上的表现进行了评估。FairEval的公平性指标PAFS在ChatGPT 4o上的得分为0.9969,在Gemini 1.5 Flash上的得分为0.9997,偏差达到了34.79个百分点。这些结果强调了提示敏感性鲁棒性的重要性,并支持更具包容性的推荐系统。
发布时间: 4/11/2025
查看原文
作者: Kaidi Wang, Wenhao Guan, Shenghui Lu, Jianglong Yao, Lin Li, Qingyang Hong
arXiv:2504.07776v1 Announce Type: cross 摘要:最近,基于流匹配的语音合成在显著提高合成语音质量的同时,减少了推理步骤的数量。在本文中,我们介绍了SlimSpeech,一种基于修正流的轻量化且高效的语音合成系统。我们在此前利用修正流模型的语音合成方法基础上,对其结构进行了修改,减少了参数数量,并将其作为教师模型。通过改进重构流程操作,我们直接从较大模型中派生出一个更小且具有更直接采样轨迹的模型,同时利用蒸馏技术进一步提升模型性能。实验结果表明,我们提出的方法,在显著减少模型参数的情况下,通过单步采样实现了与大型模型相当的性能。
发布时间: 4/11/2025
查看原文
arXiv:2504.07763v1 交叉主题公告类型: 摘要:近年来,越来越多的人工智能(AI)和医学领域的专家开始建议,人工智能系统的使用,特别是机器学习(ML)系统的使用,可能会通过显著提高医生-患者关系的质量来人性化医学实践。然而,在本文中,我的观点是,医疗机器学习系统更有可能负面地影响这些关系,而不是改善它们。特别地,我认为医疗机器学习系统的使用很可能损害医生和患者之间信任、关怀、同理心、理解以及沟通的质量。
发布时间: 4/11/2025
查看原文