arXiv 论文列表

作者: Shuai Gong, Tiange Zhou

arXiv:2505.04785v1 类型:交叉摘要:唐朝(618-907年)和宋朝(960-1279年)见证了中国文化表达的非凡繁荣,其中花卉图案成为了抒发诗意和艺术设计的动态媒介。尽管以往的研究独立考察了这些领域,但文学情感的变化与视觉文化的系统关联尚未充分探讨。本研究通过采用基于BERT的情绪分析方法量化唐宋诗歌中花卉意象中的情感模式,然后将这些模式与当时装饰艺术的发展进行验证。我们的方法建立在计算人文领域的最新进展之上,同时仍然扎根于传统的汉学方法。通过应用微调后的BERT模型分析古典诗歌中的牡丹和梅花意象,我们检测到了唐宋时期情感内涵的可量化变化。这些文本模式随后与纺织品、陶瓷和其他物质文化的视觉证据进行了交叉验证,揭示了文学表达与艺术表现之间的未被认识的协同作用。

发布时间: 5/9/2025

查看原文

基于大型语言模型评估聊天机器人的操作风险提案

作者: Pedro Pinacho-Davidson, Fernando Gutierrez, Pablo Zapata, Rodolfo Vergara, Pablo Aqueveque

arXiv:2505.04784v1 安全公告类型：交叉摘要：生成式人工智能（Gen AI）和大型语言模型（LLMs）的出现使更高级的聊天机器人能够实现类似于人类的交互。然而，这些对话代理引入了一整套操作风险，这些风险延伸到传统的网络安全考量之外。在这项工作中，我们提出了一种新颖的、经度量化的风险评估指标，该指标同时评估对三个关键利益相关者的潜在威胁：服务提供组织、最终用户和第三方。我们的方法考虑了在诱导聊天机器人错误行为所需的的技术复杂性——从未诱导的失败到高级提示注入攻击——以及目标行业、用户年龄范围和漏洞严重性等上下文因素。为了验证我们的指标，我们利用Garak（一个开源的大语言模型漏洞测试框架）来进行测试。进一步增强了Garak以捕捉各种威胁向量（例如，错误信息、代码生成错误、社会工程和恶意代码生成）。我们的方法在涉及使用检索增强生成（RAG）的聊天机器人的情景中进行了展示，展示了聚合的风险评分如何指导短期缓解和更长期的模型设计和部署改进。结果强调了实现安全可靠的AI驱动对话系统的多维度风险评估的重要性。

发布时间: 5/9/2025

查看原文

探索使用ChatGPT进行零样本应用-review分类：挑战与潜力

作者: Mohit Chaudhary, Chirag Jain, Preethu Rose Anish

arXiv:2505.04759v1 交叉公告类型摘要：应用评论是用户反馈的关键来源，提供了有关应用性能、功能、易用性和整体用户体验的重要见解。有效地分析这些评论对于指导应用开发、优先考虑功能更新以及提高用户满意度至关重要。将评论分类为功能性需求和非功能性需求在区分与特定应用功能相关的反馈（功能性需求）和与更广泛的质量属性（如性能、易用性和可靠性）有关的反馈方面发挥着关键作用。两类需求对于做出知情的开发决策至关重要。传统上，对应用评论进行分类的方法受限于需要构建大型、领域特定的数据集，这通常成本高昂且耗时。本研究探讨了使用ChatGPT进行零样本学习以将应用评论分类为功能性需求、非功能性需求、两类或非类的可能性。我们使用包含1,880个手动标注评论的基准数据集进行评估，这些评论来自十个涵盖多个领域的不同应用。我们的研究结果表明，尽管存在某些挑战和局限性，ChatGPT在评论分类上的F1分数达到了0.842。此外，我们还研究了评论可读性和长度等因素对分类准确性的影响，并进行手动分析以识别更容易被分类错误的评论类别。

发布时间: 5/9/2025

查看原文

当不良数据导致优质模型

作者: Kenneth Li, Yida Chen, Fernanda Vi\'egas, Martin Wattenberg

arXiv:2505.04741v1 交叉类型：cross 摘要：在大规模语言模型（LLM）预训练中，数据质量被认为决定了模型质量。在本文中，我们从预训练和后训练协同设计的角度重新审视了“质量”的概念。具体而言，我们探索了在更多有毒数据上进行预训练是否能够导致在后训练中获得更好的控制，最终降低模型的输出毒性。首先，我们使用一个玩具实验研究数据组成如何影响表示空间中特征的几何形状。然后，通过使用不同比例的清洁和有毒数据训练的Olmo-1B模型进行可控实验，我们发现随着有毒数据的比例增加，毒性概念在表示中的线性表示变得不那么交织在一起。此外，我们展示了尽管有毒数据增加了基础模型的生成毒性，但它也使得毒性更容易去除。在应用推理时干预（ITI）等去毒技术时，Toxigen和真实毒性和提示的评估表明，使用有毒数据训练的模型在降低生成毒性与保持通用能力之间实现了更好的权衡。我们的研究发现，考虑到后训练的因素，糟糕的数据可能会导致优秀的模型。

发布时间: 5/9/2025

查看原文

QBD- RankedDataGen: 生成定制排序数据集以提高基于文档的查询搜索性能，使用LLM重排序并减少人工努力

作者: Sriram Gopalakrishnan, Sunandita Patra

arXiv:2505.04732v1 交叉类型：信息检索摘要：Query-By-Document (QBD) 问题是一种信息检索问题，其中查询是一个文档，检索到的候选文档是与查询文档匹配的文档，通常是在特定领域或查询范围内匹配。这在专利匹配、法律或合规案例检索、以及学术文献审查等任务中至关重要。现有的检索方法，包括关键词搜索和文档嵌入，可以通过使用特定领域的数据集进行优化，以提高QBD搜索性能。然而，创建这些特定领域的数据集往往成本高昂且耗时。我们的工作介绍了一个生成定制QBD搜索数据集的过程，并对比了几种在该问题中使用的的方法，我们将这种方法称为QBD-RankedDatagen。我们从成本、速度和与领域专家的人机交互方面对比了我们提出的方法。我们比较的方法利用了大型语言模型（LLMs），这些模型可以结合领域专家的输入来生成文档评分和排名，以及供人工审查的解释。我们提出的过程及其方法可以显著减少为定制领域创建数据集所需的人力，同时仍然能够获得足够的专家知识以调优检索模型。我们对来自Text Retrieval Conference (TREC) 的QBD数据集进行了方法评估，并使用生成的数据对BM25模型进行了微调——BM25模型在许多工业级搜索引擎如OpenSearch中被广泛应用。

发布时间: 5/9/2025

查看原文

矩阵李群上未知系统几何容错神经网络跟踪控制

作者: Robin Chhabra, Farzaneh Abdollahi

arXiv:2505.04725v1 宣告类型: cross 摘要: 我们提出了一种基于几何神经网络的跟踪控制器，用于在未知动力学、执行器故障和有界干扰下在矩阵李群上演化系统的跟踪控制。通过将矩阵李群视为嵌入在向量空间 $\mathbb{R}^{N \times N}$ 中的子流形，利用矩阵李群的左不变切丛的几何不变性，我们提出了一套与李群结构内嵌兼容的神经网络权重学习规则，不需要显式的参数化。利用李群的几何性质，这一方法绕过了参数化奇点，并能够进行全局最优权重搜索。通过李雅普诺夫直接方法，证明了所有误差信号（包括神经网络权重、无坐标配置误差函数以及跟踪速度误差）的最终有界性。为验证所提出方法的有效性，我们提供了在特殊欧几里得群上多Agent系统的去中心化形成控制的示例性仿真结果。

发布时间: 5/9/2025

查看原文

先进的深度学习方法用于楔形符号的自动识别

作者: Shahad Elshehaby, Alavikunhu Panthakkan, Hussain Al-Ahmad, Mina Al-Saad

arXiv:2505.04678v1 Announce Type: cross 摘要：本文介绍了一种通过高级深学习算法来识别和解释楔形文字的完全自动方法。研究人员在全面的楔形文字字符数据集上对五种不同的深度学习模型进行了训练，并根据关键性能指标（包括准确性和精确度）进行了评估。两种模型表现突出，并被用于评估烧伤法规获取的楔形文字符号，特别是《烧伤法规》1号。每个模型有效地识别了这些符号的相关阿卡德语意义，并提供了精准的英文翻译。未来的工作将研究集成和堆叠方法以优化性能，并利用混合架构来提高检测准确性与可靠性。本文探讨了阿卡德语（一种古代美索不达米亚语言）与阿拉伯语之间的语言关系，强调了它们历史和文化的联系。这项研究展示了通过将计算语言学与考古学结合来破解古代文字的能力，从而为理解和保护人类历史提供了重要洞见。

发布时间: 5/9/2025

查看原文

Proceedings 第13届定理证明组件教育软件研讨会

arXiv:2505.04677v1 交叉类型：摘要：ThEdu 系列旨在实现从中学阶段直观的数学方法到 STEM 教育中更正式的方法的顺利过渡，同时通过利用定理证明技术的力量来支持这一过渡。以下是对本 volumes 如何为这一事业做出贡献的简要说明。第 13 届定理证明组件用于教育软件国际研讨会（ThEdu'24）是 CADE29 的卫星活动，也是 IJCAR 2024 的一部分，在法国南锡举行。ThEdu'24 是一个充满活力的工作坊，邀请了卡内基梅隆大学的 Jeremy Avigad 作了一场邀请报告，还有 14 场提交的演讲。随后，发出了一份征文申请，并吸引了 9 篇提交。其中 8 篇提交已被我们的评审者接受。最终修改后的论文集成了本 volumes。本 volumes 中的贡献是 ThEdu 范围的忠实代表，从更专注于自动推理研究的贡献，不会忽视其在教育环境中的应用潜力，到更专注于自动推理工具和方法在教育环境中的应用的贡献。作为 volumes 的编辑，我们希望这本论文集将进一步促进基于定理证明的软件的发展，并有助于提高计算机科学家、数学家和教育利益相关者之间的相互理解。尽管本 volumes 正在印刷中，下一届 ThEdu 工作坊的筹备工作正在进行中：ThEdu'25 将成为第 30 届国际自动推理大会（CADE-30）的卫星活动，将于 2025 年 7 月 28 日至 8 月 2 日在德国斯图加特举行。

发布时间: 5/9/2025

查看原文

REVEAL: 多轮评估图像输入危害对于视觉LLM

作者: Madhur Jindal, Saurabh Deshpande

arXiv:2505.04673v1 安全类型: 交叉摘要：视觉大型语言模型（VLLMs）通过将图像处理能力与文本理解相结合，显著推动了人工智能的发展，从而增强了用户体验并扩展了应用领域。然而，它们的复杂性增加引入了新的安全和伦理挑战，尤其是在多模态和多轮对话中。传统的安全评估框架，旨在处理基于文本的单轮交互，对于解决这些复杂性是不够的。为了弥合这一差距，我们提出了REVEAL（Responsible Evaluation of Vision-Enabled AI LLMs，负责任的视觉增强AI大语言模型评估）框架，这是一个可扩展且自动化的评估管道，用于评估VLLMs中的图像输入危害。REVEAL 包括自动图像挖掘、合成对抗数据生成、使用 Crescendo 攻击策略的多轮对话扩展以及通过如GPT-4o的评估者进行全面的危害评估。我们全面评估了五种最先进的VLLMs，包括GPT-4o、Llama-3.2、Qwen2-VL、Phi3.5V和Pixtral，涉及三个重要的危害类别：性危害、暴力和虚假信息。我们的研究发现，多轮交互导致的缺陷率明显高于单轮评估，突显了VLLMs中的更深漏洞。值得注意的是，GPT-4o 在我们安全-可用性指数（SUI）中表现出最平衡的性能，紧随其后的是Pixtral。此外，虚假信息被识别为需要加强上下文防御的关键领域。Llama-3.2 展现出最高的多轮缺陷率（16.55%），而Qwen2-VL 则显示了最高的多轮拒绝率（19.1%）。

发布时间: 5/9/2025

查看原文

大规模语言模型在数字广告中的个性化风险与监管策略

作者: Haoyang Feng, Yanjun Dai, Yuan Gao

arXiv:2505.04665v1 交叉公告类型摘要：尽管大型语言模型在实验环境中已经展示了个性化广告推荐的潜力，但在实际操作中，如何将广告推荐系统与用户隐私保护和数据安全措施相结合仍然值得深入探讨。为此，本文研究了大型语言模型在数字广告中的个性化风险和监管策略。本研究首先概述了大型语言模型（LLM）的基本原理，特别是基于Transformer架构的自注意力机制及其如何使模型理解和生成自然语言文本的方法。然后，将BERT（双向Transformer编码表示）模型和注意力机制结合，构建了一个个性化广告推荐和用户因素风险保护的算法模型。具体步骤包括：数据收集和预处理、特征选择和构建、使用BERT等大型语言模型进行广告语义嵌入，以及基于用户画像的广告推荐。然后，通过局部模型训练和数据加密来确保用户隐私的安全并避免个人数据泄露。本文设计了一个基于BERT大型语言模型的个性化广告推荐实验，并通过实际用户数据进行了验证。实验结果表明，基于BERT的广告推送可以有效提高广告的点击率和转化率。同时，通过局部模型训练和隐私保护机制，用户隐私泄露的风险可以降到一定程度。

发布时间: 5/9/2025

查看原文