arXiv 论文列表

SemEval-2025 任务 5: LLMs4Subjects —— 基于大语言模型的国家技术图书馆开放访问目录自动主题标记

作者: Jennifer D'Souza, Sameer Sadruddin, Holger Israel, Mathias Begoin, Diana Slawig

arXiv:2504.07199v1 交叉类型：通告摘要：我们介绍了SemEval-2025 任务5：LLMs4Subjects，这是一个使用GND分类法为英语和德语的科学和技术记录自动标记主题的共享任务。参与者开发了基于LLM的系统来推荐前k个主题，并通过定量化指标（精确率、召回率、F1分数）和主题专家的定性评估进行了评估。结果突出了LLM集成、合成数据生成和多语言处理的有效性，为在数字图书馆分类中应用LLM提供了见解。

发布时间: 4/11/2025

查看原文

Face-LLaVA：通过指令调优理解面部表情和属性

作者: Ashutosh Chaubey, Xulang Guan, Mohammad Soleymani

arXiv:2504.07198v1 类别: 交叉学科摘要：人类面部在社交通信中发挥着中心作用，因此需要使用性能优良的计算机视觉工具以应用于以人类为中心的应用。我们提出了一种名为Face-LLaVA的多模态大语言模型，它包括面部表情和属性识别，并进行情境下的学习。此外，Face-LLaVA能够生成自然语言描述，这些描述可用于推理。借助现有的视觉数据库，我们首先开发了FaceInstruct-1M，这是一个以面部为中心的数据库，旨在针对面部处理对MLLM进行指令调优。然后，我们开发了一种由面部区域引导的交叉注意驱动的新型面部专用视觉编码器，该编码器将面部几何结构整合进局部视觉特征中。我们跨九个不同数据集和五种不同的面部处理任务评估了所提出的方法，包括面部表情识别、行为单元检测、面部属性检测、年龄估计和换脸检测。Face-LLaVA在跨任务上优于现有开源的MLLM并具备与商业解决方案相竞争的性能。在零样本设置下，我们的模型输出也收到了GPT更高的推理评分。我们的数据集和模型将在https://face-llava.github.io发布，以支持未来在社交AI和基础视觉-语言研究方面的进步。

发布时间: 4/11/2025

查看原文

HypoEval：基于假设的自然语言生成评估

作者: Mingxuan Li, Hanchen Li, Chenhao Tan

arXiv:2504.07174v1 评价类型: 横跨研究摘要：大型语言模型（LLMs）在自动评估自然语言生成方面展现出了巨大的潜力。以往的LLM作为评判者框架存在两大不足：它们要么在不咨询人类输入的情况下采用零样本设置，从而导致对齐程度较低，要么通过标注数据微调LLM，但需要大量的样本数量。此外，以往的方法往往很少为自动评估提供合理的解释。在本文中，我们提出了HypoEval，一种假设导向的评估框架。该框架首先使用小规模的人类评估数据集来生成更详细的评判标准，然后结合LLM在每个分解维度上分配的分数，采用类似于检查表的方法来获取综合得分。仅使用30个人类评估，HypoEval在人类排名（斯皮尔曼相关性）和人类评分（皮尔逊相关性）方面都达到了最先进的性能，在平均情况下，HypoEval的性能比G-Eval高出11.86%，比至少用了三倍人类评估量微调的Llama-3.1-8B-Instruct高出11.95%。此外，我们还进行了系统性的研究来评估HypoEval的稳健性，突显了其作为可靠且可解释的自动评估框架的有效性。

发布时间: 4/11/2025

查看原文

可信的人工智能必须考虑交叉性

作者: Jesse C. Cresswell

arXiv:2504.07170v1 类型: cross 摘要：可信的人工智能涵盖了与人类价值观对齐的许多雄心勃勃的方面，包括公平性、隐私性、稳健性、可解释性和不确定性量化。然而，提高一个方面往往会导致对其他方面的意外权衡，从而使同时提高所有方面变得具有挑战性。在本文的观点声明中，我们回顾了这五个方面的相关方法，并系统地考虑了每一对，详细描述了可能产生的负面相互作用。例如，将差分隐私应用于模型训练可能会加剧数据中的偏差，从而损害公平性。基于这些发现，我们认为仅仅在每个方面孤立地解决可信性是不够的。相反，可信的人工智能的研究必须考虑到各方面之间的交叉性，并在同一时间从所有相关方面采取整体视角。为了阐明我们的观点，我们提供了研究人员如何实现集成可信性的指导、金融行业中交叉性应用的一个案例研究，以及我们观点的替代视角。

发布时间: 4/11/2025

查看原文

PLM-eXplain：分而治之的蛋白质嵌入空间分析

作者: Jan van Eck, Dea Gogishvili, Wilson Silva, Sanne Abeln

arXiv:2504.07156v1 交叉公告类型摘要：蛋白质语言模型（PLMs）通过其生成多样预测任务的强大序列表示的能力，彻底变革了计算生物学。然而，它们的黑箱性质限制了生物解释和转化为可操作的洞察。我们提出了一个可解释的适配器层——PLM-eXplain（PLM-X），该层通过将PLM嵌入分解为两个组成部分来填补这一差距：基于已建立的生物化学特征的可解释子空间和保持模型预测能力的残留子空间。使用ESM2的嵌入，我们的适配器集成了已广泛认可的性质，包括二级结构和疏水性，同时保持了高性能。我们在三个蛋白质级别分类任务中展示了我们方法的有效性：细胞外囊泡关联的预测、跨膜螺旋的识别以及聚集倾向的预测。PLM-X在不牺牲准确性的情况下，使模型决策具有生物解释性，提供了一种在各种下游应用中增强PLM解释性的通用解决方案。本文通过提供一种连接强大深度学习模型与可操作生物洞察的桥梁，解决了计算生物学中的一项关键需求。

发布时间: 4/11/2025

查看原文

基于生成对抗网络的Secure Text Mail Encryption

作者: Alexej Schelle

arXiv:2504.07140v1 通知类型: 交叉摘要：本文提出了一种基于生成对抗网络（GANs）的加密模型。通过动态生成导致字母字符串在整数表示下进行加密和解密的十进制数，实现在RTF-8数据上的加密。这种方式通过简单的加法规则和所考虑字母维度的模操作实现。私有动态密钥的二进制数与由特定GAN配置定义的公共参考密钥的二进制数之间存在关联。通过GAN加密器以随机组合的NOT逻辑门作用于传输文本信号的位级子组件的方式，在双向映射（动态密钥和参考密钥之间的双射映射）下，可以在发送方和接收方之间传递加密后的文本和加密的公共密钥，从而实现安全的文本加密。利用上述技术，可以实现分组件加密的文本邮件在总密钥大小最多为$10^8$位的情况下，通过GAN加密的公共密钥传输安全文本邮件。基于当前模型，我们断言，只要特定配置的GAN加密模型用户不了解GAN加密电路，加密后的文本可以通过这种方式比RSA加密更高效且更安全地传输。

发布时间: 4/11/2025

查看原文

大型语言模型（LLM）在软件安全中的应用：代码分析、恶意软件分析、逆向工程

作者: Hamed Jelodar, Samita Bai, Parisa Hamedi, Hesamodin Mohammadian, Roozbeh Razavi-Far, Ali Ghorbani

arXiv:2504.07137v1 类别: cross 摘要: 大型语言模型（LLMs）最近在网络安全领域崭露头角，提供了在恶意软件检测、生成和实时监控方面的强大能力。众多研究探索了其在网络安全中的应用，展示了其在识别新型恶意软件变体、分析恶意代码结构以及增强自动化威胁分析方面的效果。基于转换器的架构和LLM驱动模型已被提出以改进恶意软件分析，利用语义和结构洞察以更准确地识别恶意意图。本文综述了基于LLM的恶意软件代码分析方法，总结了最近的进展、趋势和方法。我们审视了重要的学术作品以绘制研究景观，识别关键挑战，并突出显示LLM驱动的网络安全中出现的新创新。此外，我们强调了静态分析在恶意软件检测中的作用，介绍了重要的数据集和专门的LLM模型，并讨论了支持自动恶意软件研究的关键数据集。本研究为研究人员和网络安全专业人员提供了有价值的资源，提供了LLM驱动的恶意软件检测和防御策略的见解，并指出了增强网络安全韧性未来方向。

发布时间: 4/11/2025

查看原文

神圣的还是世俗的？AI生成财务建议中的宗教偏见

作者: Muhammad Salar Khan, Hamza Umer

arXiv:2504.07118v1 宣告类型: cross 摘要：本研究探讨了AI生成的财务建议中的宗教偏见，重点关注ChatGPT对财务查询的回应。利用基于提示的方法和内容分析，我们发现50%的由ChatGPT生成的金融电子邮件表现出宗教偏见，其中内群体互动和外群体互动都存在明确的偏见。内群体偏见会根据宗教一致性个性化回应，而外群体偏见则引入了宗教框架，可能导致客户疏远或产生意识形态摩擦。这些发现与更广泛的人工智能偏见研究相符，表明ChatGPT不仅仅反映了社会偏见，而且根据感知到的宗教身份积极塑造财务话语。利用关键算法研究框架，我们argue认为ChatGPT作为财务叙事的中介，选择性地强化了宗教观点。本研究强调了需要更大的透明度、偏见缓解策略和监管监督，以确保人工智能驱动的金融服务中的中立性。

发布时间: 4/11/2025

查看原文

RP-SAM2： refining point prompts for stable surgical instrument segmentation

作者: Nuren Zhaksylyk, Ibrahim Almakky, Jay Paranjape, S. Swaroop Vedula, Shameema Sikder, Vishal M. Patel, Mohammad Yaqub

arXiv:2504.07117v1 Announce Type: cross 摘要：在白内障手术中，准确的手术器械分割对于技能评估和工作流程优化等任务至关重要。然而，有限的标注数据使得开发完全自动的模型变得困难。类似于SAM2的提示方法虽然具有灵活性，但仍然对点提示的位置非常敏感，常常导致不一致的分割结果。为了解决这个问题，我们引入了RP-SAM2，它结合了一个新颖的移动块和复合损失函数，以稳定点提示。我们的方法减少了标注人员对精确点定位的依赖，同时保持了稳健的分割能力。在Cataract1k数据集上的实验表明，RP-SAM2提高了分割准确性，mDSC提高了2%，mHD95减少了21.36%，并且在随机单点提示结果中降低了偏差，相较于SAM2。此外，在CaDIS数据集上，RP-SAM2生成的伪掩码用于微调SAM2的掩码解码器，其表现优于SAM2生成的伪掩码。这些结果突显了RP-SAM2在数据受限的医学环境中半自动器械分割问题中具有实用、稳定和可靠的解决方案。代码可在 https://github.com/BioMedIA-MBZUAI/RP-SAM2 获取。

发布时间: 4/11/2025

查看原文

ChatBench: 从静态基准到人类-AI评估

作者: Serina Chang, Ashton Anderson, Jake M. Hofman

arXiv:2504.07114v1 交叉类型：公告摘要：随着基于LLM的聊天机器人的迅速采用，评估人类和LLM共同所能达到的效果迫在眉睫。然而，现有的标准基准，如MMLU，只是单独评估LLM的能力（即，“AI独立”）。在这里，我们设计并开展了一项用户研究，将MMLU的问题转化为用户-AI对话，通过将问题提供给用户，并让他们与LLM进行对话以回答问题。我们发布了ChatBench，这是一个新的数据集，包含396个问题和两种LLM的AI独立、用户独立和用户-AI数据，包括144,000个答案和7,336个用户-AI对话。我们发现，AI独立的准确性无法预测用户-AI的准确性，在多个学科（数学、物理和道德推理）之间存在显著差异，并且我们分析了用户-AI对话，以提供它们与AI独立基准如何不同的见解。最后，我们展示了在ChatBench的一部分上 fine-tune 用户模拟器可以提高其估计用户-LLM准确性的能力，在保留问题上的相关性提高了超过20个点，为扩展交互评估提供了可能。

发布时间: 4/11/2025

查看原文