arXiv:2504.20726v1 类型: cross
摘要:公共漏洞数据库,如国家漏洞数据库 (NVD),记录漏洞并促进威胁信息共享。然而,它们往往遭受简短描述和过时或不足信息的问题。在本文中,我们介绍了 Zad,这是一个系统,通过利用外部资源来丰富 NVD 漏洞描述。Zad 包含两个管道:一个使用两个编码器收集和筛选补充数据,构建详细的数据库集;另一个在该数据集上微调预训练模型以生成丰富的描述。通过解决简短问题并提高内容质量,Zad 产生了更加全面和一致的漏洞描述。我们使用标准摘要指标和人工评估来评估 Zad,证明其在增强漏洞信息方面具有有效性。
arXiv:2504.20708v1 类型: cross
摘要:大型语言模型(LLMs)利用逐步推理来解决复杂问题。标准评估实践涉及生成完整的推理痕迹,并评估最终答案的正确性。在本文中,我们挑战依赖最终答案的问题,提出了以下两个问题:最终答案是否可靠地代表了模型的最佳结论?是否存在不同的推理路径能产生不同的结果?为了回答这些问题,我们分析了中间推理步骤,称之为子思考,并提出了基于我们发现的方法。我们的方法涉及根据语言线索将推理痕迹分割成序列化的子思考。我们首先提示模型从每个中间子思考的终点生成续写。我们从每个起始不同子思考的完成续写中提取潜在答案。我们发现,通过选择频率最高的答案(众数)来聚合这些答案,通常比仅依赖原始完整痕迹中得出的答案具有显著更高的准确性。分析从不同子思考中得出的答案的一致性揭示了与模型的信心和正确性相关的特征,这表明可以识别出不可靠的答案。我们在各种LLMs和具有挑战性的数学推理数据集中(AIME2024和AIME2025)的实验表明,一致性准确率改进是始终存在的,分别达到13%和10%。实现细节可在以下链接获取:https://github.com/hammoudhasan/SubthoughtReasoner。
arXiv:2504.20699v1 Announce Type: 交叉
摘要:LLM中经常会遇到一个问题,那就是它们倾向于生成没有意义、不合逻辑或事实错误的输出,这种现象通常被广泛地称为幻觉。基于最近提出的用于幻觉检测和生成的HalluciGen任务,我们评估了一系列开源LLM在两种条件生成任务(翻译和改写)上检测内在幻觉的能力。我们研究了模型性能在不同任务和语言中的差异,并探讨了模型规模、指令调优和提示选择的影响。我们发现,模型性能在不同模型之间有所不同,但在不同提示下却是一致的。最后,我们发现NLI模型表现相当不错,这表明基于LLM的检测器并非处理此特定任务的唯一可行选择。
arXiv:2504.20673v1 Announce Type: cross
摘要:大型语言模型(LLMs)在软件工程中发挥着重要作用,擅长代码生成和维护等任务。然而,现有的基准测试往往局限于特定任务,缺乏能够反映真实世界应用的全面评价框架。为了解决这些问题,我们引入了CoCo-Bench(全面代码基准),旨在从四个关键维度评估LLMs:代码理解、代码生成、代码修改和代码审查。这些维度涵盖了开发者的重要需求,确保了更系统的和具代表性的评估。CoCo-Bench包含了多种编程语言和不同难度的任务,通过严格的手动审查确保数据质量和准确性。实证结果表明,CoCo-Bench与现有基准测试相一致,但揭示了模型性能的显著差异,有效地突显了优缺点。通过提供全面和客观的评估,CoCo-Bench为代码导向的LLMs提供了有价值的指导,有助于未来的研究和技术进步,并为该领域建立了可靠基准。
arXiv:2504.20669v1 Announce Type: cross
摘要:最近基于AI的多媒体生成技术的进步使得创建超逼真的图像和视频成为可能,引发了对其在传播虚假信息方面的潜在用途的担忧。由于生成技术的广泛应用,这些技术允许从提示或现有媒体生成虚假多媒体,并且它们连续优化,突显了迫切需要高度准确且普适的AI生成媒体检测方法,尤其是在新的法规如欧洲数字AI法案出台后。在本文中,我们从基于Vision Transformer (ViT)的虚假图片检测中汲取灵感,并将这一理念扩展到视频领域。我们提出了一种新颖的框架,该框架有效地在时间上融合了ViT嵌入,以提高检测性能。我们的方法在使用五个最先进的开源生成技术生成的新、大且多样的视频数据集以及包含由专有生成方法生成的视频的单独数据集上展示了有希望的准确率、泛化能力和少量样本学习能力。
arXiv:2504.20658v1 声称类型: cross
摘要:人工智能生成的合成媒体在实际应用场景中越来越普遍,通常通过社交媒体平台传播虚假信息和宣传,其中压缩和其他处理可能会降低假信息的检测线索。目前,许多取证工具未能应对这些现实世界中的挑战。在这项工作中,我们引入了TrueFake,这是一个包含600,000张图片的大型基准数据集,这些图片采用了顶级生成技术,并通过三个不同的社交网络进行分享。该数据集在非常现实和具有挑战性的条件下,允许对最先进的假图像检测器进行严格的评估。通过大量的实验,我们分析了社交媒体分享如何影响检测性能,并确定了当前最有效的检测和训练策略。我们的发现突显了在模拟实际使用条件下来评估取证模型的必要性。
arXiv:2504.20656v1 交叉公告类型:cross
摘要:联邦学习(FL)是一种机器学习方法,允许多个设备或机构在无需与第三方共享其本地数据的情况下协作训练模型。FL 被认为是解决医疗人工智能中患者隐私问题的一种有前途的方法。然而,医疗 FL 系统本身所蕴含的道德风险迄今尚未受到充分审视。本文旨在弥补这一缺口。我们 argument 认为,医疗 FL 提供了一种新的不透明性形式——联盟不透明性——进而引发了健康 care AI 中独特的双重黑箱问题。我们强调了几种可能夸大医疗 FL 预期利益的情况,并最终强调了必须克服的关键挑战,以使 FL 在医学中成为道德可行的选择。
arXiv:2504.20648v1 交叉类型:视觉-语言模型
摘要:视觉-语言模型(VLMs)在从图像字幕到视觉问答(VQA)的各种任务中表现出色,但在空间推理方面却遇到困难,而空间推理是人类在理解物理世界时极为擅长的一项关键技能。我们发现,在广泛使用的VL数据集中,空间关系通常很少,只有少数关系被很好地表示,而大多数则形成一个未被充分代表的关系长尾。这种差距使VLMs难以处理多样化的空间关系。为了弥合这一差距,我们构建了一个基于局部叙述、DOCCI和PixMo-Cap中的超详细图像描述生成的合成VQA数据集,专注于空间推理。该数据集包含455,000个样本,共计340万个问答对。在该数据集上训练后,我们的增强空间推理(SpaRE)VLMs在空间推理基准测试中表现出显著改进,已在What's Up基准测试上取得了高达49%的性能提升,同时在一般任务上仍保持高水平表现。我们的工作缩小了人类和VLM在空间推理方面的差距,并使VLMs在诸如机器人技术和导航等实际任务中更具能力。
arXiv:2504.20643v1 Announce Type: cross
摘要:大规模语言模型(LLMs)在无数任务上表现出色,但在创造力方面却存在不足。本文介绍了一种新颖的方法,将LLMs与结构化表示和认知启发式的操作相结合,以生成更具创意和多样性的想法。我们对于创造力的理解超越了表面的令牌级变化;相反,我们明确地重新组合现有想法的结构表示,从而使我们的算法能够更有效地探索想法的更抽象领域。我们通过DishCOVER模型在烹饪领域展示了这种方法,该模型生成了具有创意的食谱。实验结果表明,与GPT-4o的对比结果中,我们的模型更具多样性。领域专家的评估显示,我们的输出大多是连贯且可行的烹饪创造,这在新颖性方面远远超过了GPT-4o,因此在创意生成方面优于它。我们希望我们的工作能够激发对AI中结构创造力进一步研究的灵感。
arXiv:2504.20634v1 分类:交叉学科
摘要:大规模数值计算越来越多地使用低精度(LP)浮点格式和混合精度算术,可以通过随机舍入(SR)技术加以增强,即根据值与两个舍入候选值之间的距离,随机向上或向下舍入中间的高精度值。随机舍入除了需要高精度输入值外,还需要随机位的来源。由于提供高质量的随机位会增加额外的计算成本,因此,在保持给定计算或计算领域中SR的 desirable 属性的同时,需要尽可能减少所需的位数是一个有趣的问题。本文探讨了几种可能的少量位随机舍入(FBSR)的实现,并展示了几种自然实现有时会引入显著的偏差,而在无限位、无限精度的实现检查中,这些偏差并不存在。本文研究了这些偏差对机器学习示例的影响,从而为开发或采用低精度浮点数的实践者打开了另一类配置参数。代码可在 http://github.com/graphcore-research/arith25-stochastic-rounding 获取。