arXiv:2504.15707v1 类别: 综合
摘要: 由于数据注释成本很高,基准数据集往往会包含已建立的图像数据集中的标签。在本文中,我们评估了MSCOCO中的标签错误对常用对象幻视基准POPE的影响。我们重新注释了基准图像,并发现在不同子集中的注释错误存在不平衡。在我们所称的RePOPE修订标签上评估多个模型后,我们观察到模型排名显著变化,突显了标签质量的影响。有关代码和数据可在https://github.com/YanNeu/RePOPE获得。
arXiv:2504.15663v1 交叉公告类型:cross
摘要:近期,由于语音合成和声音转换技术的进步,虚假音频检测得到了广泛关注,这增加了自动说话人验证(ASV)系统受到欺骗攻击的脆弱性。这项任务中的一个关键挑战是将模型泛化以检测未见过的、不在分布(OOD)的攻击。尽管现有方法已经取得了令人鼓舞的结果,但由于使用了softmax进行分类,它们不可避免地存在过度自信问题,这会导致在遇到不可预测的欺骗尝试时产生不可靠的预测。为了应对这一局限性,我们提出了一种新颖的框架,称为基于证据学习的虚假音频检测(FADEL)。通过使用Dirichlet分布建模类概率,FADEL将模型不确定性纳入其预测中,从而在OOD场景下获得更稳健的表现。在ASVspoof2019逻辑访问(LA)和ASVspoof2021 LA数据集上的实验结果显示,所提出的方法显著提高了基线模型的性能。此外,我们通过分析不同欺骗算法的平均不确定性与同等错误率(EER)之间的强相关性,展示了不确定性估计的有效性。
arXiv:2504.15659v1 宣告类型: cross
摘要: 最近大型语言模型(Large Language Models, LLMs)的进步引发了将其应用于电子设计自动化(EDA)任务的兴趣,特别是寄存器传输级(RTL)代码生成。虽然已引入了多个RTL数据集,但大多数侧重于句法有效性而非功能验证,导致训练示例能够编译但可能不会实现预期行为。我们提出了VeriCoder,一种针对验证功能正确的数据集进行微调的RTL代码生成模型。该微调数据集使用新颖的方法构建,结合了单元测试生成和反馈导向的改进。给定自然语言规范和初始RTL设计,我们提示教师模型(GPT-4o-mini)生成单元测试,并根据生成的测试及其仿真结果迭代修订RTL设计。如有必要,教师模型也会更新测试,以确保其符合自然语言规范。这一过程中,我们数据集中的每一个示例都经过了功能验证,包含自然语言描述、RTL实现和通过的测试。在超过125,000个示例的这个数据集上微调后,VeriCoder在VerilogEval和RTLLM上的功能正确性指标达到了最新标准,相对改进幅度分别为71.7%和27.4%。进一步的消融研究显示,基于我们功能验证的数据集训练的模型优于基于非功能验证数据集训练的模型,突显了高质量数据集在RTL代码生成中的重要性。
arXiv:2504.15654v1 类型: cross
摘要:本文介绍了一种新型AI视觉得儿科假肢手,旨在帮助10-12岁上肢功能障碍儿童。该假肢具有类人的外观、多关节功能和轻量化设计,使其既适合低收入家庭使用又经济实惠。利用3D打印技术和集成先进的机器视觉、传感和嵌入式计算,假肢手提供了一种低成本、可定制的解决方案,解决了当前肌电假肢的局限性。该假肢手通过接口微摄像头连接到低功耗FPGA,实现实时物体检测,并辅助精准抓取。嵌入式基于DL的对象检测和抓取分类模型的准确率分别为96%和100%。在力预测中,平均绝对误差为0.018。因此,所提议的假肢手的特点可以总结为:a) 臂部佩戴的微摄像头以实现人工感知,从而使假肢能够执行广泛的基于手的任务;b) 实时物体检测和距离估计以实现精准抓取;c) 超低功耗操作,在有限的功率和资源限制下提供高性能。
arXiv:2504.15640v1 交叉类型: cross
摘要: 文本聚类的目标是根据语言特征自动将文本文档集合划分为不同的聚类。在文献中,这项任务通常被构架为基于预训练编码器的文本嵌入的度量聚类问题,或者基于一对文档间相似性的图聚类问题,例如一个大型机器学习模型。近年来,大规模语言模型(LLMs)在这一领域带来了显著的进步,通过提供上下文化的文本嵌入和高度准确的相似性评分,但同时也带来了巨大的挑战,因为这些模型需要大量的API调用或推理调用来处理计算和/或成本上的巨大开销。
为此,本文提出了一种名为TECL的有效框架,该框架在有限的LLMs查询预算内利用LLMs的反馈进行准确的文本聚类。在内部,TECL采用我们的EdgeLLM或TriangleLLM来构建文本对的必须链接/无法链接约束,并进一步利用这些约束作为监督信号输入到我们的加权约束聚类方法中以生成聚类。特别是,EdgeLLM(分别)通过精心设计的贪婪算法识别需要查询LLMs的有信息量的文本对(分别)通过巧妙构思的提示技术准确提取了文本对的约束。我们在多个基准数据集上的实验表明,在相同的LLMs查询成本下,TECL在无监督文本聚类中始终并且显著地优于现有解决方案。
arXiv:2504.15637v1 声明类型: cross
摘要:数据竞争是共享内存并行程序中一类普遍存在的并发错误,对软件可靠性和可重现性构成了重大挑战。尽管检测数据竞争的研究成果丰厚,并且有多种实际检测工具适用于各种编程语言,但在工业规模上自动修复数据竞争的努力相对较少。在大规模代码库中,数据竞争不断被引入,并表现出多种模式,这使得自动修复变得尤为困难。
本文我们致力于解决在工业规模上自动修复数据竞争的问题。我们提出了 Dr.Fix,这是一种结合了大型语言模型(LLMs)和程序分析的工具,能够在现实世界中生成数据竞争的修复代码,有效应对复杂代码环境中的广泛数据竞争模式。为实现这一目标,Dr.Fix 专门针对 Go 语言进行开发,Go 语言广泛应用于现代微服务架构中,其中并发性和数据竞争都很普遍。Dr.Fix 可无缝集成到现有的开发工作流中。我们详细介绍了 Dr.Fix 的设计,并研究了各个设计选择如何影响修复代码的质量。在过去18个月里,Dr.Fix 已经集成到 Uber 的开发人员工作流中,证明了其实用性。在这段时间里,Dr.Fix 为来自 404 个不同类别的数据竞争中生成了 224 个补丁(占 55%),其中 193 个补丁(占 86%)被超过 100 名开发人员在代码审查中接受并集成到代码库中。
arXiv:2504.15634v1 类别: cross
摘要:基于Transformer的架构最近在各个领域的序列建模中推动了进展,但将其应用于蛋白质折叠中的疏水-亲水(H-P)模型仍然相对未被充分探索。在本文中,我们利用结合了注意力机制(Transformer)的深度Q网络(DQN)来解决3D H-P蛋白质折叠问题。我们的系统将折叠决策表述为强化环境中的自我避免行走,并采用基于有利疏水相互作用的专业奖励函数。为了提高性能,该方法包括有效性检查,其中包括打破对称性约束、对冲和双Q学习,以及优先经验回放,以重点关注关键过渡。对标准基准序列的实验评估表明,我们的方法对较短序列达到了几个已知的最佳解决方案,并对较长链获得了接近最优的结果。这项研究强调了基于注意力的强化学习在蛋白质折叠中的前景,并为三维格子模型创建了一个Transformer为基础的Q网络结构原型。
arXiv:2504.15604v1 交叉类型: cross
摘要:语言模型在生成连贯文本和基于输入提示预测下一个词方面取得了显著进展。这项研究比较了两个知名模型:OpenAI的GPT-2和Meta的Llama-2-7b-chat-hf在理解理论心智(ToM)任务中的下一个词预测性能。为了评估其能力,我们从Explore ToM数据集中获取了10个短故事,并构建了一个数据集。我们使用GPT-4程序化地插入额外的句子(填充句子),创建了引入不同情境复杂度的变体。这种设置使我们能够分析增加情境如何影响模型性能。我们在四个温度设置(0.01, 0.5, 1.0, 2.0)下测试了这两种模型,并针对三个推理层次评估了它们预测下一个词的能力。零阶推理涉及追踪状态,无论是当前状态(真实情况)还是过去状态(记忆)。一阶推理涉及理解他人的心智状态(例如,“安妮知道苹果是盐的吗?”)。二阶推理增加了递归性(例如,“安妮认为查尔斯知道苹果是盐的吗?”)。
我们的结果显示,增加更多的填充句子略微降低了预测准确性,因为增加的情境增加了复杂性和歧义性。Llama-2 在预测准确性方面始终优于 GPT-2,特别是在较低的温度下,显示出更大的信心选择最可能的词。随着推理复杂性的提高,模型的响应差异越来越大。值得注意的是,在一阶和二阶推理任务中,GPT-2 和 Llama-2 在预测方面表现出更大的变异性。这些发现说明了模型架构、温度和情境复杂性对下一个词预测的影响,有助于更好地理解当前语言模型的优势和限制。
arXiv:2504.15587v1 类别: cross
摘要:分子生成在药物发现和材料科学中发挥着重要作用,特别是在数据稀少的情景下,传统生成模型常常难以实现令人满意的条件泛化。为了解决这一挑战,我们提出了MetaMolGen,这是一种基于元学习的分子生成器,适用于少量样本和属性条件下的分子生成。MetaMolGen 通过将图模式映射到规范化隐空间中来标准化隐空间的分布,并采用轻量级自回归序列模型生成忠实反映底层分子结构的SMILES序列。此外,通过集成到生成过程中的可学习属性投影器支持目标属性的条件生成。实验结果表明,MetaMolGen 在低数据条件下一致地生成有效的且多样化的SMILES序列,优于传统的基线方法。这突显了其在快速适应和高效条件生成方面的优势,适用于实际的分子设计。
arXiv:2504.15585v1 安全类型: 横跨
摘要:大型语言模型(LLMs)的非凡成功照亮了通往实现人工通用智能的有希望的道路,这对学术界和工业界都充满了前景,这得益于它们在各种应用中前所未有的性能。随着LLMs在研究和商业领域中的重要性不断增加,其安全和安全性问题引起了广泛关注,不仅对研究者和企业,也对每一个国家来说都是如此。目前,现有对LLM安全性的调查主要集中在LLM生命周期的特定阶段,如部署阶段或微调阶段,缺乏对整个“生命链”的全面理解。为了填补这一空白,本文首次提出了“全栈”安全的概念,系统地考虑了从LLM训练到部署直至最终商业化过程中的安全问题。与现有的现成的LLM安全性调查相比,我们的工作展示了几个显著的优势:(I)全面视角。我们将完整的LLM生命周期定义为涵盖数据准备、预训练、后训练、部署和最终商业化。据我们所知,这是首次涵盖整个LLM生命周期的安全调查。(II)广泛的文献支持。我们的研究基于对超过800多篇论文的详尽回顾,确保了全面覆盖和系统的组织,从更整体的角度理解安全问题。(III)独特的见解。通过系统性的文献分析,我们为每一章发展出了可靠的道路图和视角。我们的工作确定了一些有前途的研究方向,包括数据生成中的安全性、对齐技术、模型编辑以及基于LLM的代理系统。这些见解为研究人员在未来在这个领域的研究提供了宝贵的指导。