arXiv:2504.04909v1 类型: cross
摘要: Algorithm Operating System (AlgOS) 是一个无偏见、可扩展且模块化的算法实现框架。AlgOS 提供了众多功能:与 Optuna 集成进行自动化超参数调整;为通用命令行接口自动化参数解析;自动化新类的注册;以及集中式数据库用于记录实验和研究。这些功能旨在减少实现新算法的代价,并标准化算法的比较。算法实现的标准化对于研究中的可重复性和可靠性至关重要。AlgOS 结合使用抽象语法树与新型的观察者模式实现来控制算法段落的逻辑流程。
arXiv:2504.04907v1 评估类型: cross
摘要: 视频生成评估对于确保生成模型生成视觉上真实、高质量的视频,并与人类预期保持一致至关重要。当前的视频生成基准主要可分为两类:传统的基准,它们利用度量和嵌入来从多个维度评估生成视频的质量,但往往与人类判断缺乏一致性;以及基于大型语言模型(LLL)的基准,虽然能够进行类似人类的推理,但在理解和跨模态一致性方面仍受到限制。为了解决这些挑战并建立一个更好地与人类偏好相一致的基准,本文引入了Video-Bench,这是一个全面的基准,包含丰富的提示套件和广泛的评估维度。这是首次在生成模型的视频生成评估中系统地利用MLLMs的尝试。通过结合少量示例评分和链式查询技术,Video-Bench 提供了一种结构化、可扩展的生成视频评估方法。在包括Sora在内的先进模型上的实验表明,Video-Bench 在所有维度上都与人类偏好实现了更好的一致。此外,在我们框架的评估与人类评估发生分歧的情况下,它始终提供更客观、准确的见解,表明相对于传统的基于人类的判断,它可能具有更大的优势。
arXiv:2504.04903v1 Announce Type: cross
摘要:我们介绍了Lunima-OmniLV(简称OmniLV),这是一种针对低级视觉的通用多模态多任务框架,涵盖了四大类别中超过100个子任务:图像恢复、图像增强、弱语义密集预测和风格化。OmniLV利用文本和视觉提示提供灵活且用户友好的交互。基于基于扩散变换器(DiT)的生成先验,我们的框架支持任意分辨率——在1K分辨率下实现最优性能,同时保留精细细节和高保真度。通过广泛的实验,我们证明了分别对文本和视觉指令进行编码,结合浅层特征控制的协同训练,对于减轻任务模糊性和增强多任务泛化是必不可少的。我们的发现还表明,在低级视觉模型中整合高层次的生成任务可能会损害细节敏感的恢复。这些见解为更稳健和泛化的低级视觉系统开辟了途径。
arXiv:2504.04893v1 交叉公告类型
摘要:图形攻击利用文本与视觉内容在多模态基础模型中的相互作用,当误导性的文本嵌入图像中时,会导致分类错误。然而,现有的数据集在规模和多样性方面都有限,使得研究这些漏洞变得困难。在本文中,我们引入了SCAM,这是迄今为止最全面和最多样化的实际图形攻击图像数据集,包含1,162张图像,跨越数百个物体类别和攻击词。通过在SCAM上对视觉-语言模型(VLMs)进行广泛的基准测试,我们展示了图形攻击显著降低了性能,并确定了训练数据和模型架构对这些攻击的易感性有影响。我们的研究结果揭示,由于选择的视觉编码器,最先进的大型视觉-语言模型(LVLMs)仍然存在图形攻击,尽管较大的大型语言模型(LLMs)骨干网络有助于减轻它们的脆弱性。此外,我们展示了合成攻击与现实生活中的(手写)攻击非常相似,验证了它们在研究中的使用。我们的工作提供了一个全面的资源和实证见解,有助于未来针对健壮且可信赖的多模态AI系统的研究。我们在此论文中介绍的数据集已公开展示在https://huggingface.co/datasets/BLISS-e-V/SCAM,并在https://github.com/Bliss-e-V/SCAM中提供了评估代码。
arXiv:2504.04874v1 交叉公告类型
摘要:将具有已知大小和寿命的一组缓冲区映射到偏移量,以最小化总内存使用量的NP完全组合优化任务称为动态存储分配(DSA)。现有的DSA实现倾向于使用快速但浪费的启发式方法,或者不适用于超过一千个缓冲区的内存高效方法。结合“AI内存墙”以及深度神经网络固定的架构,重新引发了对DSA的兴趣。我们提出了idealloc,一种针对百万缓冲实例设计的低碎片、高性能DSA实现。在针对多个领域中一个新的特别是难以处理的基准集进行评估后,在一种联合有效性和鲁棒性的标准下,idealloc在四种生产实现中排名第一。
arXiv:2504.04867v1 宣告类型: cross
摘要: 集成学习是一种分布式机器学习框架,用于在不将敏感隐私数据上传到集中式服务器的情况下协作训练全局模型。通常,这种框架应用于智能手机、可穿戴设备以及物联网(IoT)设备等边缘设备,这些设备紧密地从用户那里收集信息。然而,这些设备大多是电池供电的。集成学习的更新过程会不断消耗电池电量和传输带宽。在本工作中,我们提出了一种考虑用户行为相似性的集成学习更新控制方法,名为FedSAUC。在服务器端,我们利用聚类算法将具有相似模型的设备分组。然后,我们为每个聚类选择一些代表者来更新信息以训练模型。我们还在边缘设备上实现了一个测试床原型来验证其性能。实验结果表明,这种更新控制不会在长期内影响训练精度。
arXiv:2504.04861v1 类型: cross
摘要:文本交互网络(TINs)是一种广泛使用的数据结构,用于建模电子商务网站、社交网络等场景中用户和物品之间的交互,其中每个交互都关联有一个文本描述。对这类文本交互(TIC)进行分类在电子商务中的虚假评论检测、金融中的欺诈交易检测等方面具有广泛的应用。现有的TIC解决方案要么由于使用上下文无关的文本嵌入未能捕捉丰富的文本语义,要么忽视了TINs的二分结构和节点异构性,导致TIC性能受到影响。在本文中,我们提出了一种称为SAFT的新架构,该架构结合了基于语言和图的模块,用于有效融合交互中的文本和结构语义。特别是,通过利用线图注意力(LGA)/门控注意力单元(GAUs)和预训练语言模型(PLMs)来建模交互级和标记级信号,并通过代理标记在迭代和上下文化的方式下进一步耦合。此外,我们开发了一种高效且理论依据的方法,用于将交互相关的局部和全局拓扑信息编码到结构嵌入中。生成的嵌入不仅将TINs下的结构特征注入到文本交互编码中,而且有助于设计图采样策略。在多个真实TIN数据集上的广泛实证评估表明,SAFT在TIC准确性方面优于最新的基线方法。
arXiv:2504.04833v1 类型: cross
摘要:人工智能(AI)在现代社会中的整合正在极大地改变个人执行任务和活动的方式。采用基于AI的系统提出了挑战,设计者和开发者必须解决这些问题,以确保人类在交互过程中的控制权,特别是在高风险领域。本文通过Rhino-Cyt平台(一个医疗AI基于决策支持系统,专门支持医疗专业人士,即鼻腔学家,进行细胞分类)重新设计的用户界面,提出了一种新的用户自定义开发(EUD)方法,用于黑盒AI模型。提出的界面赋予用户干预AI决策过程的能力,通过编辑解释和重新配置模型,影响其未来预测。本文通过讨论基于解释的干预如何实现可解释性、用户干预和模型重构的融合,为以人为本的人工智能(HCAI)和用户自定义开发(EUD)做出了贡献,从而促进人类与用户定制的AI系统的共生关系。
arXiv:2504.04827v1 交叉类型
摘要:检测深伪内容已成为一个越来越重要的课题,特别是在人工智能生成技术迅速发展的背景下。本文中,我们提出的问题是:我们如何构建一个对大多数面部深伪内容都有效的通用检测框架?一个显著的挑战是可用的深伪生成器种类繁多,导致伪造痕迹各不相同(例如,光照不一致、色彩不符等)。但我们是否应该“教导”检测器分别学习所有这些痕迹?不可能也不切实际地逐一解释它们。因此,核心思想是集中发现不同深伪内容中更为常见且通用的痕迹。据此,我们将深伪痕迹分为两类截然不同但互补的类型:面部不一致性痕迹(FIA)和上采样痕迹(USA)。FIA 产生于生成所有复杂细节的挑战,不可避免地导致面部复杂特征与相对统一的背景区域之间的一致性问题。USA 另一方面则是生成器解码器在上采样过程中不可避免留下的痕迹。这一分类源于观察到所有现有的深伪内容通常都表现出一种或两种这些痕迹中的至少一种。为了实现这一目标,我们提出了一种新的伪假数据级别创建框架,该框架仅使用 FIA 和 USA 构建假样本,而不引入额外的非通用痕迹。具体来说,我们利用超分辨率模拟 USA,设计了一个 Blender 模块,在多样化的面部区域使用图像级别的自我混合来生成 FIA。我们惊讶地发现,使用这种直观的设计,仅使用我们伪假数据训练的标准图像分类器能够非平凡地泛化到未见过的深伪内容。
arXiv:2504.04823v1分类:交叉
摘要:最近的推理语言模型在复杂任务中表现出色,但其扩展的链式思考推理过程增加了推理开销。虽然量化已被广泛采用以降低大型语言模型的推理成本,但其对推理模型的影响仍研究不足。在这项研究中,我们首次对量化推理模型进行了系统的研究,评估了从150亿到700亿参数的开源DeepSeek-R1-Distilled Qwen和LLaMA家族模型,以及QwQ-32B模型。我们的研究涵盖了使用最新算法在不同位宽下的权重、KV缓存和激活量化,广泛评估了数学(AIME, MATH-500)、科学(GPQA)和编程(LiveCodeBench)推理基准。我们的研究结果表明,虽然可以使用W8A8或W4A16量化实现无损量化,但较低的位宽会带来显著的准确率风险。我们进一步发现,模型大小、模型来源和任务难度是影响性能的关键因素。与预期相反,量化模型并不表现出输出长度增加的情况。此外,战略性地扩展模型大小或推理步骤可以有效提升性能。所有量化推理模型及其代码将开源在https://github.com/ruikangliu/Quantized-Reasoning-Models。