arXiv:2504.19327v1 Announce Type: cross
摘要:基于Transformer的模型的数据和参数量的指数增长正在导致性能改进的递减,尤其是在训练成本面前更为明显。这种停滞表明了需要更高效微调和推断方法的重要性,同时保持类似性能。对于多模态学习范式来说尤为相关,因为处理多模态标记的推断成本可能决定模型的实际可行性。同时,关于表示和机制可解释性的研究已经提高了我们对基于Transformer的模型内部工作机制的理解;其中一条研究路线揭示了预训练模型在更深层面上跨模态的隐含对齐。受此启发,我们推动并提出了一种简单的现有多模态框架的修改方法,这些框架依赖于预训练模型的对齐。我们展示了我们的方法能够保持甚至在某些情况下改进基线方法的性能,同时在训练和推断时计算成本方面实现显著提升。我们的工作还对如何高效地将预训练模型组合成更大的系统具有启示作用。
arXiv:2504.19323v1 Announce Type: cross
摘要:神经符号AI(Neuro-Symbolic AI, NSAI)是一种新兴范式,将神经网络与符号推理相结合,以增强AI系统的透明度、推理能力和数据效率。由于其在推理任务和人机协作场景中的出色性能,最近的NSAI系统开始受到关注。尽管在算法方面有所进步,但在现有硬件(例如CPU、GPU、TPU)上执行NSAI任务仍然充满挑战,因为这些硬件的异构计算内核、高内存_intensity_以及独特的内存访问模式。此外,当前的NSAI算法在操作类型和规模上表现出显著差异,这使得它们与现有的机器学习加速器不兼容。这些挑战表明,需要一个适应NSAI工作负载的多功能和灵活的加速框架。在本文中,我们提出NSFlow,这是一种基于FPGA的加速框架,旨在实现NSAI系统在高效率、可扩展性和多功能性上的高效率。NSFlow具有一个设计架构生成器,能够识别工作负载数据依赖关系并创建优化的数据流架构,以及一个可重构阵列,具有灵活的计算单元、可重新组织的内存和混合精度能力。在NSAI工作负载上进行评估,NSFlow在速度上比Jetson TX2提升了31倍,比GPU快2倍以上,比类似TPU的 systolic阵列快8倍以上,比Xilinx DPU快3倍以上。此外,NSFlow还展示了增强的可扩展性,在符号工作负载扩展150倍的情况下,运行时仅增加了4倍。据我们所知,NSFlow是第一个能够实现实时通用NSAI算法加速的框架,展示了下一代认知系统的一种有前途的解决方案。
arXiv:2504.19276v1 宣告类型: cross
摘要:高质量的偏好数据对于通过偏好学习使基础模型与人类价值观对齐至关重要。然而,手动标注此类数据通常既耗时又成本高昂。最近的方法常常采用自我奖励的方法,目标模型生成并标注自己的偏好数据,但这可能导致不准确,因为奖励模型与目标模型共享权重,从而放大了固有的偏差。为了解决这些问题,我们提出了Anyprefer框架,旨在合成高质量的偏好数据以对齐目标模型。Anyprefer将数据合成过程建模为一个合作的双玩家马尔可夫游戏,其中目标模型和判别模型协同工作。在此过程中,引入了一系列外部工具,以帮助判别模型准确地奖励目标模型的回复,从而减轻奖励过程中的偏差。此外,还引入了一种反馈机制优化两种模型的提示,增强协作并提高数据质量。合成的数据编入一个新的偏好数据集Anyprefer-V1,包含58,000个高质量的偏好对。广泛的实验显示,Anyprefer显著提高了目标模型在四个主要应用中的对齐性能,涵盖了21个数据集,分别在五个自然语言生成数据集中实现了平均18.55%的改进,在九个视觉语言理解数据集中实现了3.66%的改进,在三个医学图像分析数据集中实现了30.05%的改进,在四个视知觉控制任务中实现了16.00%的改进。
arXiv:2504.19275v1 分类: cross
摘要:将人工智能(AI)引入电影制作不仅革新了效率和创造性,还同时引发了关键的伦理和实践挑战。本研究通过三个目标探讨了AI对现代电影的双重影响:定义最优的人机关系、平衡创造力与自动化,以及制定伦理准则。该研究采用混合方法,结合理论框架(作者论、人机关系)和案例研究(《安全区》、《速度与激情7》、《粗野主义》),揭示出将AI定位为“实体工具”而非独立的“异类伙伴”能够保留人类的原创性和艺术完整性。关键发现强调了AI驱动市场中的 surveillance 资本主义风险和深假技术的伦理困境。研究结论包括了可操作性建议,包括国际监管框架和人类控制指数(HCI),以量化AI的参与程度。这些见解旨在引导制片人、政策制定者和学者在不断变化的AI-电影环境中共谋,同时保护文化多样性和伦理标准。
arXiv:2504.19274v1 宣告类型:交叉
摘要:理解深度学习推理是否正确应用是验证模型完整性的关键。然而,这种验证通常需要访问模型权重和(潜在敏感或私有的)训练数据。所谓零知识简洁非交互知识证明(ZK-SNARKs)似乎提供了在无需访问此类敏感数据的情况下验证模型推理的能力。然而,将ZK-SNARKs应用到现代神经网络,如变换器和大型视觉模型,引入了显著的计算开销。
我们提出了一种ZK友好的后处理机制TeleSparse,以解决这一问题的实用解决方案。TeleSparse解决了应用ZK-SNARKs到现代神经网络中两个根本性的挑战:(1)减少电路约束:过度参数化的模型导致了大量的ZK-SNARK验证约束,增加了内存和证明生成的成本。我们通过应用神经网络模型的稀疏化来解决这一问题,提高了证明效率,同时不牺牲准确性和安全性。(2)通过神经 teleportation(一种新的激活函数范围压缩适应方法)优化非线性函数所需的查找表大小,缩小激活函数的范围。
TeleSparse在同一模型上的证明者内存使用量减少了67%,证明生成时间减少了46%,且准确率损失约为1%。我们使用Halo2证明系统实现了我们的框架,并在多种架构(视觉变换器、ResNet、MobileNet)和数据集(ImageNet、CIFAR-10、CIFAR-100)上展示了其有效性。这项工作为ZK友好的模型设计开辟了新的方向,朝着可扩展、资源高效的可验证深度学习迈进。
arXiv:2504.19267v1 交叉声明类型
摘要:视觉讲故事是一个将计算机视觉和自然语言处理相结合的跨学科领域,旨在从一系列图像中生成连贯的故事叙述。本文提出了一种新的方法,利用了最近在多模态模型中的进展,特别是适应了基于变压器的架构和大规模多模态模型,用于视觉讲故事任务。利用大规模视觉讲故事(VIST)数据集,我们的VIST-GPT模型生成了与视觉内容紧密结合、语境适当的叙述。我们解决了传统评估指标的局限性,如BLEU、METEOR、ROUGE和CIDEr,这些指标不适合此任务。相反,我们使用RoViST和GROOVIST,这是一种新的无需参考的指标,旨在评估视觉讲故事的质量,重点是视觉语境化、连贯性和非冗余性。这些指标提供了对叙述质量更为细致的评估,与人类判断紧密一致。
arXiv:2504.19254v1 宣告类型: 跨领域
摘要: 大型语言模型(LLMs)中存在幻觉这一持续性的问题。随着这些模型在高风险领域,如医疗和金融中的应用越来越多,有效幻觉检测的需求变得至关重要。为此,我们提出了一种适用于实际应用的多功能幻觉检测框架。为了实现这一目标,我们调整了多种现有的不确定性量化(UQ)技术,包括黑盒UQ、白盒UQ以及LLM作为裁判的技术,必要时将它们转化为标准化的响应级置信分数,范围从0到1。为了增加灵活性,我们引入了一种可调ensemble方法,可以结合任何一种个体置信分数的组合。这种方法使实践者能够针对特定用例优化ensemble,以提高性能。为了简化实现过程,本文的伴侣Python工具包UQLM提供了全套的评分器。为了评估各种评分器的性能,我们在多个LLM问答基准上进行了广泛的实验。我们发现,我们的可调ensemble通常超过了其个体组成部分,且优于现有的幻觉检测方法。我们的结果表明,定制化的幻觉检测策略有助于提高LLMs的准确性和可靠性。
arXiv:2504.19223v1 交叉公告类型:cross
摘要:光谱成像在医学和城市场景理解等多个领域提供了有前途的应用,并且已经在遥感领域被确立为关键的成像模态。然而,不同光谱相机在通道维度和捕获的波长方面存在变化,阻碍了AI驱动方法的发展,导致了特定于摄像头的模型,这些模型的通用性有限,且在跨摄像头应用方面不够充分。为了解决这一瓶颈,我们引入了**CARL**,一种适用于RGB、多光谱和高光谱成像模态的**C**amera-**A**gnostic **R**epresentation **L**earning模型。为了将任何通道维度的光谱图像转换为摄像头无关的嵌入,我们引入了波长位置编码和自注意力-交叉注意力机制,以压缩光谱信息并将其转换为学习到的查询表示。我们通过一种为CARL量身定制的基于JEPA的新颖光谱自监督策略实现了光谱-空间预训练。来自医学成像、自动驾驶和卫星成像领域的大型实验展示了我们模型对光谱异质性的独特鲁棒性,在模拟和真实世界的跨摄像头光谱变异性数据集上的表现优于其他模型。所提出方法的可扩展性和灵活性使我们的模型成为未来光谱基础模型的骨干。
arXiv:2504.19212v1 Announce Type: cross
摘要:深度假信息技术的迅速发展,特别是在指令引导的图像编辑中的发展,通过实现细微且基于情境的操纵威胁到了数字图像的完整性。这些编辑是从真实图像和文本提示中有条件生成的,往往难以被人类和现有的检测系统察觉,这揭示了当前防御手段的显著局限性。我们提出了一种新颖的多模态胶囊网络CapsFake,旨在通过集成来自于视觉、文本和频域模态的低级别胶囊来检测此类深度假信息图像编辑。通过竞争机制预测的高级别胶囊动态聚合局部特征,以高精度识别被操纵的区域。在包括MagicBrush、Unsplash Edits、Open Images Edits和Multi-turn Edits等多种数据集上进行的评估表明,CapsFake在检测准确性方面比最先进的方法高出20%以上。消融研究表明,该模型具有高度的鲁棒性,在自然扰动下实现超过94%的检测率,并在对抗攻击中达到96%的检测率,表现出色地推广到了未见过的编辑场景中。这种方法为对抗复杂的图像篡改提供了强大的框架。
arXiv:2504.19197v1 交叉公告类型:cross
摘要:语音转换(VC)作为语音合成的一个关键研究领域,使说话者的语音特征能够模拟另一人同时保留语言内容。这项技术有着广泛的应用,包括自动电影配音、语音到歌声转换和病理语音康复辅助设备。随着对高质量和自然声音合成语音的日益需求,研究人员开发了各种各样的VC技术。在这之中,基于生成对抗网络(GAN)的方法因其强大的特征映射能力和产生高度逼真语音的潜力而受到广泛关注。尽管取得了显著的进步,但由于保证训练稳定性、保持语言一致性以及实现感知自然性等挑战,基于GAN的VC系统的发展依然受到阻碍。本系统的回顾性综述旨在对语音转换领域进行全面分析,突出关键技术和关键挑战,并强调GAN在该领域的变革性影响。调查将现有方法进行分类,探讨技术障碍,并对基于GAN的VC的最近发展进行批判性评价。通过整合文献中分散的研究发现,本综述为不同方法的优点和局限性提供了结构化的理解。这项调查的重要性在于其能够指导未来的研究,通过识别现有空白、提出潜在方向并为构建更稳健和高效的VC系统提供见解。总体而言,这项工作为旨在推进语音转换技术的最新状态的研究人员、开发者和实践者提供了一个必不可少的资源。