arXiv:2503.19900v1 宣传类型:交叉
摘要:大型视觉-语言模型(LVLMs)的迅速发展推动了多模态任务的重大进展,使模型能够在视觉和文本领域进行解释、推理和生成输出。虽然在生成任务上表现出色,但现有的LVLMs在需要高保真表示学习的任务中往往面临限制,例如生成用于检索的图像或文本嵌入。最近的工作提出了对LVLMs进行表示学习的微调,但由于表示学习的微调范式,微调后的模型往往会失去其生成能力。为了解决这种权衡,我们引入了CAFe,一种对比自回归微调框架,该框架能够增强LVLMs在表示和生成任务上的能力。通过结合对比目标和自回归语言建模,我们的方法统一了传统上分离的任务,实现了在多模态检索和多模态生成基准测试中的最新成果,包括对象幻觉(OH)的缓解。CAFe 建立了一种新的框架,将嵌入和生成功能在单一模型中协同工作,为未来在检索精度和连贯输出生成方面都表现出色的多模态模型奠定了基础。
arXiv:2503.19887v1 交叉类型
摘要:近年来人工智能能力的进步加剧了对人工智能系统可能对国家安全构成威胁的担忧,例如,使得恶意行为者更容易对关键基础设施进行网络攻击,或者由于失控的自主人工智能系统而导致安全风险。与此同时,美国联邦立法者提出了初步的“人工智能事件制度”,以识别和应对类似威胁。在这篇论文中,我们综合了这两种趋势,并提出了一项法律要求的人工智能部署后事件制度的建议,旨在应对此类人工智能系统潜在的国家安全威胁。我们首先在论文中介绍了“安全关键型”的概念,以描述那些对国家安全构成极端风险的事物,随后指出,“安全关键型”描述了民用核能、航空、生命科学研究中的双重用途研究以及前沿人工智能开发。然后,我们详细介绍了我们的人工智能事件制度提案,并通过证明其与美国其他“安全关键型”领域的国内事件制度相似性来为每个提案组件提供正当性。最后,我们勾勒了一个假设情景,展示了我们提议的人工智能事件制度如何处理人工智能网络攻击事件。我们提议的人工智能事件制度分为三个阶段。第一个阶段围绕着对什么是“人工智能事件”的新定义展开,并建议人工智能提供商在部署前沿人工智能系统之前必须创建一项“国家安全案”。第二和第三个阶段规定,人工智能提供商应向政府机构报告事件,且政府机构应参与整改人工智能提供商的安全和安全措施,以应对未来可能的国家安全威胁。鉴于对人工智能系统可能对国家安全构成的风险持续存在的政策兴趣,我们的提案非常及时。
arXiv:2503.19885v1 声明类型: cross
摘要:在本文中,我们探索了具有特定结构属性的复值Hopfield神经网络(CvHNN)的动力学。我们首先分析了具有厄米对称突触权重矩阵的CvHNN,并在具有斜厄米对称权重矩阵的同步工作模式下建立了CvHNN的四周期动力学的存在性。此外,我们引入了两种新的复值矩阵类:编织厄米矩阵和编织斜厄米矩阵。我们展示了在全并行更新模式下,使用这些矩阵类型的CvHNN表现出长度为八的周期性。最后,我们在同步CvHNN上进行了广泛的计算实验,探索其他突触权重矩阵结构的动力学。研究结果提供了结构化CvHNN动力学的全面概述,这些发现可能在与合适的学习规则结合使用时,有助于开发改进的关联记忆模型。
arXiv:2503.19868v1 Announce Type: cross
摘要:生成检索是一种新兴的信息检索方法,它根据查询生成目标数据的标识符(ID),为传统基于嵌入的检索方法提供了一种高效的替代方案。然而,现有的模型是任务特定的,在性能上无法与基于嵌入的检索方法匹敌。本文提出了一种名为GENIUS的通用生成检索框架,支持跨多种模态和领域的多种任务。其核心在于引入模态解耦的语义量化,将多模态数据转换为既编码模态又编码语义的离散ID。此外,为了增强泛化能力,我们提出了一种查询增强方法,该方法在查询与其目标之间进行插值,使GENIUS能够适应各种查询形式。在M-BEIR基准上,它明显超过了之前的生成方法。与基于嵌入的检索方法不同,GENIUS在数据库规模变化时始终能保持较高的检索速度,并且在多个基准上的性能具有竞争力。通过额外的重排序,GENIUS经常能够达到与基于嵌入的方法相近的结果,同时保持效率。
arXiv:2503.19867v1 类型:跨领域
摘要:本文通过三大创新性的成果建立了一个将几何流与深度学习统一起来的框架。首先,我们提出了一种热力学耦合的里奇流,能够动态地将参数空间的几何结构适应到损失景观的拓扑结构上,并正式证明了这种流能够保留等距的知识嵌入(定理~\ref{thm:isometric})。其次,我们通过对曲率爆破的分析推导出了明确的相变阈值和临界学习率(定理~\ref{thm:critical}),从而能够通过几何手术自动解决奇异性问题(引理~\ref{lem:surgery})。第三,我们建立了神经网络和共形场理论之间的AdS/CFT型全息对偶性(定理~\ref{thm:ads}),为正则化设计提供了纠缠熵边界。实验结果表明,在保持\(O(N \log N)\)复杂度的同时,能够实现2.1倍的收敛加速和63%的拓扑简化,且在少样本准确度方面比黎曼基线高出15.2%。理论上,我们通过结合佩雷尔曼熵与 Wasserstein 梯度流的新Lyapunov函数证明了指数稳定性(定理~\ref{thm:converge}),从根本上推进了几何深度学习的发展。
arXiv:2503.19848v1 宣告类型: cross
摘要:生成式人工智能(AI)系统倾向于“产生”虚假信息的情况是众所周知的;AI生成的非-existent来源的引用已经进入了同行评审出版物的参考文献列表中。在这里,我提出了一种解决这一问题的方法,灵感来自于透明度和开放性促进(TOP)数据共享准则、生成式AI与美国司法系统的冲突,以及美国专利商标局(USPTO)关于提交先前艺术的先例。期刊要求作者在提交手稿时同时提交每个引用来源的完整文本,从而防止作者引用他们无法提供完整文本的材料。这种方法只需要作者或编辑进行少量额外的工作,同时有效防止期刊受到虚假引用的影响。
arXiv:2503.19844v1 Announce Type: cross
摘要:本文比较了大型语言模型(LLMs)和传统自然语言处理(NLP)工具,对1900年至1950年间的中文文本进行词段划分、词性标注和命名实体识别。由于历史中文文献采用表意文字体系、缺乏自然的单词边界以及语言上的显著变化,给文本分析带来了挑战。使用上海图书馆民国期刊语料库的一个样本数据集,本文将传统工具如jieba和spaCy,与GPT-4o、Claude 3.5和GLM系列等大型语言模型进行比较。结果显示,尽管在计算成本方面显著增加,大型语言模型在所有指标上均优于传统方法,突显了准确性和效率之间的权衡。此外,大型语言模型能够更好地处理特定文体的挑战,如诗歌以及时间变化(即1920年以前与1920年以后的文本),这表明它们的上下文学习能力可以推进对历史文本的NLP方法,减少对特定领域训练数据的需求。
arXiv:2503.19823v1 Announce Type: cross
摘要:理解人类大脑的结构和功能组织需要详细检查皮层折叠模式,在其中,三折褶皱(3HG)已被认定为一个关键的结构标志。GyralNet 是一个皮层折叠的网络表示,将 3HGs 表示为节点,褶皱脊表示为边,强调它们在皮层-皮层连接中的关键枢纽作用。然而,现有方法分析 3HGs 存在显著挑战,包括在典型神经影像学分辨率下 3HGs 的亚体素尺度、建立跨个体对应关系的计算复杂性,以及将 3HGs 视为独立节点而忽视它们在社区级关系上的简化处理。为了解决这些局限性,我们提出了一个完全可微分的子网络分段框架,采用谱模ularity最大化优化策略来模块化 GyralNet 中 3HGs 的组织。通过将拓扑结构相似性和基于 DTI 的连接模式作为属性特征纳入其中,我们的方法提供了一个具有生物学意义的皮层组织表示。在人类连接组项目(HCP)数据集上的广泛实验表明,我们的方法有效地在个体层次上划分了 GyralNet,同时保持了 3HGs 在不同个体中的社区级一致性,为理解大脑连接提供了稳健的基础。
arXiv:2503.19817v1 声称类型: cross
摘要:神经图像压缩(NIC)已经发展成为一种有前景的经典压缩技术替代方案,提供了更好的压缩比率。尽管在标准化和实际部署方面取得了进展,但对其鲁棒性和安全性方面的研究却相对较少。本研究揭示了NIC中一个意想不到的安全漏洞——位流碰撞,即语义上不同的图像会产生相同的压缩位流。利用一种新颖的白盒 adversarial攻击算法,本文证明了在语义上不同的图像中添加精心设计的扰动会导致其压缩位流完全碰撞。碰撞漏洞对NIC的实际可用性构成了威胁,特别是在安全关键型应用中。分析了碰撞的原因,并提出了一个简单而有效的缓解方法。
arXiv:2503.19804v1 通知类型: 交叉
摘要: 低光图像增强对于众多应用程序至关重要,包括夜视、监控以及自动驾驶。然而,由于在低光环境下拍摄图像固有的限制,增强这些场景的任务仍然具有很大的挑战性。为了推动该领域的研究,我们引入了我们的低曝光夜视(LENVIZ)数据集,这是一个全面的多曝光基准数据集,包含超过23万个帧,展示了24000个真实世界室内外场景,其中包括有人和无人场景。这些场景使用3种不同的相机传感器捕捉,LENVIZ提供了广泛的光照条件、噪声水平和场景复杂性,使其成为迄今为止公开可用的最大规模、分辨率可达4K的基准数据集。LENVIZ包括高质量的人工生成的 ground truth,每个多曝光低光场景都由专业摄影师精心策划和编辑,以确保最佳图像质量。此外,我们还在我们的数据集上全面分析了当前最先进的低光图像增强技术,并指出了改进的潜在领域。