LLM2D

arXiv 论文列表

作者: Simiao Ren, Hengwei Xu, Tsang Ng, Kidus Zewde, Shengkai Jiang, Ramini Desai, Disha Patil, Ning-Yau Cheng, Yining Zhou, Ragavi Muthukrishnan
arXiv:2502.10920v1 宣告类型: cross 摘要: 深度假脸,特别是基于面貌互换的操作,由于其日益逼真的特点和潜在的滥用可能性,引起了社会上的广泛关注。尽管生成模型取得了迅速进展,但检测方法并没有跟上这一进步,从而造成了一种关键性的防卫策略缺口。这种差距进一步被学术研究与实际应用之间的脱节所放大,后者往往优先考虑不同的目标和评估标准。在这项研究中,我们采取了一大步来弥合这一差距,提出了一项新的观察:超级分辨率后期处理步骤,这是在实际应用中常用的步骤,大幅削弱了现有深度假脸检测方法的有效性。为了证明这一点,我们介绍了并发布了第一个来自流行在线面貌互换平台的实战面貌互换数据集。然后,我们对最先进的深度假脸检测器在真实的深度假脸上的性能进行了定性评估,揭示出其准确率接近随机猜测的水平。此外,我们定量展示了常见后期处理技术造成的显著性能下降。通过解决这一被忽视的挑战,我们的研究突显了提高深度假脸检测方法在实际应用中的鲁棒性和实用性的关键途径。
发布时间: 2/18/2025
查看原文
作者: Sevim Cengiz, Ibraheem Hamdi, Mohammad Yaqub
arXiv:2502.10908v1 类型:交叉 摘要:胎儿妊娠年龄(GA)是孕期估计的关键临床信息,用于评估胎儿生长情况。通常通过在孕龄扫描中测量胎儿头臀长度(CRL)来完成这一过程,然后将测量结果与胎儿年龄和生长轨迹相关联。进行CRL测量时的主要问题是确保图像获取正确的视角,否则可能导致误导。尽管临床指南指出了正确的CRL视角的标准,但超声波技师可能不经常遵守这些规则。在本文中,我们提出了一种新的基于深度学习的解决方案,能够验证CRL图像是否符合临床指南,从而评估图像质量并促进孕龄的准确估计。我们首先对胎儿的重要结构进行分割,然后使用局部结构进行临床指导下的映射,以验证其是否符合标准。分割方法结合了卷积神经网络(CNN)和视觉变压器(ViT)的优点,以在超声图像中分割胎儿结构并定位重要胎儿标志物。为了分割目的,我们将提出的方法与UNet进行比较,并展示我们的基于CNN/ViT的方法在优化的UNet版本上表现更优。此外,我们还将映射输出与用于评估临床标准和CRL图像整体接受度的分类CNN进行比较。我们展示了提出的映射不仅具有可解释性,而且比表现最好的分类CNN更准确。
发布时间: 2/18/2025
查看原文
作者: Ibraheem Hamdi, Hosam El-Gendy, Ahmed Sharshar, Mohamed Saeed, Muhammad Ridzuan, Shahrukh K. Hashmi, Naveed Syed, Imran Mirza, Shakir Hussain, Amira Mahmoud Abdalla, Mohammad Yaqub
arXiv:2502.10899v1 交叉公告类型:cross 摘要:白血病的复杂性,一种影响白血球的多方面癌症,带来了重大的诊断和治疗挑战,主要是因为依赖耗时的形态学分析和容易出错的专家判断。为应对这些挑战,本研究提出了一种结合先进深度学习技术的精炼且全面的分类策略,用于区分白血病亚型。我们首先开发了一个分层标签分类体系,为不同类型的白血病亚型之间的区分奠定了基础。研究进一步引入了一种受临床程序启发的分层方法,能够准确地对多种类型的白血病以及反应性细胞和健康细胞进行分类。本研究的一大部分涉及对卷积神经网络(CNNs)和视觉变换器(ViTs)作为分类器性能的详细考察。所提出的方法表现出令人印象深刻的成功率,实验结果证实其在所有白血病亚型上的准确率达到约90%。提供了实验结果的可视化表示,以增强模型的可解释性并帮助理解分类过程。
发布时间: 2/18/2025
查看原文
作者: Nolan Fey, Gabriel B. Margolis, Martin Peticco, Pulkit Agrawal
arXiv:2502.10894v1 宣传类型:交叉 摘要:实现机器人在运动中的动作操控需要超越传统的跟踪奖励——这些奖励仅仅引导机器人沿参考轨迹运动——转向能够驱动真正动态、目标导向行为的任务奖励。例如,“尽可能远地扔球”或“尽可能快地举重”的指令促使机器人展现类似于体育表现的敏捷性和力量。然而,仅使用任务奖励进行训练会带来两大主要挑战:这些奖励容易被滥用(奖励黑客攻击),并且探索过程可能缺乏足够的方向。为了解决这些问题,我们提出了一种两阶段的训练管道。首先,我们引入了无监督执行器网络(UAN),该网络利用现实世界的数据来弥合复杂执行机制的模拟到现实差距,而无需访问扭矩感知。UAN通过确保学习到的行为保持稳健和可转移性来防止奖励黑客攻击。其次,我们采用了一种预训练和微调策略,利用参考轨迹作为初步线索来引导探索过程。借助这些创新,我们的机器人运动员能够在从模拟到现实的过程中学会以惊人的保真度进行举重、扔球和拖拽。
发布时间: 2/18/2025
查看原文
作者: Jiaru Zhang, Rui Ding, Qiang Fu, Bojun Huang, Zizhen Deng, Yang Hua, Haibing Guan, Shi Han, Dongmei Zhang
arXiv:2502.10883v1 类型: cross 摘要: 因果发现是一种结构化预测任务,旨在根据变量的数据样本预测变量间的因果关系。监督因果学习(SCL)是该领域的新兴范式。现有的基于深度神经网络(DNN)的方法通常采用“节点-边”方法,在这种方法中,模型首先为每个变量计算一个嵌入向量,然后使用这些变量级表示独立地预测每个有向因果边。在本文中,我们首先展示了这种架构存在一些系统偏差,无论模型大小和数据量如何,这种偏差都无法消除。我们随后提出了SiCL,这是一种基于DNN的SCL方法,它可以预测骨架矩阵以及一个v-张量(表示v-结构的三阶张量)。根据马尔可夫等价类(MEC)理论,在标准的MEC设置下,骨架和v-结构是可以识别的因果结构,因此关于骨架和v-结构的预测不受因果发现中的可识别性限制的影响,因此SiCL可以避免“节点-边”架构中的系统偏差,并能够为因果发现提供一致的估计量。此外,SiCL还配备了一个特别设计的成对编码模块,具备单向注意力层,用于建模节点对的内部和外部关系。在合成数据和真实世界的基准测试上的实验结果显示,SiCL在与其他基于DNN的SCL方法的对比中显著表现出色。
发布时间: 2/18/2025
查看原文
作者: Chao Tian (Shitz), Shlomo Shamai (Shitz)
arXiv:2502.10878v1 类型: 交叉 摘要: 部分信息分解最近在生物信号处理和机器学习中找到了应用。尽管如此,分解最初是通过非正式和启发式的方式引入的,其精确的操作含义仍然不明确。在本文中,我们通过将部分信息分解与广播信道的容量联系起来填补了这一空白,而广播信道的容量在信息理论文献中已经被广泛研究。我们展示,分解中的协同信息可以严格地解释为相应广播信道上的合作增益,或者是这一增益的下界。这种解释有助于从业者更好地解释并扩展部分信息分解技术的应用。
发布时间: 2/18/2025
查看原文
作者: Shib Dasgupta, Michael Boratko, Andrew McCallum
arXiv:2502.10875v1 交叉类型:cross 摘要:个性化项推荐通常受到数据稀疏性的困扰,这通常通过低秩矩阵分解来学习用户和项目向量表示来解决。虽然这种方法通过假设用户和电影可以通过线性相关的潜在特征来表示从而有效地稀疏矩阵进行了填充,但它并没有捕捉到更复杂的交互方式。例如,向量表示在处理集合论关系(如否定和交集)方面遇到困难,例如推荐“喜剧和动作,但不是浪漫”的电影。在本项工作中,我们将个性化项推荐问题形式化为矩阵补全问题,其中行是集合论相关的。为了捕捉这种集合论依赖关系,我们将每个用户和属性表示为超矩形或盒子(即区间笛卡尔乘积)。盒嵌入可以直观地理解为可训练的文氏图,因此不仅可以直观地表示相似性(通过杰卡德指数),还可以自然且忠实地支持任意集合论关系。利用集合论约束的查询可以通过在表示空间上执行几何操作来高效地直接计算。我们通过高达30%的整体改进,从简单到复杂的项推荐查询中实证证明了盒嵌入在向量基神经方法中的优越性。
发布时间: 2/18/2025
查看原文
arXiv:2502.10871v1 标题类型: cross 摘要:这项研究探讨了大型语言模型(LLMs)如何在变压器层之间表示和回忆多相关属性。研究表明,中间层通过在重叠的空间中叠加相关属性来编码事实知识,即使在没有明确提示属性的情况下也能有效地回忆。相比之下,后续层则会细化语言模式,逐步分离属性表示,在优化特定任务输出的同时适当地缩小属性回忆范围。我们识别出多种编码模式,其中包括在探索与元素周期表相关的信息时首次观察到的3D螺旋结构。我们的发现揭示了层间属性表示的动态转变,有助于机械可解释性的提升,并为理解LLMs如何处理复杂的相互关联知识提供了洞见。
发布时间: 2/18/2025
查看原文
作者: Zeli Su, Ziyin Zhang, Guixian Xu, Jianing Liu, XU Han, Ting Zhang, Yushuang Dong
arXiv:2502.10852v1 公告类型:交叉 摘要:尽管多语言语言模型如XLM-R在自然语言处理(NLP)中推进了多语言能力,但它们在极端低资源语言中的表现仍然不佳。这一问题进一步加剧了现代大模型如LLaMA和Qwen只支持比XLM-R更少语言的事实,使许多语言在世界上缺乏用于文本生成的模型。为应对这一挑战,我们提出了一种新的框架,用于将多语言编码器适应于极端低资源语言的文本生成。通过在编码器和解码器之间重用权重,我们的框架允许模型利用编码器学习到的语义空间,从而在低资源语言中实现高效的训练和有效的泛化。将此框架应用于四种中国少数民族语言后,我们推出了XLM-SWCM,并在各种下游任务中展示了其优于更大模型的性能。
发布时间: 2/18/2025
查看原文
作者: Amey P. Pasarkar, Adji Bousso Dieng
arXiv:2502.10828v1 Announce Type: cross 摘要:显微镜的演进始于16世纪晚期的发明,一直不断加强我们探索和理解微观世界的 ability,使我们能够越来越详细地观察结构和现象。与此同时,数据驱动科学的兴起强调了探索和理解复杂数据集组成的需求,需要先进的方法。本文介绍了维DISCOPE,这是一种新的算法显微镜,旨在将传统显微镜扩展到计算分析。维DISCOPE运用了维DIS分数 —— 一种根植于生态学和量子力学的可微分多样性度量 —— 并根据数据点对整体数据集多样性贡献的程度为其分配权重。这些权重使大规模高分辨率数据分析成为可能。我们在这三个领域展示了这一点:生物学、材料科学和机器学习(ML)。我们分析了蛋白质宇宙中的2.5亿个蛋白质序列,发现了超过2亿个蛋白质几乎完全重复,并且AlphaFold在具有对多样性贡献最大的基因产物功能的蛋白质上表现不佳。将维DISCOPE应用于Materials Project数据库也得到了类似的结果:超过85%具有形成能量数据的晶体是几乎完全重复的,机器学习模型在具有增强多样性功能的材料上表现不佳。此外,维DISCOPE还可以用于研究生成模型中的记忆现象。我们使用维DISCOPE从13个不同的生成模型中识别出被记忆的训练样本,并发现表现最好的模型通常记忆的是那些对多样性贡献最小的训练样本。我们的发现表明,维DISCOPE可以作为数据驱动科学的强大工具。
发布时间: 2/18/2025
查看原文