LLM2D

arXiv 论文列表

作者: Qingsong Zou, Jingyu Xiao, Qing Li, Zhi Yan, Yuhang Wang, Li Xu, Wenxuan Wang, Kuofeng Gao, Ruoyu Li, Yong Jiang
arXiv:2502.09723v2 通告类型: replace-cross 摘要:近期大语言模型(LLMs)在自然语言处理领域的应用展现了非凡的潜力。不幸的是,LLMs 面临着重要的安全和伦理风险。尽管已经发展了诸如安全对齐等防御技术,但先前的研究揭示了通过精心设计的 Jailbreak 攻击绕过这些防御的可能性。在本文中,我们提出了一种名为 QueryAttack 的新型框架,用于检验安全对齐的泛化能力。通过将 LLM 视作知识数据库,我们将自然语言中的恶意查询转化为结构化的非自然查询语言,从而绕过 LLM 的安全对齐机制。我们在主流的大语言模型上进行了广泛的实验,结果显示,QueryAttack 不仅可以实现高攻击成功率(ASRs),还能突破各种防御方法。此外,我们针对 QueryAttack 设计了一种防御方法,该方法在 GPT-4-1106 上将 ASR 减少高达 64%。我们的代码可在 https://github.com/horizonsinzqs/QueryAttack 获取。
发布时间: 2/21/2025
查看原文
作者: Sougata Saha, Saurabh Kumar Pandey, Harshit Gupta, Monojit Choudhury
arXiv:2502.09636v2 宣布类型: replace-cross 摘要:在一个快速全球化的数字世界中,来自不同文化的人员创建的书籍和产品评论被世界各地的其他人阅读和消费。在本文中,我们研究了由于存在文化特定的项目和元素而导致书籍评论理解上的差距的程度和模式,这些项目和元素对于来自其他文化的用户可能是陌生的。对来自Goodreads的57条书籍评论的研究发现,83%的评论至少包含一个文化特定的难以理解的元素。我们还评估了GPT-4o在考虑读者的文化背景时识别此类项目的有效性;结果是混合的,暗示了改进的显著空间。我们的数据集可在此处获取:https://github.com/sougata-ub/reading_between_lines
发布时间: 2/21/2025
查看原文
arXiv:2502.07752v2 优化器类型:替换交叉 摘要:为大型语言模型(LLMs)设计高效且内存需求低、收敛速度快的优化器是一项重要且具有挑战性的问题。本文通过结构化的fisher信息矩阵(FIM)逼近的视角,对这种优化器的设计做出了系统性尝试。我们展示了,许多最先进的高效优化器可以被视为在特定结构假设下FIM逼近(基于Frobenius范数)的解决方案。基于这些见解,我们提出了两种实用高效的LLMs优化器设计建议,涉及谨慎选择结构假设来平衡通用性和效率,并通过一种新颖的低秩扩展框架增强优化器的整体内存效率。我们通过推导新的内存高效优化器—行列缩放SGD(RACS)和自适应低维子空间估计(Alice)来展示每种设计方法的应用。对LLaMA预训练(多达1B参数)进行的实验验证了这些方法的有效性,显示它们比现有内存高效的基线方法和Adam具有更快、更好的收敛速度,且内存开销较少。值得注意的是,Alice相比Adam实现了超过2倍的更快收敛速度,而RACS在1B模型上表现出类似SGD的内存效率,同时保持了强劲性能。
发布时间: 2/21/2025
查看原文
arXiv:2502.06866v2 通告类型: 替换-交叉 摘要:全球经济的剧烈变化、地缘政治条件以及诸如 COVID-19 大流行等中断已经影响了生活成本和生活质量。了解主要经济体中生活成本和生活质量的长期性质是至关重要的。一个透明而全面的生活指数必须涵盖多个生活条件维度。在本研究中,我们提出了一种通过全球生活便利指数来量化生活质量的方法,该指数将各种社会经济和基础设施因素综合为一个单一的综合评分。我们的指数利用了定义生活标准的经济指标,这有助于针对特定领域实施有针对性的干预措施。我们提出了一种机器学习框架,以解决某些经济指标在特定国家中缺失的问题。然后,我们整理和更新数据,并使用降维方法(主成分分析)创建1970年以来主要经济体的生活便利指数。我们的研究在文献中做出了重要贡献,为政策制定者提供了一种实用工具,以识别需要改进的领域,如医疗保健系统、就业机会和公共安全。我们的方法使用开放数据和代码可以轻松重现并应用于各种情境。这种透明度和可访问性使我们的研究成为持续研究和生活质量评估政策发展的重要资源。
发布时间: 2/21/2025
查看原文
作者: Avihay Chriqui, Inbal Yahav, Dov Teeni, Ahmed Abbasi
arXiv:2502.06811v2 通知类型: 替换-交叉 摘要:注意力,或是在不同信息项之间进行优先级排序的能力,是任何学习过程中的一个关键要素,无论是对人类还是机器。鉴于人类在某些学习任务上仍然超越机器,通过使机器的注意力机制与人类的注意力机制相一致来提升机器的表现似乎是合乎逻辑的——然而,关于这一领域的研究并不多且成果有限。本文提出了一种解决这一问题的新方法,称为人类-机器注意学习(HuMAL)。该方法依赖于人类标注的数据,以反映他们在特定任务中的自我感知注意力。我们使用情感分析任务(Yelp上的评论数据)和人格类型分类任务(myPersonality的数据)评估了几种将此类人类注意力数据整合到机器学习(ML)算法中的策略。表现最佳的HuMAL策略显著提高了微调的变压器模型(包括BERT、GPT-2和XLNET)的任务性能,并且在不平衡或稀疏标注数据的挑战条件下尤其明显。这项研究有助于加深对如何将人类注意力整合进ML模型策略的理解,并突显了利用人类认知来增强实际应用中的ML的潜力。
发布时间: 2/21/2025
查看原文
作者: Jules R. Kala, Emmanuel Adetiba, Abdultaofeek Abayom, Oluwatobi E. Dare, Ayodele H. Ifijeh
arXiv:2502.05980v2 宣告类型: 替换-交叉 摘要:瀑布模型的语音到语音翻译长期以来被视为一个基准,但受到许多问题的困扰,比如将一种语言的语音翻译成另一种语言所需的时间以及复合错误。这些问题源于瀑布模型结合了语音识别、语音到文本翻译和最终的文本到语音翻译等多种方法。谷歌设计了Translatotron模型,这是一种直接语音到语音翻译的序列到序列模型,旨在解决与瀑布模型相关的复合错误问题。目前,Translatotron模型有三个版本:Translatotron 1、Translatotron 2 和 Translatotron 3。第一个版本被设计为概念验证,以证明直接语音到语音翻译的可能性,虽然它的效果不如瀑布模型,但显示出令人鼓舞的结果。Translatotron 2 是Translatotron 1 的改进版本,其结果与瀑布模型相似。Translatotron 3 作为最新的模型,在某些方面优于瀑布模型。在本文中,我们将对语音到语音翻译进行全面回顾,特别是重点介绍所有版本的Translatotron模型。我们还将展示,Translatotron是填补非洲语言与其他正式语言之间语言鸿沟的最佳模型。
发布时间: 2/21/2025
查看原文
作者: Eric Zhao, Pranjal Awasthi, Sreenivas Gollapudi
arXiv:2502.01839v2 宣告类型: replace-cross 摘要:基于采样的搜索是一种利用推理时计算资源的简单范式,涉及生成多个候选响应并选择最佳响应——通常是由模型自我验证每个响应的正确性。在本文中,我们研究了控制基于采样的搜索的扩展趋势。我们的发现之一是,简单地扩展基于采样的搜索的最小实现版本,仅使用随机采样和直接自我验证,提供了一种实用的推理方法,例如,在流行基准测试中,这提高了Gemini v1.5 Pro的推理能力,使其超过o1-Preview。我们部分归因于基于采样的搜索的可扩展性到一种隐含的扩展现象,即在更大规模的响应池中进行采样会提高自我验证的准确性。我们还识别出了两个有用的原理,以提高基于推理时计算资源的自我验证能力:(1)在不同响应之间进行比较可以提供有关错误和幻觉位置的有用信号;(2)不同的模型输出风格在不同上下文中很有用——推理过程中的思维链很有用,但难于验证。我们还发现,尽管可以引发准确的验证,最前沿的模型在开箱即用的验证能力方面表现出令人惊讶的薄弱,我们引入了一个基准测试来衡量这些缺陷的进展。
发布时间: 2/21/2025
查看原文
作者: Rongzhao He, Weihao Zheng, Leilei Zhao, Ying Wang, Dalin Zhu, Dan Wu, Bin Hu
arXiv:2501.14679v5 Announce Type: replace-cross 摘要:基于注意力的方法在球形皮层表面建模长程依赖关系方面表现出色,超越了传统的几何深度学习(GDL)模型。然而,它们的广泛推理时间和高内存需求给在计算资源有限的大数据集上的应用带来了挑战。受计算机视觉中的状态空间模型的启发,我们提出了无注意力的Vision Mamba(Vim),将其应用于球形表面,提出了一种适用于球面流形上数据分析的通用架构。我们的方法通过将球形数据表示为由细分后的icosphere导出的三角形片段序列来实现表面补丁。提出的Surface Vision Mamba(SiM)在使用新生儿皮层表面指标进行多种神经发育表型回归任务中进行了评估。实验结果表明,SiM 在Ico-4网格划分下比Surface Vision Transformer(SiT)快4.8倍,并且内存消耗降低了91.7%。进一步的敏感性分析强调了SiM 识别细微的认知发育模式的潜力。代码可在 https://github.com/Rongzhao-He/surface-vision-mamba 获取。
发布时间: 2/21/2025
查看原文
作者: Elias Abad Rocamora, Grigorios G. Chrysos, Volkan Cevher
arXiv:2501.13676v2 宣布类型: replace-cross 摘要:文本分类器对小扰动非常敏感,如果这些扰动是敌对选择的,可能会剧烈改变模型的输出。验证方法可以通过计算鲁棒准确率的有保证的下界,来提供对抗性扰动下的鲁棒性证书。然而,现有的验证方法成本极高,且无法实际处理莱文斯坦距离约束。我们首次提出了一种计算卷积分类器在莱文斯坦距离下的Lipschitz常数的方法。我们使用这些Lipschitz常数估计值对1-Lipschitz分类器进行训练。这使得在单次前向传播过程中就可以计算出分类器的认证半径。我们的方法LipsLev在AG-News数据集上分别在距离为1和2时,能够分别获得38.80%和13.93%的验证准确率,其速度比现有方法快4个数量级。我们认为我们的工作可以为文本领域的更高效验证打开大门。
发布时间: 2/21/2025
查看原文
作者: Taoran Fang, Tianhong Gao, Chunping Wang, Yihao Shang, Wei Chow, Lei Chen, Yang Yang
arXiv:2501.13456v2 通知类型: 替换-交叉 摘要:具有注意力机制的图神经网络(GNNs),通常被称为注意型GNN,近年来已成为高级GNN模型中的一个显要范式。然而,我们对评分相邻节点的关键过程的理解仍然有限,导致了许多现有注意型GNN的性能不佳。在本文中,我们统一了当前注意型GNN的评分函数,并提出了Kolmogorov-Arnold 注意(KAA),它将Kolmogorov-Arnold 网络(KAN)架构整合到评分过程中。KAA 在整体上增强了评分函数的表现,并可以应用于几乎所有现有的注意型GNN。为了比较KAA与其他评分函数的表达能力,我们引入了最大排名距离(MRD)来定量估计它们在节点重要性排名误差方面的上界。我们的分析揭示了,在限制参数和宽度、深度的条件下,基于线性变换的和基于MLP的评分函数均表现出有限的表达能力。相比之下,我们提出的服务于KAA,即使使用单层KAN并由零阶B样条函数参数化,也显示出几乎是无限的表达能力。使用各种骨干模型进行的密集实验表明,增强后的KAA评分函数始终优于它们的原始版本,在某些情况下,性能提升超过20%。
发布时间: 2/21/2025
查看原文