arXiv:2412.10416v2 宣告类型: replace-cross
摘要:大型语言模型,如ChatGPT、Claude或LLaMA,是庞大的、单一的,并且具备同时支持数千任务的超能力。然而,高吞吐量应用往往偏好更小的任务特定模型,因为它们的延迟较低且成本更低。使用任务特定模型的一个挑战是在模型已经部署用于现有任务之后,需要解决新的任务。一个简单的解决方案是再次对现有和新任务进行模型微调,这在计算上是昂贵且耗时的。为了解决这个问题,我们提出了一种称为SUPERMERGE的模型合并方法。SUPERMERGE是一种基于梯度的方法,用于系统地合并多个针对现有和新任务训练的微调模型。SUPERMERGE被设计为轻量且快速,合并后的模型在所有任务上的性能与完全微调的模型相当。此外,我们提出了一种分层模型合并策略,以降低峰值空间需求而不牺牲合并模型的性能。我们实验证明,SUPERMERGE在常见的自然语言处理和计算机视觉任务上优于现有的模型合并方法。
arXiv:2412.09078v3 宣告类型: replace-cross
摘要: 大型语言模型(LLMs)在各种语言任务中展现了惊人的能力,但在解决复杂推理问题方面仍面临重大挑战。尽管现有方法,如思维链(Chain-of-Thought, CoT)和思维树(Tree-of-Thought, ToT),通过分解问题或结构化提示来增强推理能力,但它们通常只进行一次推理过程,并且可能无法重新审视错误的路径,从而损害准确性。为了应对这一局限性,我们提出了一种新的推理框架,称为思维森林(Forest-of-Thought, FoT),该框架结合了多个推理树,借助集体决策来解决复杂逻辑问题。FoT 使用稀疏激活策略选择最相关的推理路径,从而提高效率和准确性。此外,我们还引入了一种动态自我修正策略,以实现实时错误修正,并采用共识引导的决策策略来优化正确性和计算资源。实验结果表明,结合这些策略的FoT框架显著增强了LLMs的推理能力,使其能够以更高的精度和效率解决复杂任务。代码将在 https://github.com/iamhankai/Forest-of-Thought 可用。
arXiv:2412.08098v2 宣告类型: replace-cross
摘要:最近的研究表明,大规模语言模型(LLMs)在软件工程任务中表现出色,包括代码生成和理解。尽管LLMs在辅助编码方面显示出巨大的潜力,但人们认为LLMs容易受到 adversarial attacks 的影响。在本文中,我们调查了LLMs对不可感知攻击的脆弱性,其中源代码中的隐藏字符操纵会误导LLMs的行为,但对人类审查者来说是不可检测的。我们将这些攻击分为四个不同的类别,并分析了它们对代码分析和理解任务的影响。这四种不可感知的编码字符攻击包括编码重排、隐形编码字符、代码删除和代码同形词。为了全面评估当前LLMs解决方案对攻击的鲁棒性,我们对多款最先进的LLMs进行了系统的实验评估。我们的实验设计引入了两个关键性能指标,即使用响应的对数概率衡量的模型信心,以及响应的正确性。使用大量修改和未修改的代码片段作为主要提示输入,进行了若干受控实验。我们的研究结果证实了LLMs对不可感知编码字符攻击的易感性,而不同的LLMs在干扰程度与性能之间表现出不同的负相关关系。这些结果强调了在不可感知对抗条件下需要具有鲁棒性的LLMs的迫切需求。我们期望这项工作为增强LLMs在软件工程应用中的安全性和可信赖性提供宝贵的见解。
arXiv:2412.07214v3 宣告类型: replace-cross
摘要:探索性数据分析(EDA)与SQL结合使用,对于参与数据探索和分析的数据分析师来说至关重要。然而,数据分析师常常面临两大主要挑战:(1)熟练地编写SQL查询,以及(2)生成合适的可视化类型以增强查询结果的解读能力。鉴于其重要性,已经开展了大量研究工作,探索解决这些挑战的不同方法,包括利用大规模语言模型(LLMs)。然而,现有的方法在实际数据探索需求中表现出不足,主要原因在于(1)复杂的数据库模式;(2)不明确的用户意图;(3)有限的跨域泛化能力;以及(4)缺乏端到端的文本到可视化生成能力。
本文提出了TiInsight,这是一种自动化的基于SQL的跨域探索性数据分析系统。首先,我们提出层次化数据上下文(即HDC),利用LLMs总结与数据库模式相关的上下文,这对于开放世界EDA系统跨数据域进行泛化至关重要。其次,EDA系统分为四个组件(即阶段):HDC生成、问题澄清和分解、文本到SQL生成(即TiSQL)和数据可视化(即TiChart)。最后,我们在PingCAP的生产环境中实现了具有用户友好图形用户界面的端到端EDA系统。我们还向EDA社区开源了TiInsight的所有API,以促进相关研究。通过现实世界用户的广泛评估,我们证明了TiInsight相对于人类专家的表现极为出色。特别是在使用GPT-4的Spider数据集上,TiSQL的执行准确率达到86.3%。它还在Bird数据集上展示了最先进的性能。
arXiv:2411.06426v2 宣布类型: replace-cross
摘要:随着大型语言模型(LLMs)在各种应用中的集成增加,它们受到滥用的可能性也在增加,这引发了重大安全问题。已经提出了许多“开小差”攻击来评估LLMs的安全防御能力。当前的“开小差”攻击主要依赖于场景伪装、提示混淆、提示优化和提示迭代优化来隐藏恶意提示。特别是,在单个查询中的顺序提示链可以使LLMs专注于某些提示而忽略其他提示,从而便于上下文操控。本文介绍了一种名为“SequentialBreak”的新“开小差”攻击,利用了这一漏洞。我们在问题库、对话完成和游戏环境等场景中讨论了有害提示嵌入在看似无害的提示中,使LLMs产生有害响应的情况。这些场景的不同叙事结构表明,“SequentialBreak”足够灵活,可以适应超出讨论范围的各种提示格式。广泛的实验表明,“SequentialBreak”仅使用单个查询即可显著提高攻击成功率,超越现有的基线模型,无论是开源模型还是封闭源模型。通过我们的研究,我们强调了对更强大和更具抵御性的保护措施的需求,以增强LLM的安全性并防止潜在的滥用。所有与此研究相关的结果文件和网站均可在以下GitHub仓库中访问:https://anonymous.4open.science/r/JailBreakAttack-4F3B/。
arXiv:2411.00843v2 宣告类型: replace-cross
摘要:逻辑综合是电路设计过程中的一个关键阶段,负责将硬件描述语言(HDL)设计转换为优化后的网表。然而,传统逻辑综合方法计算强度大,限制了其在精化芯片设计过程中的迭代使用。最近,大型语言模型(LLMs),尤其是那些经过编程语言微调的模型,提供了一种有前途的替代方案。本文提出将预测网络与LHL代码直接估计电路质量结合起来的LLMs。为了增强性能,该模型使用以查找表(LUT)图训练的图神经网络(GNN)嵌入进行正则化,从而结合了低级电路洞察。所提出的方法在现有的基于图的RTL级估计技术上,在公认的基准OpenABCD上显示出优越的性能,同时提供即时反馈以评估HDL代码质量。
arXiv:2410.22099v4 宣传类型: 替换-交叉
摘要:脑成像研究已经证明,扩散磁共振成像(dMRI)追踪的几何形状描述符能够为研究大脑白质路径及其与脑功能的关系提供信息。在本文中,我们探讨了利用深度学习模型计算大脑白质连接的形状度量的可能性。我们引入了一个新的框架TractShapeNet,该框架利用dMRI追踪的点云表示来计算五个形状度量:长度、展长、体积、总面积和不规则性。我们在包括1065名健康年轻人的大数据集上评估了该方法的性能。形状度量计算的实验表明,我们提出的TractShapeNet在皮尔逊相关系数和归一化误差度量方面均优于其他基于点云的神经网络模型。我们将推理运行时结果与传统的形状计算工具DSI-Studio进行了比较。我们的结果表明,深度学习方法能够实现更快、更高效的形状度量计算。我们还对两个下游的语言认知预测任务进行了实验,结果显示,TractShapeNet计算的形状度量与DSI-Studio计算的形状度量表现相似。我们的代码将在以下链接中提供:https://github.com/SlicerDMRI/TractShapeNet。
arXiv:2410.21719v2 Announce Type: replace-cross
摘要:在没有参考数据的情况下评估生成模型的多样性存在方法论上的挑战。参考数据免费的 Vendi 分数通过使用矩阵熵度量量化生成数据的多样性提供了一种解决方案。Vendi 分数通常通过计算包含 n 个生成样本的 n × n 核矩阵的特征分解来计算。然而,对于大 n 值,特征分解的高计算成本往往限制了实践中使用的样本数量至几万个。在本文中,我们研究了 Vendi 分数的统计收敛性。我们数值上证明,对于具有无限特征映射维度的核函数,从有限样本数量估计的分数与总体 Vendi 分数,即样本数量趋于无穷大的渐近极限,可能存在不可忽视的偏差。为解决这一问题,我们引入了 Vendi 统计量的截断版本,称为 t 截断的 Vendi 统计量,给定 n=O(t) 的样本数量,它可保证收敛于其渐近极限。我们证明了现有的 Nyström 方法和 FKEA 近似方法用于近似 Vendi 分数,都收敛于截断的总体 Vendi 分数。我们进行了几项数值实验来说明 Nyström 和 FKEA 计算的 Vendi 分数围绕截断的 Vendi 集中的情况,并讨论了截断的 Vendi 分数与图像和文本数据多样性的相关性。
arXiv:2410.21236v2 宣告类型: 更换和交叉
摘要:自ChatGPT发布以来,大型语言模型(LLMs)在各个领域都展现了卓越的能力。在开发这些通用能力的过程中,一个关键挑战是如何高效地获取多样且高质量的数据。在需要沙盒检查器的推理相关任务中,特别是在数学或代码任务中,目标是生成更高概率的正确解决方案。在本文中,我们介绍了一种简单而有效的采样方法——Flaming-hot Initiation with Regular Execution (FIRE)采样,以高效地找到好的回应。我们的实证研究显示,FIRE采样可以提高推理时生成的质量,并且也有助于对齐阶段的训练。此外,我们还探索了FIRE采样通过促进多样性和在回应的不同位置采用FIRE采样对性能的改进,并分析了在回应的不同位置采用FIRE采样的影响。
arXiv:2410.20856v2 宣布类型: replace-cross
摘要:交通预测是智能交通系统的关键组成部分。通过在空间和时间维度上推理交通模式,可以提供准确且可解释的预测。交通预测中的一个重大挑战在于处理不同地理位置因不同交通状况导致的多样数据分布。LLMs(大语言模型)因其在很少有标注数据样本的情况下能够迅速适应新数据集的能力而成为主导解决方案,即少量样本的适应性。然而,现有的预测技术主要集中在提取局部图信息并形成类似文本的提示,使得基于LLM的交通预测成为一个开放问题。本文介绍了具有三个亮点的概率LLM用于交通预测。我们提出了一个考虑临近交通信息的图感知LLM进行交通预测。具体来说,通过将邻近节点的交通作为协变量来考虑,我们的模型在时间序列LLM的基础上表现更优。此外,我们在少量样本适应性场景中采用了轻量级的方法,以应对新的数据分布。比较实验表明,所提出的方法在基于LLM的方法和传统的基于GNN的监督方法中均表现出色。此外,Strada-LLM可以轻松适应不同的LLM基础模型,而不显著影响性能。