LLM2D

arXiv 论文列表

作者: Abhimanyu Rajeshkumar Bambhaniya, Hanjiang Wu, Suvinay Subramanian, Sudarshan Srinivasan, Souvik Kundu, Amir Yazdanbakhsh, Midhilesh Elavazhagan, Madhu Kumar, Tushar Krishna
arXiv:2504.09775v1 Announce Type: cross 摘要:大型语言模型(LLMs)的快速进化推动了对日益复杂的推理流水线和硬件平台的需求。现代LLM服务超越了传统的填充-解码工作流,整合了多阶段过程,如检索增强生成(RAG)、键值(KV)缓存检索、动态模型路由和多步推理。这些阶段表现出多样化的计算需求,需要结合GPU、ASIC、CPU和运算为中心的体系结构的分布式系统。然而,现有的模拟器在建模这些异构、多引擎工作流方面缺乏准确性,限制了它们为架构决策提供信息的能力。 为解决这一缺口,我们引入了HERMES,一个异构多阶段LLM推理执行模拟器。HERMES模拟多种请求阶段,包括RAG、KV检索、推理、填充和解码,跨越复杂的硬件层次结构。HERMES支持异构客户端并发执行多个模型,并结合了高级批处理策略和多层次内存层次结构。通过将实际硬件跟踪与分析模型相结合,HERMES捕捉到了在混合CPU加速器部署中至关重要的权衡,如内存带宽竞争、跨集群通信延迟和批处理效率。通过案例研究,我们探讨了推理阶段对端到端延迟的影响、混合管道中的最优批处理策略以及远程KV缓存检索的架构影响。HERMES使系统设计师能够导航不断变化的LLM推理领域,为下一代AI工作负载的硬件-软件协同设计提供切实可行的洞察。
发布时间: 4/15/2025
查看原文
作者: Zaid Khan, Elias Stengel-Eskin, Archiki Prasad, Jaemin Cho, Mohit Bansal
arXiv:2504.09763v1 命题类型: 横跨多个领域 摘要:科学家经常从特定问题实例中推断出抽象的程序,并使用这些抽象生成新的相关实例。例如,编码系统形式规则和属性的程序在诸如RL(过程环境)和物理学(模拟引擎)等领域中非常有用。这些程序可以被视为根据其参数化执行以产生不同输出的功能函数(例如,网格世界配置或初始物理条件)。我们引入术语“EFA(可执行功能抽象)”来表示用于数学问题的此类程序。EFA类型的结构已被证明对于数学推理很有用,尤其是作为压力测试模型的问题生成器。然而,先前的工作主要局限于对简单规则易于编码的初等数学问题的抽象,而生成复杂的数学EFA则需要手工工程。我们探讨了自动构建复杂数学问题的EFA的方法。我们将自动构建EFA的任务操作化为一项程序合成任务,并开发了EFAGen,它基于种子数学问题及其逐步解决方案来条件化LLM生成与种子问题和解决方案类别相一致的候选EFA程序。此外,我们以可执行单元测试的形式形式化了任何有效的EFA必须具备的属性,并展示了如何使用这些测试作为验证奖励来训练LLM成为更好的EFA撰写者。我们通过EFAGen构建的EFA表现合理,能够忠实于种子问题,产生可学习的问题变种,并且EFAGen可以在多个多样化的比赛级数学问题来源中推断EFA。最后,我们展示了模型撰写的EFA的下游用途,例如找到对学习者来说更难或更容易解决的问题变种,以及数据生成。
发布时间: 4/15/2025
查看原文
作者: Ram Mohan Rao Kadiyala, Siddartha Pullakhandam, Siddhant Gupta, Drishti Sharma, Jebish Purbey, Kanwal Mehreen, Muhammad Arham, Hamza Farooq
arXiv:2504.09753v1 交叉类型公告: 摘要:大规模语言模型(LLMs)展现了令人瞩目的能力,但其发展主要集中在英语和其他高资源语言上,许多语言却未能得到充分的服务。我们展示了我们最新的双语 Hindi-English 大规模语言模型 \textbf{Mantra-14B},与两种语言的基准得分相比,平均提高了约 3% 的成绩,且优于其两倍规模的模型。利用由 48.5 万条样本组成的定制数据集,包含了英汉指令数据,我们对 Qwen-2.5-14B-Instruct 和 Phi-4 模型进行了指令调整,以提高两种语言的表现。我们的实验涵盖了七个不同规模参数的 LLM,以及 140 多次采用不同英汉训练数据比例的训练尝试,表明在不牺牲母语性能的情况下,可以显著提高多语言性能。此外,我们的方法避免了词汇扩张或架构修改等资源密集型技术,从而保持了模型规模的较小。结果显示,适度使用与文化和社会背景相关的数据进行微调,可以在不增加重大计算开销的情况下弥合性能差距。我们以 mit 和 apache 许可证发布我们的训练代码、数据集和模型,以帮助进一步推进对未充分代表和低资源语言的研究。
发布时间: 4/15/2025
查看原文
arXiv:2504.09738v1 类型: cross 摘要: 在视频中检测引言/字幕和主体内容之间的过渡对于内容分割、索引和推荐系统至关重要。手动标注这些过渡是劳动密集型且容易出错的,而基于启发式的方法往往无法在多样化的视频风格之间泛化。在这项工作中,我们介绍了一种基于深度学习的方法,将问题形式化为一个序列到序列的分类任务,其中视频的每一秒被标记为“引言”或“电影”。我们的方法以固定的1 FPS速率提取帧,并使用CLIP(对比语言-图像预训练)进行编码,然后使用包含学习到的位置编码的多头注意力模型处理结果特征表示。该系统在测试集上实现了F1分数为91.0%、精确率为89.0%和召回率为97.0%,并针对实时推理进行了优化,分别在CPU上达到11.5 FPS,在高端GPU上达到107 FPS。该方法在自动内容索引、亮点检测和视频摘要方面具有实际应用价值。未来的工作将探索多模态学习,结合音频特征和字幕,以进一步提高检测精度。
发布时间: 4/15/2025
查看原文
作者: Naoto Nishida, Yoshio Ishiguro, Jun Rekiomto, Naomi Yamashita
arXiv:2504.09734v1 类别: 多领域交叉 摘要:在当今全球化的世界中,个体使用一种共同的非母语语言(通用语)进行交流的机会不断增加。非母语使用者经常有机会接触外国语言,但他们可能不如母语使用者理解得那么深。为了在实时沟通中辅助理解,日常生活中经常使用实时字幕转录(例如,在Zoom对话、观看YouTube视频或社交网络平台上)。然而,在听的同时阅读字幕会增加认知负荷。在本研究中,我们提出了一种名为Dynamik的系统,通过减少不太重要的词汇的字号并增加重要词汇的字号,从而减少阅读过程中的认知负荷,增强句子对比度。我们的结果显示,Dynamik可以在一定程度上减少认知负荷,特别是在英语较差的个体中,可以使他们的感知表现和努力降低,并且可以增强用户的理解感,尤其是在英语能力较差的人群中。我们进一步讨论了该方法在其他语言中的适用性以及潜在的改进和进一步的研究方向。
发布时间: 4/15/2025
查看原文
作者: Andreas Naoum, Parag Khanna, Elmira Yadollahi, M{\aa}rten Bj\"orkman, Christian Smith
arXiv:2504.09717v1 宣告类型: cross 摘要:这项工作旨在解释人类行为,以预测当机器人在解释故障时可能会引起用户的混淆,从而让机器人能够针对更自然和高效的协作进行解释的调整。我们使用包含55名参与者用户研究中面部情绪检测、眼动估计和手势的数据集,分析了人类行为在面对不同类型故障和不同解释水平时如何变化。我们的目标是评估人类合作者是否能够在不引起混淆的情况下接受较为简略的解释。我们制定了一种基于数据的预测器,用于预测机器人故障解释期间的人类混淆情况。我们还提出并评估了一种机制,该机制根据观察到的人类行为来调整解释的详细程度。这项评估的有希望的结果表明了此项研究在适应机器人故障解释以增强协作体验方面的潜力。
发布时间: 4/15/2025
查看原文
arXiv:2504.09716v1 类型:交叉学科 摘要:支配是博弈论中的一个基本概念。在战略型博弈中,支配策略可以在多项式时间内被识别。因此,在计算纳什均衡之前,可以通过移除支配策略作为预处理步骤来有效地减少博弈规模。在不完美信息博弈的扩展形式中,我们可以通过将博弈转换为战略型,然后以相同的方式逐次移除支配策略;然而,这种转换可能会导致博弈规模的指数级增长。在本文中,我们定义并研究了不完美信息博弈中的支配行动的概念。我们的主要结果是一个能够在多项式时间内确定某个行动(严格或弱)被任意混合策略支配的算法,这一算法可以扩展为逐次移除支配行动的算法。这使得我们可以在计算纳什均衡之前作为预处理步骤有效地缩减博弈树的规模。我们通过在“全押或弃牌”的无限德州扑克变体中探讨支配行动的角色进行了实验性研究。
发布时间: 4/15/2025
查看原文
作者: Ay\c{s}e Aysu Cengiz, Ahmet Kaan Sever, Elif Ecem \"Um\"utl\"u, Naime \c{S}eyma Erdem, Burak Aytan, B\"u\c{s}ra Tufan, Abdullah Topraksoy, Esra Dar{\i}c{\i}, Cagri Toraman
arXiv:2504.09714v1 宣传类型:交叉 摘要:对来自英语或多种语言资源的翻译或改编数据集的依赖引入了语言和文化适应性方面的问题。本研究通过评估17个常用的土耳其基准数据集的质量,以应对对稳健且文化适宜的标准的需求。使用一个全面的框架来评估六个标准,人类注释者和LLM注释者提供详细的评估,以识别数据集的优势和不足。 我们的结果显示,70%的基准数据集未能达到我们的启发式质量标准。技术术语使用的正确性是最重要的标准,但审查的数据集中有85%的标准未被满足。尽管LLM注释者显示出潜力,但在理解文化常识知识和解读流畅、明确的文本方面,它们的效果不如人类注释者。GPT-4o在语法和技术任务的标记能力方面更强,而Llama3.3-70B在正确性和文化知识评估方面表现突出。我们的发现强调了在为低资源语言创造和调整数据集时进行更严格的质量控制的迫切需求。
发布时间: 4/15/2025
查看原文
作者: Julius Broomfield, Tom Gibbs, Ethan Kosak-Hine, George Ingebretsen, Tia Nasir, Jason Zhang, Reihaneh Iranmanesh, Sara Pieri, Reihaneh Rabbany, Kellin Pelrine
arXiv:2504.09712v1 类别:交叉学科 摘要:LLM 捅破安全挑战是一个普遍存在的问题。鉴于这个问题目前尚未找到解决办法,我们建议将目标集中在一个关键的失败机制上:安全在语义等价输入上的泛化失败。我们进一步通过要求攻击具有研究所需的可处理性特性来聚焦目标:可解释性、模型间的可迁移性,以及目标间的可迁移性。在这一框架内,我们通过发现针对多回合、多图像和翻译攻击的新漏洞来进行红队测试。这些攻击的设计使其与单回合、单图像或未翻译的对应版本在语义上等价,从而使得系统性对比成为可能;我们展示了不同的结构导致了不同的安全结果。随后,我们提出了这种框架的潜在应用,通过提出一种结构重写护栏(Structure Rewriting Guardrail)的方式,将输入转换为更有利于安全性评估的结构。这种护栏显著提高了对有害输入的拒绝,同时避免过度拒绝良性输入。因此,通过界定这一中间挑战——比普遍防御更可处理,但对长期安全至关重要——我们强调了AI安全研究中的一个关键里程碑。
发布时间: 4/15/2025
查看原文
arXiv:2504.09704v1 宣告类型: cross 摘要:基于Transformer的模型在自然语言处理和视觉任务中取得了显著的成功,但由于基因表达数据的稀疏性、高维度和缺失值问题,其在基因表达分析中的应用仍然受到限制。我们提出了一种基于Transformer的自动编码器框架GexBERT,用于稳健的基因表达数据表示学习。GexBERT通过在大规模转录组谱型上进行预训练,使用一个掩码和恢复目标来捕捉成千上万基因之间的共表达关系,从而学习上下文感知的基因嵌入。我们评估了GexBERT在癌症研究中的三个关键任务:泛癌分类、癌症特异性生存预测和缺失值填充。GexBERT从有限的基因子集中实现了最先进的分类准确性,通过对预后锚基因的表达恢复改进了生存预测,并在高缺失情况下优于传统的填充方法。此外,其基于注意力的可解释性揭示了跨癌症类型具有生物学意义的基因模式。这些发现表明,GexBERT作为一种可扩展且有效的基因表达建模工具,在基因覆盖有限或不完整的情况下具有转化潜力。
发布时间: 4/15/2025
查看原文