LLM2D

arXiv 论文列表

作者: Danrui Li, Sen Zhang, Sam S. Sohn, Kaidong Hu, Muhammad Usman, Mubbasir Kapadia
arXiv:2502.07128v1 Announce Type: cross 摘要:计算机游戏,特别是纸牌游戏的原型设计,需要大量的人力在创意构思和游戏评价方面付出努力。最近在大规模语言模型(LLMs)方面的进展为自动化和简化这些过程提供了机会。然而,LLMs在设计超越现有数据库的新游戏机制、生成一致的游戏环境以及为大规模评估开发可扩展的游戏AI方面仍面临挑战。本文通过引入一个全面的自动化纸牌游戏原型设计框架来解决这些挑战。该方法强调一种基于图的索引方法以生成新颖的游戏设计,一种由LLM驱动的系统,该系统通过游戏记录验证一致的游戏代码生成,以及一种使用通过自我对弈优化的大规模LLM生成的动作-价值函数构建游戏AI的方法。这些贡献旨在加快纸牌游戏原型设计的速度、减少人力劳动并降低游戏开发者的入门门槛。
发布时间: 2/12/2025
查看原文
作者: Patrick Jaillet, Jiashuo Jiang, Chara Podimata, Zijie Zhou
arXiv:2502.07115v1 公告类型: cross 摘要:大型语言模型(LLM)推理是指训练好的模型根据用户的提示,逐字生成文本的一个计算密集过程,要求高效的调度以优化延迟和资源利用率。在LLM推理中,管理键-值(KV)缓存是关键挑战之一,KV缓存可以减少冗余计算,但会引入内存约束。在这项工作中,我们理论上将带有KV缓存约束的LLM推理进行建模,并提出了新的批量和调度算法,以最小化推理延迟并有效管理KV缓存的内存。 我们分析了半在线和完全在线的调度模型,我们的结果包括三个方面。首先,在半在线提示到达模型中,我们提供了一个多项式时间算法,能在平均延迟方面实现精确最优性。其次,在具有随机提示到达的完全在线情况下,我们引入了一个高效的在线调度算法,具有常数后悔。第三,我们证明在完全在线的对抗性设置中,没有任何算法(确定性或随机性)能够达到常数竞争比。我们在一个公开的LLM推理数据集上使用Llama-70B模型和A100 GPU的实证评估显示,我们的方法在延迟和能源消耗方面显著优于当前实践中使用的基准算法。总体而言,我们的结果为更可持续和成本效益更高的LLM部署指明了道路。
发布时间: 2/12/2025
查看原文
arXiv:2502.07090v1 公告类型: cross 摘要: 准确地预测集成了表格、文本和视觉输入或输出的多模态数据对于在各种应用领域推进分析至关重要。传统方法往往难以在保持高预测准确性的同时整合异构数据类型。我们提出了生成分布预测(GDP),这是一种新颖的框架,利用条件扩散模型等多模态合成数据生成方法来提高结构化和非结构化模态的预测性能。GDP 是模型无关的,可以与任何高保真生成模型兼容,并支持领域适应的迁移学习。我们为 GDP 建立了严格的理论基础,提供了当使用扩散模型作为生成核心时对其预测准确性进行统计保证。通过估计数据生成分布并适应各种损失函数以最小化风险,GDP 能够在多模态设置中实现准确的点预测。我们通过四个监督学习任务(表格数据预测、问答、图像字幕生成和自适应分位数回归) empirical 验证了 GDP,展示了其在不同领域的多样性和有效性。
发布时间: 2/12/2025
查看原文
作者: Steven A. Lehr, Ketan S. Saichandran, Eddie Harmon-Jones, Nykko Vitali, Mahzarin R. Banaji
arXiv:2502.07088v1 宣告类型: cross 摘要:大型语言模型(LLMs)展现出类人认知的新兴模式。我们探索它们是否也反映其他较不审慎的人类心理过程。基于经典的认知一致性理论,两个预先注册的研究测试了GPT-4o在撰写关于俄罗斯领导人普京的正面或负面文章后,其对普京的态度是否朝向正面或负面改变的方向变化。确实,GPT 展现出类似于人类认知一致性效应的态度变化模式。更令人惊讶的是,当LLM被提供关于写哪篇作文(正面或负面)的幻觉选择时,态度变化的程度急剧增加。这一结果表明,GPT-4o展现出了人类自我功能的模拟物,尽管聊天机器人的行为如何真实地反映出人类态度变化的机制仍需进一步理解。
发布时间: 2/12/2025
查看原文
作者: Sayem Mohammad Imtiaz, Astha Singh, Fraol Batole, Hridesh Rajan
arXiv:2502.07072v1 交叉公告类型 摘要:每天我们都会听到大型语言模型(LLMs)的惊人成就,同样,我们也会听到它们所面临的挑战。LLMs 对其数据集中的偏见非常敏感,这导致了诸如毒性等问题。尽管已经采用了领域适应性训练来缓解这些问题,但在修理过程中,这些技术往往会不分青红皂白地调整所有模型参数,导致修理质量较差,降低了模型的灵活性。在本文中,我们介绍了一种新颖的动态切片基于意图感知的LLM修理策略,IRepair。这种方法针对模型中最易出错的部分进行选择性的修理。具体而言,我们建议动态切割模型中需要立即关注的最敏感层,并集中在那些区域进行修复。这种方法通过调整较小的部分模型,可以在不影响模型整体性能的情况下,实现更有效的修复。我们在毒性缓解设置中对来自GPT2和GPT-Neo家族的三个模型(参数范围从800M到1.6B)评估了我们的方法。我们的结果显示,IRepair在修复错误方面比最近的基线直接偏好优化技术有效43.6%,扰乱一般性能比例减少了46%。我们的实证分析还表明,错误在模型的较小部分中更为集中,并且排名前20%的层的错误密度比剩余80%的层高出773%。这强调了选择性修理的必要性。此外,我们还展示了动态选择方法对于分散在模型中的错误至关重要,以确保修复的稳健性和效率。
发布时间: 2/12/2025
查看原文
作者: Leonardo Berti, Bardh Prenkaj, Paola Velardi
arXiv:2502.07071v1 宣布类型: cross 摘要:金融市场是高度复杂的系统,具有高统计噪声、非线性、波动性和不断进化的特点。因此,刻画它们极其困难。在此,我们关注生成真实且响应迅速的限价订单簿(LOB)市场模拟任务,这对于校准和测试交易策略、进行市场影响实验以及生成合成市场数据至关重要。之前的研究表明,生成的模拟缺乏实际意义和响应性。为填补这一空白,我们提出了一种新颖的基于变换器的去噪扩散概率引擎(TRADES)来为LOB模拟。TRADES利用基于变换器的架构,根据市场状态生成现实的时间序列订单流,捕捉高频市场数据的时间和空间特性。文献中缺乏用于评估生成市场模拟模型的量化指标。为解决这一问题,我们对预测评分进行了适应,将预测评分作为MAE度量,通过在合成数据上训练股票价格预测模型并在真实数据上测试它来解决。我们在两只股票上与之前的工作进行了比较,报告显示基于预测评分相比最优已有技术分别提高了3.27倍和3.47倍,表明我们生成了适用于金融下游任务的有用合成市场数据。此外,我们评估了TRADES的市场模拟的真实性和响应性,发现它有效学习了条件数据分布,并成功应对了实验代理,从而为交易策略和市场影响实验的校准与评估提供了可能。我们开发了DeepMarket,这是首个基于深度学习的开源Python市场模拟框架。在我们的存储库中,我们包括了一个由TRADES生成模拟组成的合成LOB数据集。
发布时间: 2/12/2025
查看原文
作者: Kelly W. Zhang, Tiffany Tianhui Cai, Hongseok Namkoong, Daniel Russo
arXiv:2502.07064v1 声称类型: cross 摘要: 我们提出了一种 Thompson 抽样上下文多臂 bandit 算法的框架,在这种框架中,算法衡量不确定性并作出决策的能力取决于学习得到的生成模型的质量。不同于将环境中的不确定性看作源于不可观测的潜在参数,我们的算法将不确定性视为源自未来可能可观测但缺失的结果。如果所有这些未来结果都能观察到,就可以使用一个“oracle”策略根据完整数据集拟合决策。受这一概念的启发,每当我们需要在决策时,算法使用生成模型概率性地填补缺失的未来结果,根据填补后的完整数据集拟合策略,并使用该策略选择下一个行动。我们正式展示了这一算法是 Thompson 抽样的一种生成形式,并证明了其最先进的遗憾界。值得注意的是,我们的遗憾界:(i) 仅通过离线预测损失的质量依赖于生成模型的不确定性表示,(ii) 应用于任何“oracle”策略拟合方法,这使得 Thompson 抽样能够适应包括公平性和/或资源约束在内的决策制定环境。
发布时间: 2/12/2025
查看原文
作者: Parisa Hamedi, Roozbeh Razavi-Far, Ehsan Hallaji
arXiv:2502.07059v1 宣告类型: cross 摘要:联邦持续学习(FCL)已成为在动态环境中进行协作模型训练的稳健解决方案,其中数据样本持续生成并分布在多个设备上。本文综述了FCL,重点关注异质性、模型稳定性、通信开销和隐私保护等关键挑战。我们探讨了各种形式的异质性及其对模型性能的影响。在努力展示处理异质性数据分布的复杂性时,我们回顾了非IID数据、资源受限平台和个人化学习的各种解决方案。随后,我们回顾了确保模型稳定性和避免灾难性遗忘的技术,在非稳态环境中这是至关重要的。隐私保护技术是本文FCL工作中另一方面的内容。本文综述将联邦学习和持续学习的见解结合起来,提供了提高FCL系统有效性和可扩展性的策略,使其适用于广泛的现实场景。
发布时间: 2/12/2025
查看原文
作者: Ze Sheng, Zhicheng Chen, Shuning Gu, Heqing Huang, Guofei Gu, Jeff Huang
arXiv:2502.07049v1 类型: cross 摘要: 大型语言模型(LLMs)正在成为软件漏洞检测变革性的工具,解决了安全领域中的关键挑战。传统方法,如静态和动态分析,由于效率低下、高误报率和现代软件系统的复杂性不断提高而常常失灵。通过利用其分析代码结构、识别模式和生成修复建议的能力,LLMs,如GPT、BERT和CodeBERT等模型,提供了一种新颖且可扩展的漏洞缓解方法。本文详细介绍了LLMs在漏洞检测中的应用。它探讨了关键方面,包括模型架构、应用方法、目标语言、微调策略、数据集和评估指标。我们还分析了当前研究问题的范围,强调了现有方法的优点和不足。此外,我们探讨了跨语言漏洞检测、多模态数据分析集成和仓库级别分析等挑战。基于这些发现,我们为数据集的可扩展性、模型可解释性和在低资源场景中的应用提出了解决方案。我们的贡献有三个方面:(1)系统性地回顾了LLMs在漏洞检测中的应用;(2)对研究中的共性和差异进行了分析,并提供了一个统一的框架来理解该领域;(3)总结了关键挑战和未来的研究方向。本文为基于LLM的漏洞检测提供了有价值的见解。我们还在https://github.com/OwenSanzas/LLM-For-Vulnerability-Detection维护并定期更新最新的精选论文。
发布时间: 2/12/2025
查看原文
作者: Daniel Rodriguez-Cardenas, Alejandro Velasco, Denys Poshyvany
arXiv:2502.07046v1 交叉公告类型 摘要:语言模型(LLMs),例如训练参数达到数十亿的基于变换器的神经网络,在软件工程(SE)中变得越来越普遍。这些模型在包含代码仓库的大量数据集上进行训练,展示了对SE任务的非凡能力。然而,评估它们的有效性面临重大挑战,主要原因是用于训练和评估的数据集之间可能存在重叠。为了解决这一问题,我们引入了SnipGen,这是一种全面的代码仓库挖掘框架,旨在利用提示工程设计多任务代码生成。SnipGen旨在通过生成稳健的测试环境和定制的数据点来减轻数据污染,从而帮助研究人员和从业人员评估LLMs在代码相关任务中的表现。在我们的探索性研究中,SnipGen从GitHub提交中的338,000个最近的代码变更中挖掘了大约227,000个数据点,重点关注方法级粒度。SnipGen包含一系列可以组合成类似于链式思维的一系列提示模板,这使得对LLMs代码生成质量进行细致评估成为可能。通过提供挖掘工具、方法和数据集,SnipGen使研究人员和从业人员能够严格评估并解释LLMs在软件工程背景下的表现。
发布时间: 2/12/2025
查看原文