LLM2D

arXiv 论文列表

arXiv:2502.16291v2 通知类型: 替换-交叉 摘要:生成式人工智能(GenAI)工具正在极大扩展知识工作,如学术研究中的自动化范围和能力。虽然这些工具有望增强认知并简化流程,但也可能会增加自动化偏差,并阻碍批判性思维。为了了解最近的发展,我们对过去三年内顶级人机交互(HCI)会议的出版物进行了调查,并仔细分析了十三种工具,以更好地理解这些人工智能辅助系统的新能力及其所支持的设计空间:其中七种采用了传统的人工智能或定制的变压器方法,六种则结合了开放访问的大规模语言模型(LLMs)。我们的分析界定了新兴的设计空间,区分了专注于工作流模仿与生成性探索的工具,并提出了四项关键设计建议,以指导未来促进有意义的认知参与系统的开发:提供用户自主性与控制权、区分发散性/收敛性思维支持、确保灵活性,并优先考虑透明性/准确性。本文讨论了这些见解如何表明从简单的流程复制向生成性共创的转变,提出了社区如何通过设计直观的人工智能驱动研究界面和交互方式来利用这些新的机会。
发布时间: 4/22/2025
查看原文
作者: Zahra Aref, Sheng Wei, Narayan B. Mandayam
arXiv:2502.16054v2 安全运营公告类型: 替换-交叉 摘要:鉴于多租户云环境的复杂性以及对实时威胁缓解的不断增长需求,安全运营中心(SOCS)必须采用基于人工智能的自适应防御机制以应对高级持续性威胁(APTs)。然而,SOC分析师在处理自适应对手策略时面临挑战,需要智能的决策支持框架。我们提出了一种基于认知层次理论的深度Q网络(CHT-DQN)框架,该框架用于建模SOC分析师与基于人工智能的APT机器人之间的交互决策。SOC分析师(防御者)处于认知层次1,预测攻击者的策略,而APT机器人(攻击者)遵循层次0策略。通过将CHT纳入DQN,我们的框架利用基于攻击图(AG)的强化学习方法增强自适应SOC防御。在不同AG复杂性下的仿真实验表明,与标准DQN相比,CHT-DQN在数据保护方面表现出更高的效果,并且在行动差异方面也更小。理论下界进一步证实了其随着AG复杂性的增加而表现出的优越性。人类在环(HITL)评估中使用Amazon Mechanical Turk(MTurk)显示,使用CHT-DQN推断的转换概率的SOC分析师更接近于自适应攻击者,从而获得更好的防御结果。此外,人类行为符合前景理论(PT)和累积前景理论(CPT):参与者更倾向于不重新选择失败的动作,而更倾向于坚持成功的行为。这种不对称性反映了增强的损失敏感性以及有偏的概率权重——在失败后低估收益,在持续成功中过度估计收益。我们的研究结果强调了将认知模型集成到深度强化学习中以改善云安全中的实时SOC决策的潜力。
发布时间: 4/22/2025
查看原文
作者: Shang Yang, Junxian Guo, Haotian Tang, Qinghao Hu, Guangxuan Xiao, Jiaming Tang, Yujun Lin, Zhijian Liu, Yao Lu, Song Han
arXiv:2502.14866v2 通告类型: replace-cross 摘要:大型语言模型(LLMs)在处理长序列和复杂推理任务方面展现了显著的潜力,但由于预填充阶段注意力机制的二次计算复杂性和解码阶段 KV 缓存的大量内存占用,高效地服务这些模型仍然具有挑战性。为了解决这些问题,我们提出了 LServe,这是一种高效的系统,通过混合稀疏注意机制加速长序列 LLM 的服务。这种方法将预填充和解码注意机制中不同的硬件友好型结构稀疏模式统一到一个框架中,其中对于较不重要的标记的计算是以块为单位跳过的。LServe 展示了在长上下文 LLM 注意机制中静态和动态稀疏性的兼容性。这一设计通过结合这些优化实现了乘法加速。具体而言,我们将在预填充和解码阶段将一半的注意头转换为几乎免费的流式注意头。此外,我们发现,无论上下文长度如何,仅需要恒定数量的 KV 页面即可保持长上下文和推理能力。然后,我们设计了一个分层的 KV 页面选择策略,该策略基于查询中心相似性动态修剪 KV 页面。与 vLLM 相比,LServe 在 LLM 预填充上最多加速 2.9 倍,在解码上加速 1.3 到 2.1 倍,同时保持长上下文准确性。代码已发布在 https://github.com/mit-han-lab/omniserve。
发布时间: 4/22/2025
查看原文
arXiv:2502.09284v2 通知类型: replace-cross 摘要:随着大型语言模型(LLMs)影响力的不断扩大,人们越来越关注将语音表示与它们结合使用,以实现更加无缝的多模态处理和语音理解。本研究介绍了一种新颖的方法,该方法结合了自监督的语音表示和指令调优的语言模型,用于语音到文本的转换。该提议的方法利用模态适配器,使用英语数据将提取出的语音特征与指令调优的语言模型对齐。我们的实验表明,这种方法有效地保留了输入语音的语义内容,并且作为自监督的语音模型与指令调优的语言模型之间的有效桥梁,提供了在各种语音理解应用中的有前景的解决方案。
发布时间: 4/22/2025
查看原文
作者: Tao Huang, Junli Ren, Huayi Wang, Zirui Wang, Qingwei Ben, Muning Wen, Xiao Chen, Jianan Li, Jiangmiao Pang
arXiv:2502.08378v2 类型: replace-cross 摘要:站立控制对于人形机器人至关重要,具有与当前步行和步行操作系统(如摔倒恢复)集成的潜力。现有方法要么局限于忽略硬件约束的仿真,要么依赖于预先定义的地面特定运动轨迹,无法在真实场景中实现跨姿势站立。为了弥补这一差距,我们提出了一种名为HoST(人形站立控制)的强化学习框架,该框架从头开始学习站立控制,从而实现跨不同姿势的稳健仿真到现实世界的转换。HoST通过利用多评论家架构和基于课程的学习,在不同的模拟地形上有效地学习适应姿势的运动。为了确保成功的实际部署,我们通过平滑正则化和隐式运动速度上限来限制运动,分别缓解物理硬件上的振荡和暴力运动。在仿真实验训练后,学习到的控制策略直接部署在Unitree G1人形机器人上。我们的实验结果表明,控制器能够在广泛的实验室和户外环境中实现平滑、稳定且稳健的站立运动。更多信息和代码可在https://taohuang13.github.io/humanoid-standingup.github.io/获取。
发布时间: 4/22/2025
查看原文
作者: Yong Lin, Shange Tang, Bohan Lyu, Jiayun Wu, Hongzhou Lin, Kaiyu Yang, Jia Li, Mengzhou Xia, Danqi Chen, Sanjeev Arora, Chi Jin
arXiv:2502.07640v3 宣传类型: replace-cross 摘要:我们介绍了一种开源语言模型Goedel-Prover,截至2025年4月5日,在数学问题自动形式证明方面达到了最先进的性能。该领域的一个关键挑战是正式化数学陈述和证明的稀缺性,我们通过以下方法解决了这一问题。首先,我们训练LLM将Numina数据集中的自然语言数学问题转换为等效的Lean 4形式声明。这一过程创建了包含164万条形式声明的Goedel-Pset-v1数据集。接下来,我们通过训练一系列证明器开发了一个大型形式证明数据集。每个新的证明器可以证明之前无法证明的许多陈述,这些新的证明被添加到下一个证明器的训练集中。最后,我们获得了包含Goedel-Pset-v1中超过80万条陈述证明的Goedel-Pset-v1-solved数据集。基于Goedel-Pset-v1-solved进行监督微调(SFT)的DeepSeek-Prover-V1.5-Base得到了Goedel-Prover-SFT,该模型在miniF2F上的成功率为57.6%(Pass@32),超过了之前领导者DeepSeek-Prover-V1.5-RL(使用SFT + RL训练的专有数据集)7.6%。在PutnamBench上,Goedel-Prover-SFT成功解决了7个问题(Pass@512),在排行榜上排名第一。我们详细讨论了我们的训练方法,强调了对Goedel-Prover强有力表现起关键作用的设计选择。进一步的RL训练(包括DPO)将Goedel-Prover-SFT在miniF2F上的成功率提高到超过60%(Pass@32)。 我们还提供了关于我们训练方法和设计选择的详细讨论,以助力未来的研究。我们还完全开源了我们的代码、模型和数据集。此外,我们还开源了在Lean Workbook中的29,700个问题的形式证明,几乎是之前证明器解决的15,700个问题的两倍。
发布时间: 4/22/2025
查看原文
作者: Xiaohuan Li, Shaowen Qin, Xin Tang, Jiawen Kang, Jin Ye, Zhonghua Zhao, Yusi Zheng, Dusit Niyato
arXiv:2502.06909v2 宣告类型: replace-cross 摘要:工业物联网(IIoT)利用联邦学习(FL)进行分布式模型训练,同时保护数据隐私,而元计算通过优化和整合分布式计算资源,提高了效率和可扩展性。高效的IIoT操作需要在模型质量和训练延迟之间取得平衡。因此,FL在IIoT中的主要挑战是通过平衡模型质量和训练延迟来优化整体系统性能。本文设计了一个满意度函数,该函数考虑了数据量、信息年龄(AoI)和训练延迟,以支持元计算。此外,将满意度函数集成到节点的效用函数中,以激励IIoT节点参与模型训练。我们将服务器和节点的效用函数建模为两阶段斯塔克尔伯格博弈,并采用深度强化学习方法学习斯塔克尔伯格均衡。这种方法确保了奖励的平衡,并增强了激励方案在IIoT中的适用性。仿真结果表明,在相同的预算约束下,提出的激励方案在不牺牲模型准确性的情况下,可以提高至少23.7%的效用。
发布时间: 4/22/2025
查看原文
作者: Keano De Vos, Gert de Cooman
arXiv:2502.06249v2 通知类型: 交叉替换 摘要:通过测量,我们可以更深入地了解量子系统所处的状态。我们探讨了如何在执行此类测量的情况下描述对量子系统状态的不确定性。我们展示了通过利用可欲性、相干性和无偏性之间的交互作用,可以推导出一套通用的条件化规则。然后,我们将此规则应用于基于测量结果的条件化,并展示了如何将其推广到基于一组测量结果的条件化。
发布时间: 4/22/2025
查看原文
作者: Ruiqi Wang, Jiyu Guo, Cuiyun Gao, Guodong Fan, Chun Yong Chong, Xin Xia
arXiv:2502.06193v3 宣告类型: replace-cross 摘要: 最近,大型语言模型(LLMs)已被部署用于处理诸如代码生成等各种软件工程(SE)任务,显著地推进了SE任务的自动化。然而,评估这些LLM生成的代码和文本的质量仍是一个挑战。常用的Pass@k指标需要大量的单元测试和配置环境,要求高的人工成本,并且不适用于评估LLM生成的文本。传统的衡量标准,如BLEU,只衡量词汇层面而不是语义层面的相似性,也受到了批评。为应对这一挑战,一个新的趋势出现了,即使用LLMs进行自动评估,这种方法被称为LLM-as-a-judge。这些LLM-as-a-judge的方法声称能够在不需要高质量参考答案的情况下更好地模拟人类评估过程,且优于传统衡量标准。然而,它们在SE任务中的具体人类一致性尚未得到探索。 在这篇论文中,我们实证性地探索了LLM-as-a-judge方法在评估SE任务中的应用,重点关注其与人类判断的一致性。我们选择了七个利用通用LLM的LLM-as-a-judge方法,以及两个专门微调用于评估的LLM。在对三个最新的SE数据集(代码翻译、代码生成和代码摘要)生成的LLM响应进行生成和人工评分后,我们促使这些方法对每个响应进行评估。最后,我们将这些方法生成的分数与人类评估进行比较。结果表明,在代码翻译和生成中,基于输出的方法分别达到了81.32和68.51的皮尔逊相关系数,接近人类评估,并明显优于ChrF++,这是表现最好的传统衡量标准之一,分别为34.23和64.92。这些基于输出的方法促使LLM直接输出判断,且得分分布更为平衡,类似于人类评分的模式。最后,我们提供……
发布时间: 4/22/2025
查看原文
arXiv:2502.04963v2 宣告类型: 替换-交叉 摘要: 本文探讨了在复杂且未知干扰环境下反阻塞信道访问问题,其中干扰源能够动态调整其策略,针对不同的信道。传统的使用固定模式的信道跳转反阻塞方法对于这种动态干扰攻击无效。尽管新兴的基于深度强化学习(DRL)的动态信道访问方法在快速变化的干扰攻击下可以达到纳什均衡,但它需要大量的训练 episode。为了解决这一问题,我们提出了一种基于“比干扰源学习得更快的直觉”的快速自适应反阻塞信道访问方法,其中同步更新的粗粒度频谱预测作为基于深度Q学习(DQN)的反阻塞模型的辅助任务。这有助于模型相比标准DRL识别出更优越的Q函数,并且显著减少了训练 episode 的数量。数值结果表明,所提出的方法在模型训练中显著加速了收敛速度,相比标准DRL所需训练 episode 减少了高达70%。此外,由于有效利用了粗粒度频谱预测,它还实现了与NE策略相比10%的吞吐量提升。
发布时间: 4/22/2025
查看原文