arXiv:2505.03764v1 宣告类型:-cross
摘要:神经形态计算旨在复制大脑惊人的能效和并行处理能力,以满足大规模人工智能应用的需求。在这项工作中,我们对三种放电信号神经元电路架构进行了全面的比较研究——漏电流-积分-放电(LIF),Morris-Lecar(ML)和轴突-希洛克(AH)——它们均以7纳米FinFET技术实现。通过广泛的SPICE仿真,我们探索了放电信号频率、每脉冲能量消耗和静态功耗的优化。结果表明,AH设计实现了最高的吞吐量,在高达3 GHz的频率下表现出attojoule级别的能效。相比之下,ML架构在亚阈值到阈值附近区间表现出色,提供了可靠的低功耗操作(低至0.385 aJ/脉冲)和生物爆发行为。虽然LIF从分立电流镜中获益,能够进行高频操作,但在较高供电电压下,其静态漏电流略高于ML和AH。与之前的节点实现(22纳米平面,28纳米)相比,7纳米FinFET可以显著提高能效和速度,尽管会增加深亚阈值区域的子阈漏电流。通过对每种神经元架构的设计权衡进行量化,我们的研究为优化先进纳米技术中的放电信号神经元电路提供了路线图,以实现既能实现超低功耗操作又能提供高计算吞吐量的神经形态硬件。
arXiv:2505.03763v1 类型: cross
摘要:高效推理大型语言模型(LLM)仍然是一个关键挑战,主要包含两个阶段:计算密集型的提示计算和内存密集型的标记生成。尽管现有的一些批处理和调度技术,标记生成阶段仍然无法充分利用计算资源,尤其是在与提示计算阶段相比时更是如此。为了应对这些挑战,我们提出了一种名为Splitwiser的方法,该方法将一个LLM推理请求的两个阶段分配到同一块GPU上,从而减少开销并提高内存访问和缓存利用率。通过消除设备之间传输数据的需要,Splitwiser旨在最小化与网络相关的开销。在这份报告中,我们描述了我们提出的基本管道架构,同时分享了初步结果和分析。我们将在两个广泛使用的独立LLM架构上实现我们提出的并行处理设计:Huggingface和vLLM。我们开源了相应的实现代码:1) Huggingface (https://github.com/asad-aali/splitwiser),2) vLLM (https://github.com/adney11/vllm-sysml)。
arXiv:2505.03760v1 宣告类型: cross
摘要: 投资组合优化需要在动态市场条件下通过平衡风险与收益之间的权衡来动态分配资金。随着人工智能的最新发展,深度强化学习(DRL)在提供适应性强且可扩展的投资组合优化策略方面占据了重要地位。然而,这些策略的成功不仅依赖于它们适应市场动态的能力,还依赖于精心预选的资产,这些资产会对投资组合的整体表现产生影响。将投资者的偏好纳入投资组合资产的预选中,对于精炼其投资策略是至关重要的。本研究提出了一种基于DRL的波动率指导下的投资组合优化框架,该框架根据投资者的风险偏好动态构建投资组合。广义自回归条件异方差(GARCH)模型用于股票的波动率预测,并根据波动率将它们分为激进型、中庸型和保守型。然后,使用DRL代理与历史市场数据进行互动,学习最优的投资策略。通过道琼斯工业平均指数30种股票的应用,证明了所提出方法的有效性。提出的针对投资者的具体DRL基于的投资组合表现优于基准策略,产生了一致的风险调整收益。
arXiv:2505.03756v1 Announce Type: cross
摘要:多个低秩适配器(Multi-LoRAs)正在成为特定任务大型语言模型(LLM)应用的热门选择。对于multi-LoRA服务,将热门的KV缓存和LoRA适配器缓存到加速器的高带宽内存中可以提高推理性能。然而,现有的multi-LoRA推理系统未能优化服务性能,如首次响应时间(TTFT),忽视了在缓存LoRA和KV时的使用依赖性。因此,我们提出了FASTLIBRA,这是一种多LoRA缓存系统,旨在优化服务性能。FASTLIBRA包括一个依赖感知缓存管理器和一个基于性能的缓存交换器。缓存管理器在推理过程中通过统一的缓存池维护LoRA和KV缓存之间的使用依赖性。缓存交换器根据统一的成本模型在HBM空闲或忙碌时决定将LoRA和KV缓存交换进或换出。实验结果显示,与现有最先进的工作相比,ELORA将TTFT平均减少了63.4%。
arXiv:2505.03750v1 交叉类型公告
摘要:人工智能(AI)技术正在通过自动化器件级调优和实现系统级协同优化而改变模拟电路设计。本文综合了两种方法:(1)使用多目标贝叶斯优化(MOBO)辅助的晶体管尺寸化,用于直接电路参数优化,并在可调线性跨导晶体管上进行了演示;和(2)将AI集成到电路传递函数建模中,用于在关键词识别(KWS)应用中进行系统级优化,在此通过在机器学习训练循环中优化一个模拟带通滤波器进行了演示。结合洞察揭示了AI如何提高模拟性能、减少设计迭代努力,并共同优化模拟组件和应用级指标。
arXiv:2505.03748v1 交叉类别公告类型
摘要:通过模型压缩和专门的数据流技术,深度神经网络(DNN)加速器取得了显著的进步。然而,在使用输入/权重静态数据流的架构中,频繁访问高精度部分和求和(PSUM)导致了过高的内存需求。传统的压缩策略通常忽略了PSUM量化,这可能占用了69%的功耗。本研究介绍了一种新颖的加性部分和量化(APSQ)方法,将PSUM积累无缝地集成到量化框架中。还提出了结合可重构架构增强的APSQ与PSUM量化的一种分组策略。APSQ在BERT、Segformer和EfficientViT模型上对NLP和CV任务几乎无损压缩PSUM至INT8,从而减少了28-87%的能量成本。在LLaMA2-7B上的扩展实验表明,APSQ对大型语言模型具有潜力。相关代码可在 https://github.com/Yonghao-Tan/APSQ 获取。
arXiv:2505.03747v1 宣告类型: 交叉
摘要: 在本文中,回顾了 Zdzisław Pawlak 及其合作者在 1970 年代和 1981 年的研究和出版物。重点放在可以根据这些出版物识别出的灵感来源上。最后,概述了 1981 年与粗糙集和信息系统相关的进展。
arXiv:2505.03746v1 宣布类型: cross
摘要:社交媒体平台使即时和普遍的连接成为可能,并且在我们的技术社会中对于社会互动和沟通是必不可少的。除了其优势之外,这些平台还引发了在线社区中的负面行为,即所谓的网络欺凌。尽管近年来文献中涉及生成人工智能(AI)的作品很多,但仍有机会在其除零/少量样本学习策略之外的研究其性能。因此,我们提出了一种创新的并实时的网络欺凌检测解决方案,该方案利用基于流的机器学习(ML)模型,能够逐增量处理传入样本,并利用大规模语言模型(LLMs)进行特征工程,以应对在线欺凌和仇恨言论的演变性质。提供了一个可解释性仪表板,以促进系统的可信度、可靠性和问责制。实验数据上的结果报告了接近90%的所有评估指标的良好性能,并且超过了文献中竞争作品所取得的成果。最终,我们的提案通过及时检测欺凌行为来保障在线社区的安全,以防止长期的骚扰并减少社会上的负面后果。
arXiv:2505.03745v1 交叉公告类型
摘要:近日,大型语言模型(LLMs)在自然语言处理(NLP)领域取得了巨大的成功,推动了它们从云端部署到边缘设备的需求快速增长。然而,在资源受限的边缘设备上部署LLMs带来了重大挑战,包括(1)密集的计算和巨大的模型大小,(2)自动回归生成过程中引入的大量内存和带宽需求,以及(3)处理长序列的有限可扩展性。为了解决这些挑战,我们提出了一种全面加速框架AccLLM,通过算法和硬件协同设计实现高效和快速的长上下文LLM推理。在算法层面,我们整合了(1)剪枝,(2)\(\Lambda\)形注意机制,以及(3)一种创新的W2A8KV4(2比特权重,8比特激活和4比特KV缓存)量化方案,从而有效地减少了内存和带宽需求,同时促进了LLMs的长序列生成。在硬件层面,我们设计了一种专用的基于FPGA的加速器,配备可配置的计算引擎,以有效和灵活地适应我们压缩算法中产生的各种操作,从而将算法创新真正转化为实际的硬件效率。我们在Xilinx Alveo U280 FPGA上验证了AccLLM,展示了与最先进的工作FlightLLM相比,4.07倍的能量效率和2.98倍的吞吐量。
arXiv:2504.13777v1 通告类型: cross
摘要:本文提出了一种概念框架,以理解AI幻觉作为独立形式的虚假信息。尽管传统的虚假信息研究侧重于人类意图,但生成性AI系统现在可以生成虚假但看似合理的输出,而没有这种意图。我主张,这些AI幻觉不应仅被视为技术故障,而应被视为具有社会后果的交流现象。基于供给与需求模型以及分分布式代理的概念,该框架概述了幻觉在生产和感知以及机构回应方面的差异。我进一步提出了一项研究议程,供交流学者调查幻觉内容的出现、传播和受众接受情况,涉及宏观(机构)、中观(群体)和微观(个体)层次。这项工作呼吁交流研究者在考虑到越来越多的几率性、非人类行为者嵌入知识生产的情况下重新思考虚假信息理论的边界。