LLM2D

arXiv 论文列表

作者: Aditi Ramaswamy, Hana Chockler, Melane Navaratnarajah
arXiv:2505.04497v2 宣告类型: 交叉替换 摘要:生成人工智能模型的创造力在过去几年中一直是科学研究的辩论话题,但尚未得出明确答案。在本文中,我们从实用的角度研究了创造力,并引入了有助于用户根据给定任务选择合适人工智能模型的定量指标。我们对一些流行的图像到图像生成模型进行了评估,这些结果表明我们的指标符合人类的直觉。
发布时间: 5/9/2025
查看原文
作者: Kairong Yu, Tianqing Zhang, Qi Xu, Gang Pan, Hongwei Wang
arXiv:2505.04165v2 更新类型: 替换-交叉 摘要:脉冲神经网络(SNNs)因其生物可行性和能效性而日益受到认可,将其定位为神经形态计算应用中人工神经网络(ANNs)的强大替代方案。SNNs 通过利用脉冲的精确时序来内在处理时间信息,但平衡时间特征利用与低能耗仍是一项挑战。在这项工作中,我们引入了脉冲神经网络的时序移位模块(TS-SNN),该模块结合了一种新颖的时序移位(TS)模块,通过简单的移位操作在单个时间步内集成过去、现在和未来的脉冲特征。通过残差组合方法,可以防止信息丢失并将移位和原始特征进行整合。TS 模块轻量级,只需一个额外的学习参数,并且可以无缝集成到现有架构中,同时保持较低的计算成本。TS-SNN 在 CIFAR-10(96.72%)、CIFAR-100(80.28%)和 ImageNet(70.61%)等基准测试中实现了最先进的性能,同时也保持低能耗。这项工作标志着开发高效准确的 SNN 架构的一个重要进展。
发布时间: 5/9/2025
查看原文
作者: Ting Yu Tsai, An Yu, Meghana Spurthi Maadugundu, Ishrat Jahan Mohima, Umme Habiba Barsha, Mei-Hwa F. Chen, Balakrishnan Prabhakaran, Ming-Ching Chang
arXiv:2505.03838v2 宣传类型:替换交叉 摘要:准确有效地处理心脏成像数据对于心血管疾病的识别和管理至关重要。我们介绍了 IntelliCardiac,这是一个全面的基于网络的医疗图像处理平台,用于自动分割4D心脏图像和疾病分类,利用了在ACDC数据集上训练的AI模型。该系统旨在为患者、心脏病专家和医疗专业人员提供一个直观的界面,并使用深度学习模型来识别心脏的重要结构并分类心脏疾病。该系统支持分析右心室和左心室以及心肌,并将患者的心脏图像分类为五个诊断类别:扩张型心肌病、心肌梗死、肥厚型心肌病、右心室异常和无疾病。IntelliCardiac 结合了基于深度学习的分割模型和两步分类流水线。分割模块的整体准确率为92.6%。分类模块通过对分割心脏结构的特征进行训练,实现了在五个类别中98%的准确性。这些结果超过了将分割和分类模型结合在一起的现有最先进的方法的性能。支持实时可视化、工作流程整合和AI辅助诊断的 IntelliCardiac,有潜力成为一个适用于心脏成像和诊断临床决策辅助的可扩展和准确的工具。
发布时间: 5/9/2025
查看原文
作者: Jinhai Hu, Wang Ling Goh, Yuan Gao
arXiv:2505.03750v2 宣告类型: 替换-交叉 摘要:人工智能(AI)技术正在通过自动化器件级调谐和实现系统级协同优化来改变模拟电路设计。本文将两种方法结合起来:(1)使用多目标贝叶斯优化(MOBO)辅助晶体管尺寸设计,直接进行电路参数优化,并在可调线性跨导器上进行了演示;(2)将AI集成到电路传递函数建模中,在关键词识别(KWS)应用中进行系统级优化,并通过在机器学习训练循环中优化一个模拟带通滤波器进行了演示。结合这些见解突显了AI如何提高模拟性能、减少设计迭代工作量,并且能够同时优化模拟组件和应用级别指标。
发布时间: 5/9/2025
查看原文
作者: Parv Kapoor, Ian Higgins, Nikhil Keetha, Jay Patrikar, Brady Moon, Zelin Ye, Yao He, Ivan Cisneros, Yaoyu Hu, Changliu Liu, Eunsuk Kang, Sebastian Scherer
arXiv:2505.03694v2 安全分类型:替换交叉 摘要:在共享空域中实现空中飞行器无缝高密度操作,确保安全隔离至关重要。为了装备资源受限的空中系统以具备这种安全关键能力,我们提出了ViSafe,一种高速单目视觉空中碰撞避免系统。ViSafe通过紧密集成基于学习的边缘AI框架和在SWaP-C约束下设计的自定义多摄像头硬件原型,提供Detect and Avoid (DAA) 问题的全栈解决方案。通过利用侧重于感知输入的控制屏障函数(CBF)进行设计、编码和执行,ViSafe可以为高速空中操作中的自我隔离提供可验证的安全运行时保证。我们通过涵盖模拟数字双胞胎和真实飞行场景的广泛测试计划评估了ViSafe的性能。通过独立改变代理类型、接近速度、交互几何形状以及环境条件(例如天气和照明),我们证明了ViSafe在各种场景中都能一致地确保自我隔离。在首次进行的真实世界高速碰撞避免测试中,接近速度达到144 km/h,ViSafe树立了单目视觉自主碰撞避免的新标杆,为高速空中导航的安全性设立了新的标准。
发布时间: 5/9/2025
查看原文
作者: Joseph Kettelkamp, Ludovica Romanin, Sarv Priya, Mathews Jacob
arXiv:2505.03149v2 宣告类型: 替换-交叉 摘要: 我们提出了一种无监督的运动补偿图像重建算法,用于自由呼吸和不校准的3D心脏磁共振成像(MRI)。我们将每个特定运动相位对应的图像体积表示为单个静态图像模板的变形。本文的主要贡献是低秩模型,用于描述由运动相位参数化的紧凑联合表示的变形族。特定运动相位的变形通过沿从参考模板相位到运动相位的路径积分参数化速度场获得。不同相位的速度场使用低秩模型表示。静态模板和低秩运动模型参数直接从k空间数据中以无监督的方式学习。与当前的运动解析和运动补偿算法相比,受更严格约束的运动模型被观察到在自由呼吸3D电影MRI的恢复中表现出更好的性能。
发布时间: 5/9/2025
查看原文
作者: Daniel Goldstein, Eric Alcaide, Janna Lu, Eugene Cheah
arXiv:2505.03005v2 宣讲类型: 替换-交叉 摘要: 我们介绍了Rapid Attention Distillation to Linear Attention Decoders at Scale (RADLADS),这是一种快速将softmax注意转换器转换为线性注意解码器模型的协议,同时包括两个新的RWKV-变体架构,以及从流行的Qwen2.5开源模型转换而来的7B、32B和72B大小的模型。我们的转换过程仅需要350-700M个令牌,不到原始教师模型训练所用令牌数的0.005%。将模型转换为我们的72B线性注意模型的成本在今天的价格下低于2000美元,但在推理时仍能保持接近原始转换器的质量。这些模型在其相应大小的标准基准测试集中实现了最先进的下游性能。我们将在Apache 2.0许可证下在HuggingFace上发布所有我们的模型,除了我们的72B模型,这些模型还受Qwen许可协议的管辖。 模型可在 https://huggingface.co/collections/recursal/radlads-6818ee69e99e729ba8a87102 获取 训练代码可在 https://github.com/recursal/RADLADS-paper 获取
发布时间: 5/9/2025
查看原文
作者: Yunfeng Ge, Jiawei Li, Yiji Zhao, Haomin Wen, Zhao Li, Meikang Qiu, Hongyan Li, Ming Jin, Shirui Pan
arXiv:2505.02417v2 宣布类型: 替换-交叉 摘要: 文本到时间序列生成在解决数据稀疏性、不平衡性和跨领域时间序列多模态数据集有限可用性等挑战方面具有巨大的潜力。虽然扩散模型在文本到X(例如,视觉和音频数据)生成中取得了显著的成功,但它们在时间序列生成中的应用仍处于起步阶段。现有方法面临两个关键限制:(1)系统探索通用的时间序列描述词不足,这些描述词往往是领域特定的,并且难以泛化;以及(2)无法生成任意长度的时间序列,限制了其在实际应用场景中的应用。在本文中,我们首先将时间序列描述词分为三个级别:点级、片段级和实例级。此外,我们引入了一个新的片段级数据集,包含超过600,000个高分辨率的时间序列-文本对。其次,我们提出了一种基于扩散模型的框架Text-to-Series(T2S),以一种领域无关的方式弥合自然语言和时间序列之间的差距。T2S 使用长度自适应的变分自动编码器将不同长度的时间序列编码为一致的潜在嵌入。在此基础上,T2S 通过使用Flow Matching 和采用Diffusion Transformer 作为去噪器有效地对齐文本表示与潜在嵌入。我们以交错的方式训练 T2S,使其能够生成任何所需长度的序列。广泛的评估表明,T2S 在横跨12个领域13个数据集上都达到了最先进的性能。
发布时间: 5/9/2025
查看原文
作者: Sanjay Surendranath Girija, Shashank Kapoor, Lakshit Arora, Dipen Pradhan, Aman Raj, Ankit Shetgaonkar
arXiv:2505.02309v2 宣告类型: replace-cross 摘要:大型语言模型(LLMs)在人工智能(AI)的许多领域引发了革命,但其巨大的资源要求限制了它们在移动和边缘设备上的部署。本文综述提供了压缩LLMs以在资源受限环境中实现高效推理的技术的全面概述。我们探讨了三种主要方法:知识蒸馏、模型量化和模型剪枝。对于每种技术,我们讨论了其基本原理,展示了不同的变体,并提供了成功的应用实例。我们还简要讨论了诸如专家混合和早期退出策略等补充技术。最后,我们强调了有希望的未来方向,旨在为寻求优化LLMs在边缘部署的研究人员和实践者提供有价值的资源。
发布时间: 5/9/2025
查看原文
作者: Ji\v{r}\'i Mili\v{c}ka, Anna Marklov\'a, Ond\v{r}ej Drobil, Eva Posp\'i\v{s}ilov\'a
arXiv:2505.01877v3 通知类型: 替换-交叉 摘要:本研究探讨了在提供即时反馈的情况下,个体能否学会准确区分人类编写的文本和AI生成的文本,并且能否利用这种反馈重新评估自己的能力水平。我们还研究了个体在做这些判断时依赖的具体标准,重点是文本风格和可读性。 我们使用GPT-4o生成了几百篇不同体裁和类型的文本,这些文本与Koditex相媲美,Koditex是一个包含多版权的大型人工编写的文本语料库。然后我们向254名捷克母语者呈现了随机化的文本对,并要求他们分辨哪些是人类编写的,哪些是AI生成的。参与者被随机分配到两个条件组中:一组在每次试验后接收即时反馈,另一组在实验结束后才接收反馈。我们记录了参与者对文本的识别准确性、信心水平、反应时间、关于文本可读性的判断以及人口统计信息和参与者在实验前对AI技术的接触程度。 接收即时反馈的参与者在准确性和信心校准方面表现出显著改善。参与者最初对AI生成的文本特征持有错误的假设,包括对风格 rigid性和平易性的期望。值得注意的是,在没有反馈的情况下,参与者在感到最自信的时候最容易犯错误——这个问题在反馈组中得到了很大程度的解决。 通过针对性的培训并提供明确的反馈,可以有效地学会区分人类和AI生成的文本,这有助于纠正对AI风格特征和可读性的错误认识,以及其他未探索的变量,从而促进更准确的自我评估。这一发现可能特别重要,尤其是在教育环境中。
发布时间: 5/9/2025
查看原文