arXiv 论文列表

迈向高效神经符号人工智能：从工作负载特征到硬件架构

arXiv:2409.13153v1 公告类型: 交叉摘要: 人工智能（AI）的显著进步，主要由深度神经网络驱动，正面临计算轨迹不可持续、鲁棒性有限和可解释性不足的挑战。为了开发下一代认知AI系统，神经符号AI作为一种有前途的范式出现，它融合了神经和符号方法，以增强可解释性、鲁棒性和可信度，同时促进从更少的数据中学习。最近的神经符号系统在具有推理和认知能力的人机协作场景中展示了巨大的潜力。本文旨在理解神经符号AI的工作负载特性和潜在架构。我们首先系统地对神经符号AI算法进行分类，然后在CPU、GPU和边缘SoC上从运行时、内存、计算操作符、稀疏性和系统特性方面进行实验评估和分析。我们的研究表明，神经符号模型在现成硬件上存在效率低下的问题，这是由于向量符号和逻辑操作的内存受限性质、复杂的流控制、数据依赖性、稀疏性变化和有限的扩展性。基于分析结果，我们提出了跨层优化解决方案，并展示了一个向量符号架构的硬件加速案例研究，以提高神经符号计算的性能、效率和扩展性。最后，我们从系统和架构的角度讨论了神经符号AI的挑战和潜在未来方向。

发布时间: 9/23/2024

查看原文

量子支持向量机中量子核函数假设中特征嵌入位置的影响

arXiv:2409.13147v1 公告类型: 交叉摘要: 在尝试超越经典机器学习模型时，设计一个有用的量子核特征映射是一个关键任务。电路架构的选择，即特征依赖门如何与其他门交织，是一个相对未被探索的问题，在使用称为量子嵌入核（QEK）的量子核模型时变得非常重要。我们研究并分类了QEK中的各种架构模式，并表明现有架构风格的行为并不如文献所假设的那样。我们还基于旧架构提出了一种新颖的替代架构，并表明它在包含比旧架构更少的门的情况下表现同样出色。

发布时间: 9/23/2024

查看原文

学习用于高层次综合的硬件设计比较

高层次综合（HLS）是一种自动化设计流程，它将高级代码转换为硬件设计，从而实现硬件加速器的快速开发。HLS依赖于编译指示（pragmas），这些指示插入到源代码中以指导综合过程，并且编译指示具有多种设置和值，这些设置和值显著影响最终的硬件设计。现有的基于机器学习（ML）的HLS方法，如HARP，首先训练一个深度学习模型，通常基于应用于源代码和编译指示的图表示的图神经网络（GNNs）。然后，它们进行设计空间探索（DSE）以探索编译指示设计空间，使用模型对候选设计进行排序，并返回顶级设计。然而，传统的DSE方法面临挑战，因为编译指示设置与性能指标之间存在高度非线性关系，以及编译指示之间复杂的相互作用以非显而易见的方式影响性能。为了应对这些挑战，我们提出了compareXplore，这是一种新颖的方法，用于学习比较硬件设计以实现有效的HLS优化。compareXplore引入了一种混合损失函数，该函数结合了成对偏好学习和点对点性能预测，使模型能够捕捉相对偏好和绝对性能。此外，我们引入了一种新颖的节点差异注意力模块，该模块专注于设计之间最具信息量的差异，使模型能够识别对性能影响至关重要的编译指示。compareXplore采用两阶段DSE，其中点对点预测模型用于初始设计修剪，随后是成对比较阶段用于精确性能验证。在广泛的实验中，compareXplore在排名指标上取得了显著改进，并为所选设计生成了高质量的HLS结果，优于现有的最先进方法。

发布时间: 9/23/2024

查看原文

通过重新标记蒸馏解释深度网络的预测

arXiv:2409.13137v1 公告类型: 交叉摘要: 解释黑箱深度网络的预测结果可以提高其部署的可靠性。在本研究中，我们提出了一种重新标注蒸馏方法，以自监督的方式学习从输入到预测的直接映射。图像被投影到VAE子空间中，通过随机扰动其潜在向量生成一些合成图像。然后，这些合成图像可以通过识别其标签是否发生变化而被标注为两个类别之一。之后，使用深度网络标注的标签作为教师，训练一个线性学生模型，通过将这些合成图像映射到类别来近似这些标注。通过这种方式，这些重新标注的合成图像能够很好地描述深度网络的局部分类机制，而学习到的学生模型能够提供对预测结果更为直观的解释。广泛的实验从定性和定量两方面验证了我们方法的有效性。

发布时间: 9/23/2024

查看原文

大型语言模型能否成为优秀的作文评分员？

arXiv:2409.13120v1 公告类型: 交叉摘要: 我们评估了大型语言模型（LLMs）在评估作文质量方面的有效性，重点关注其与人类评分的对齐情况。更具体地说，我们评估了ChatGPT和Llama在自动作文评分（AES）任务中的表现，这是教育领域中一个重要的自然语言处理（NLP）应用。我们考虑了零样本学习和少样本学习以及不同的提示方法。我们将LLMs提供的数值评分与ASAP数据集中人类评分者提供的分数进行比较，ASAP数据集是AES任务的知名基准。我们的研究表明，与人类评分者提供的分数相比，LLMs通常会给出较低的分数；此外，这些分数与人类评分者的分数相关性不高。特别是，ChatGPT往往比Llama更严厉，与人类评价的偏差更大。我们还尝试了之前AES方法中常用的多种作文特征，包括长度、连接词和过渡词的使用情况以及可读性指标，包括拼写和语法错误的数量。我们发现，通常这些特征与人类或LLM的评分没有很强的相关性。最后，我们报告了Llama 3的结果，这些结果总体上表现更好，符合预期。总的来说，虽然LLMs似乎不足以完全替代人类评分，但我们的结果对未来将其用作辅助人类评分的工具持一定的乐观态度。

发布时间: 9/23/2024

查看原文

个性化二维二进制患者代码：通过多模态自监督融合实现组织图像与免疫基因组数据的编码

arXiv:2409.13115v1 公告类型: 交叉摘要: 医学诊断领域见证了人工智能(AI)与医疗数据之间的变革性融合，为提升患者护理和疾病理解提供了有前景的途径。然而，这种多模态数据的整合，特别是病理学全切片图像(WSIs)和基因测序数据的整合，由于模态差异和需要可扩展的计算解决方案，带来了独特的挑战。本文针对多模态解决方案的稀缺性，主要集中在单模态数据解决方案上，从而限制了从整合图像和基因数据中获取丰富洞察力的实现。在此，我们介绍了MarbliX“多模态关联与检索与二进制潜在索引矩阵”，这是一个创新的多模态框架，它将病理学图像与免疫基因组测序数据整合在一起，将其封装成一个简洁的二进制患者代码，称为“单字”。这种二进制表示有助于建立一个全面的档案，使临床医生能够匹配相似病例。实验结果表明，MarbliX具有为医疗专业人员提供深入洞察力的潜力，从而实现更精确的诊断、减少变异性并扩展个性化治疗选择，特别是在癌症背景下。

发布时间: 9/23/2024

查看原文

建筑与拆除混合废物分析中计算机视觉与深度学习技术的演进与挑战

arXiv:2409.13112v1 公告类型: 交叉摘要: 提高建筑和拆除废物（C&DW）成分的自动和及时识别对于增强商业回报、经济成果和可持续性至关重要。计算机视觉、人工智能（AI）、机器人技术和物联网（IoT）等技术正越来越多地集成到废物处理中以实现这些目标。尽管深度学习（DL）模型在识别同质C&DW堆方面显示出潜力，但很少有研究评估其在商业环境中处理混合、高度污染材料的表现。基于在澳大利亚悉尼一家C&DW材料回收设施（MRF）的丰富经验，我们探讨了开发先进自动化混合C&DW管理系统所面临的挑战和机遇。我们从概述建筑行业废物管理的演变开始，强调其环境、经济和社会影响。我们回顾了各种C&DW分析技术，得出结论认为基于DL的视觉方法是最佳解决方案。此外，我们考察了用于C&DW分析的传感器和相机技术的进展，以及专注于物体检测和材料分割的DL算法的演变。我们还讨论了C&DW数据集、其策划以及创新的数据集创建方法。最后，我们分享了关于C&DW视觉分析的见解，解决了技术和商业挑战、研究趋势以及混合C&DW分析的未来方向。本文旨在通过为这一关键领域的持续和未来研究与开发工作提供宝贵见解，提高C&DW管理的效率。

发布时间: 9/23/2024

查看原文

ERIC：利用家用门铃摄像头估算降雨量以实现精准住宅灌溉

当前最先进的住宅灌溉系统，如WaterMyYard，依赖于附近气象站的降雨数据来调整灌溉量。然而，由于雨量计的空间分辨率有限以及超本地降雨的显著变化性，降雨数据的准确性受到影响，导致大量水资源浪费。为了提高灌溉效率，我们开发了一种经济实惠的灌溉系统，称为ERIC，该系统采用机器学习模型从商品门铃摄像头视频中估算降雨量，并优化灌溉计划，无需人工干预。具体来说，我们：a) 设计了新颖的视觉和音频特征，利用轻量级神经网络模型从边缘摄像头推断降雨，保护用户隐私；b) 在Raspberry Pi 4上构建了一个完整的端到端灌溉系统，成本仅为75美元。我们在五个不同背景和光照条件的地点部署了该系统（收集了超过750小时的视频）。综合评估验证了ERIC实现了最先进的降雨量估算性能（约5毫米/天），每月节省9,112加仑的水，相当于每月节省28.56美元的公用事业费用。

发布时间: 9/23/2024

查看原文

DenoMamba：一种用于低剂量CT去噪的融合状态空间模型

低剂量计算机断层扫描（LDCT）通过依赖先进的去噪算法，在降低辐射暴露相关潜在风险的同时，保持重建图像的诊断质量。目前LDCT去噪的主流范式基于神经网络模型，这些模型学习数据驱动的图像先验，以分离由剂量减少引起的噪声与底层组织信号。自然地，这些先验的保真度取决于模型捕捉CT图像中广泛上下文特征的能力。早期的卷积神经网络（CNN）在高效捕捉短程空间上下文方面表现出色，但其有限的感受野降低了其对长距离交互的敏感性。尽管基于自注意力机制的Transformer最近被提出以提高对长程上下文的敏感性，但由于模型复杂性增加，特别是在高分辨率CT图像上，它们可能会遭受次优性能和效率问题。为了高质量地恢复LDCT图像，我们引入了DenoMamba，一种基于状态空间建模（SSM）的新型去噪方法，该方法能够高效捕捉医学图像中的短程和长程上下文。DenoMamba采用带有编码器-解码器阶段的沙漏架构，使用空间SSM模块编码空间上下文，并配备有辅助门控卷积网络的新型通道SSM模块，以在每个阶段编码通道上下文的潜在特征。随后，通过卷积融合模块（CFM）将两个模块的特征图与低级输入特征进行整合。在剂量减少25%和10%的LDCT数据集上的综合实验表明，DenoMamba在恢复图像质量方面优于最先进的去噪器，平均提升1.4dB的PSNR、1.1%的SSIM和1.6%的RMSE。

发布时间: 9/23/2024

查看原文

引导式用户档案生成提升大型语言模型个性化效果

arXiv:2409.13093v1 公告类型: 交叉摘要: 在现代商业系统中，包括推荐、排序和电子商务平台，通过将个性化上下文作为输入纳入大型语言模型（LLMs）来提升客户体验的趋势日益明显。然而，LLMs通常难以在没有额外处理或上下文丰富的情况下有效解析和利用稀疏且复杂的个人上下文，这凸显了对更复杂上下文理解机制的需求。在这项工作中，我们提出了引导式个人资料生成（GPG），一种旨在生成自然语言个人资料的通用方法。观察发现，中间引导式个人资料生成使LLMs能够总结并提取个人上下文中的重要、独特特征，将其转化为简洁、描述性的句子，从而更精确地定制生成内容，以更贴近个人的独特习惯和偏好。我们的实验结果表明，GPG在不同任务中提升了LLMs的个性化能力，例如，与直接将原始个人上下文输入LLMs相比，它在预测个人偏好方面的准确性提高了37%。

发布时间: 9/23/2024

查看原文