arXiv 论文列表

作者: Md Abdul Baset Sarker, Art Nguyen, Sigmond Kukla, Kevin Fite, Masudul H. Imtiaz

arXiv:2504.15654v2 公告类型: 替换-交叉摘要：本文介绍了一种新型的基于AI视觉的儿科假手，旨在帮助10-12岁患有上肢残疾的儿童。这种假手具有类人外观、多关节功能和轻巧的设计，模仿自然手的结构，使其对低收入家庭来说既易于获取又价格适中。通过使用3D打印技术和集成先进的机器视觉、传感和嵌入式计算技术，该假手提供了一种低成本且可定制的解决方案，以解决当前肌电假手的局限性。微型摄像头与低功耗FPGA接口，实现实时目标检测，协助精确抓取。内置基于DL的目标检测和抓取分类模型分别达到了96%和100%的准确率。在力预测方面，平均绝对误差为0.018。因此，所提议的假手的特征可以总结为：a) 配备腕部微型摄像头的人工传感功能，使假手能够完成广泛的基于手部的任务；b) 实时目标检测和距离估计以实现精确抓取；以及c) 超低功耗操作，在受限的功率和资源限制内提供高性能。

发布时间: 4/29/2025

查看原文

双通道异质消息传递用于图欺诈检测

作者: Wenxin Zhang, Jingxing Zhong, Guangzhen Yao, Renda Han, Xiaojian Lin, Zeyu Zhang, Cuicui Luo

arXiv:2504.14205v2 宣告类型: 交叉替换摘要：欺诈活动在电子商务、在线评论平台和社会网络等多个领域显著增加，使得欺诈检测成为一个至关重要的任务。空间图神经网络（GNNs）因其强大的归纳学习能力已被成功应用于欺诈检测任务。然而，现有的基于空间GNN的方法通常在消息传递过程中通过排除异质邻居来增强图结构，以符合GNNs的同质偏好。不幸的是，这种方法可能会破坏原始的图拓扑结构并增加预测的不确定性。为了解决这些限制，本文提出了一个新颖的框架，双通道异质消息传递（DHMP），用于欺诈检测。DHMP 利用一个异质性分离模块将图划分为同质子图和异质子图，减轻了传统GNNs的低通归纳偏差。然后，它应用共享权重独立捕捉不同频率的信号，并结合一种定制的采样策略进行训练。这使得节点可以根据其标签适应性地平衡各种信号的贡献。在三个真实世界数据集上的 extensive 实验表明，DHMP 在性能上优于现有方法，突显了分离不同频率的信号对于改进欺诈检测的重要性。代码可在 https://github.com/shaieesss/DHMP 获取。

发布时间: 4/29/2025

查看原文

甲状腺Effi 1.0：一种经济高效的高性能多类甲状腺癌分类系统

作者: Hai Pham-Ngoc, De Nguyen-Van, Dung Vu-Tien, Phuong Le-Hong

arXiv:2504.14139v2 Announce Type: replace-cross 摘要：背景：甲状腺细针穿刺活检（FNAB）图像的自动分类面临着数据有限、观察者间变异性和计算成本高的挑战。高效的、可解释的模型对于临床支持至关重要。目标：开发并外部分析验证一个用于多类甲状腺FNAB图像分类的深度学习系统，直接指导越南的术后治疗，分类为三个关键类别：良性（Bethesda II）、不确定/可疑（BI, III, IV, V）和恶性（BVI），在保持低计算开销的同时实现高诊断准确性。方法：我们的流水线包括：（1）YOLOv10细胞簇检测，用于信息性子区域提取/噪声减少；（2）逐级学习顺序局部裁剪到全图像，以便多尺度捕捉；（3）自适应轻量级EfficientNetB0（4M参数），平衡性能与效率；以及（4）受Transformer启发的模块，用于多尺度/多区域分析。外部验证使用了1,015张独立的FNAB图像。结果：在内部测试集上，ThyroidEffi Basic实现了宏F1分数为89.19%，AUC值分别为0.98（良性）、0.95（不确定/可疑）、0.96（恶性）。外部验证的AUC值分别为0.9495（良性）、0.7436（不确定/可疑）、0.8396（恶性）。ThyroidEffi Premium将宏F1提高到89.77%。Grad-CAM突出了关键诊断区域，证实了可解释性。该系统在30秒内处理了1000个案例，展示了在广泛可访问的硬件上实现可行性。结论：这项工作证明了在计算需求最小的情况下，实现高准确性和可解释性的甲状腺FNAB图像分类是可实现的。

发布时间: 4/29/2025

查看原文

一种内置硬件aware学习的CMOS概率计算芯片

作者: Jinesh Jhonsa, William Whitehead, David McCarthy, Shuvro Chowdhury, Kerem Camsari, Luke Theogarajan

arXiv:2504.14070v2 宣告类型: replace-cross 摘要：本文展示了受概率位物理启发的求解器，该求解器配置了440个自旋，并以Chimera图的形式排列，占面积0.44 mm²。通过使用电流模式实现的神经元更新电路、类似单元设计的模拟块与数字块的尺寸匹配以及为数字和模拟组件共享电源供应，实现了区域效率的最大化。利用硬件感知的对比分化算法在训练期间有效解决了由这种方法引入的过程变化匹配问题。我们验证了该芯片能够执行概率计算任务，例如模拟逻辑门和全加器，以及优化任务，例如MaxCut，展示了其在人工智能和机器学习应用方面的潜力。

发布时间: 4/29/2025

查看原文

以人为本的多层研究框架：迈向可解释性和信任之路

作者: Chameera De Silva, Thilina Halloluwa, Dhaval Vyas

arXiv:2504.13926v2 声明类型: replace-cross 摘要：将人工智能(AI)整合到医疗、金融和自主系统等高风险领域往往受到透明度、可解释性以及信任方面的担忧限制。虽然以人为本的人工智能(Human-Centered AI, HCAI)强调与人类价值观的对齐，可解释的人工智能(Explainable AI, XAI)通过使AI决策更具可理解性来增强透明度。然而，缺乏统一的方法限制了AI在关键决策场景中的有效性。本文介绍了一种新的三层框架，将HCAI和XAI结合起来，建立一种结构化的可解释性范式。该框架包括：（1）具内置可解释性机制的基础AI模型，（2）以人为本的解释层，根据认知负荷和用户专业程度定制解释，以及（3）通过实时用户交互不断改进的动态反馈循环。该框架在医疗、金融和软件开发领域进行了评估，证明了其提升决策质量、合规性以及公众信任的潜力。我们的研究推进了以人为本的可解释性人工智能(Human-Centered Explainable AI, HCXAI)，促进了透明、灵活且伦理上一致的AI系统的开发。

发布时间: 4/29/2025

查看原文

生成式AI 第二章：测试时缩放驱动认知工程

作者: Shijie Xia, Yiwei Qin, Xuefeng Li, Yan Ma, Run-Ze Fan, Steffi Chern, Haoyang Zou, Fan Zhou, Xiangkun Hu, Jiahe Jin, Yanheng He, Yixin Ye, Yixiu Liu, Pengfei Liu

arXiv:2504.13828v3 宣告类型: replace-cross 摘要：大型语言模型的第一代（可能称为生成AI的“Act I”时期，2020-2023年）通过大规模参数和数据缩放取得了令人瞩目的成功，但表现出根本性的局限性，如知识延迟、浅层次推理和受限制的认知过程。在这个时期，(prompt)工程成为我们与AI的主要接口，通过自然语言实现对话级别的沟通。我们现在目睹“Act II”（2024年至今）的出现，模型正在从潜在空间的知识检索系统转向通过测试时缩放技术的思想构建引擎。这一新的范式通过基于语言的思想与AI建立心智水平的连接。在本文中，我们阐明认知工程的概念基础，并解释为什么这一时刻对于其发展至关重要。我们通过全面的教程和优化的实现系统地分析这些先进方法，使认知工程的访问权更加普及，使每一位实践者能够参与到AI的第二幕中。我们提供了定期更新的测试时缩放论文集，可以在GitHub Repository中找到：https://github.com/GAIR-NLP/cognition-engineering

发布时间: 4/29/2025

查看原文

量子神经网络中的自适应非局域可观测子

作者: Hsin-Yi Lin, Huan-Hsin Tseng, Samuel Yen-Chi Chen, Shinjae Yoo

arXiv:2504.13414v2 宣布类型: replace-cross 摘要：传统的量子机器学习变分量子电路（VQC）通常依赖于固定的形式不变算子，这些算子常由Pauli算子构建。受海森堡图景的启发，我们提出了一种自适应的非局域测量框架，显著增加了量子电路的模型复杂性。我们引入了具有演化参数的形式不变算子，表明优化VQC旋转对应于在算子空间中追踪一条路径。这种观点揭示了标准VQC仅仅是海森堡表示的特例。此外，我们表明，正确地将旋转变分与非局域算子结合，可以增强量子比特之间的相互作用和信息混合，允许灵活的电路设计。介绍了两种非局域测量方案，并在分类任务上的数值模拟证实了我们的方法优于传统的VQC，提供了一种更强大且资源高效的量子神经网络方法。

发布时间: 4/29/2025

查看原文

解决量子退火中的次要嵌入问题并评估最先进的算法性能

作者: Aitor Gomez-Tejedor, Eneko Osaba, Esther Villar-Rodriguez

arXiv:2504.13376v2 通知类型: replace-cross 摘要：本研究探讨了变量嵌入问题，即将伊辛模型的变量映射到量子退火处理器的过程。这一动机源于量子退火器在解决适合其架构的问题时与非硬件原生拓扑结构的问题之间的性能差异。我们的研究有两个主要目标：i) 分析嵌入质量对D-Wave Systems量子退火器性能的影响，ii) 评估由D-Wave提供并广泛认可为文献中标准嵌入技术的Minorminer算法生成的嵌入的质量。针对第一个目标，我们的实验揭示了嵌入的平均链长与解决方案的相对误差之间存在明显的相关性。这强调了嵌入质量对量子退火性能的直接影响。对于第二个目标，我们专注于Minorminer技术，评估其嵌入问题的能力、生成的嵌入质量以及结果的稳健性。我们还将其性能与D-Wave开发的另一种算法（Clique Embedding）进行了比较，该算法是确定性的，并旨在将完全连接的伊辛模型嵌入到量子退火处理器中，用作最坏情况的基准。研究结果表明，Minorminer有显著改进的空间，因为它并未在所有情况下都优于最坏情况。

发布时间: 4/29/2025

查看原文

Tilus：一种用于LLM服务的任意位宽GPGPU计算的虚拟机

作者: Yaoyao Ding, Bohan Hou, Xiao Zhang, Allan Lin, Tianqi Chen, Cody Yu Hao, Yida Wang, Gennady Pekhimenko

arXiv:2504.12984v2 Announce Type: replace-cross 摘要：运行大规模语言模型（LLMs）对于AI驱动的应用至关重要，但同时也需要大量的计算资源，特别是在内存带宽和计算吞吐量方面。低精度计算已经成为了改进效率同时减少资源消耗的关键技术。当前用于生成低精度内核的方法局限于权重位宽为2的幂，并且由于高层次GPU编程抽象而导致性能不佳。这些抽象限制了诸如细粒度寄存器管理和优化的内存访问模式等关键优化，这些都是有效低精度计算所必需的。本文介绍了一种用于通用GPU（GPGPU）计算的虚拟机（VM），它能够支持任意位宽的低精度数据类型，同时保持GPU的编程能力。该提出的VM具有线程块级编程模型、分层内存空间、新颖的代数布局系统，并广泛支持各种低精度数据类型。VM程序编译成高效的GPU程序，具有自动向量化和指令选择。广泛的实验表明，我们的VM能够高效地支持各种低精度数据类型，并在支持的类型上优于最先进的低精度内核。与现有的编译器（如 Triton 和 Ladder）以及手工优化的内核（如 QuantLLM 和 Marlin）相比，我们的VM分别实现了1.75倍、2.61倍、1.29倍和1.03倍的性能提升。

发布时间: 4/29/2025

查看原文

基于知识图谱的RAG在小规模LLM辅助的日本医疗问答中的作用探索

作者: Yingjian Chen, Feiyang Li, Xingyu Song, Tianxiao Li, Zixin Xu, Xiujie Chen, Issey Sukeda, Irene Li

arXiv:2504.10982v5 宣告类型: replace-cross 摘要：大型语言模型（LLMs）在医疗问答方面表现良好，但由于隐私限制防止在临床环境中使用如GPT-4等商业模型，因此其在日本语环境中的有效性受到限制。因此，最近的努力集中在指令调优开源LLMs上，尽管与检索增强生成（RAG）结合的潜在可能性仍未充分探索。为了解决这一问题，我们首次探索了一种基于知识图谱（KG）的RAG框架，用于日本医疗问答的小规模开源LLMs。实验结果表明，在使用小型开源LLMs进行日本医疗问答时，基于知识图谱的RAG的影响是有限的。进一步的案例研究表明，RAG的有效性对外部检索内容的质量和相关性高度敏感。这些发现为理解在日语文本中应用RAG的挑战和潜在可能性提供了宝贵的见解，同时也为其他低资源语言提供了参考。

发布时间: 4/29/2025

查看原文