arXiv 论文列表

作者: Pranav Sinha, Sumit Kumar Jha, Sunny Raj

arXiv:2505.07711v1 量子门类型: 交叉摘要：我们正处于嘈杂的中等规模量子（NISQ）时代，在这个时代，量子计算机受到嘈杂量子门的限制，其中一些量子门比其他门更容易出错，可能导致最终计算结果难以理解。量子电路编译算法试图在将量子算法映射到量子硬件时最小化这些嘈杂的量子门，但它们面临着计算上的挑战，这限制了它们在仅包含5-6个量子比特的量子电路中的应用，因此，在应用嘈杂量子门最小化算法之前，需要对大电路进行分区。现有的这些算法本质上具有启发式性质，不考虑后续的量子门最小化任务。大型语言模型（LLMs）有可能改变这一点，并帮助改进量子电路的分区。本文探讨了使用Llama和Mistral等LLM进行量子电路分区的问题，通过利用它们理解和生成代码的能力，包括QASM等。具体而言，我们教导LLM使用伯克利量子合成工具包的快速分区方法进行电路分区。通过实验评估，我们表明，对开源LLM进行精细调整能够使我们获得53.4%的任务准确率，而现成的LLM无法使用标准的1-shot和few-shot训练方法正确分区电路。

发布时间: 5/13/2025

查看原文

轻量级端到端文本到语音合成，用于低资源离线应用

作者: Biel Tura Vecino, Adam Gabry\'s, Daniel M\k{a}twicki, Andrzej Pomirski, Tom Iddon, Marius Cotescu, Jaime Lorenzo-Trueba

arXiv:2505.07701v1 交叉类型: cross 摘要：近年来的研究表明，采用端到端（E2E）的方式直接从文本生成波形可以比传统的级联或两阶段神经文本到语音（TTS）系统生成更加自然的语音。然而，当前最先进的E2E模型计算复杂且占用大量内存，使得它们不适合低资源场景下的实时离线设备应用。为了解决这个问题，我们提出了一种轻量级E2E-TTS (LE2E)模型，能够生成高质量的语音同时消耗最少的计算资源。我们在LJSpeech数据集上评估了所提出的模型，结果显示它在模型参数上可以小90%，并且在实时因子上快10倍的情况下，达到了最先进的性能。此外，我们展示了所提出的端到端训练范式与两阶段训练相比能够获得更好的质量。我们的结果表明，LE2E 是开发低资源、实时高质量设备端文本到语音应用的一个有前途的方法。

发布时间: 5/13/2025

查看原文

在基础模型时代的多模态生存建模

作者: Steven Song, Morgan Borjigin-Wang, Irene Madejski, Robert L. Grossman

arXiv:2505.07683v1 交叉类型摘要：癌症基因组百科全书（TCGA）通过其协调的基因组学、临床和影像数据，使新型发现成为可能，并成为大规模的参考。先前的研究已经从单模态或跨模态的TCGA数据中训练了专门的癌症生存预测模型。现代生物医学深度学习的范式是开发基础模型（FMs）以提取与特定建模任务无关的意义特征嵌入。尤其是生物医学文本领域，FMs的发展正在增长。虽然TCGA包含病理报告等自由文本数据，但这些数据历来使用不足。在这里，我们研究了使用FMs提取的零样本嵌入训练经典的跨模态生存模型的可行性。我们展示了多模态融合的简便性和增益效果，优于单模态模型。我们展示了包括病理报告文本的益处，并严格评估了基于模型的文本总结和虚构的效果。总体而言，我们通过利用FMs和从病理报告中提取信息来现代化工生存模型。

发布时间: 5/13/2025

查看原文

从视觉-语言模型中通过Dual-Head优化实现简单的半监督知识蒸馏

作者: Seongjae Kang, Dong Bok Lee, Hyungjoon Jang, Sung Ju Hwang

arXiv:2505.07675v1 消息类型: cross 摘要：视觉-语言模型（VLMs）通过利用丰富的文本信息并在最少的标记数据下实现了多样化任务的显著成功。然而，在资源受限的环境中部署如此大的模型仍然具有挑战性。知识蒸馏（KD）为解决这一问题提供了一个成熟的解决方案；然而，最近从VLMs来的KD方法通常涉及多阶段训练或额外调优，增加了计算开销和优化复杂性。在本文中，我们提出了一种简单的yet有效的KD框架——双头优化（DHO），它在半监督设置中将VLMs的知识转移到紧凑的任务特定模型中。具体而言，我们引入了两个独立的学习头，分别从标记数据和教师预测中学习，并提出在推理过程中线性组合它们的输出。我们观察到DHO减轻了监督信号和蒸馏信号之间的梯度冲突，使得在单个学习头KD基线中更有效地学习特征。结果，广泛的实验表明，DHO在多个领域和细粒度的数据集中始终优于基线方法。值得注意的是，在ImageNet上，它达到了最先进的性能，在使用1%和10%标记数据的情况下，分别提高了3%和0.1%的准确性，同时使用更少的参数。

发布时间: 5/13/2025

查看原文

OnPrem.LLM：一个注重隐私的文档智能工具包

作者: Arun S. Maiya

arXiv:2505.07672v1 交叉发布类型: cross 摘要: 我们介绍了基于 Python 的 OnPrem.LLM 工具包，用于在离线或受限环境中对敏感的非公开数据应用大型语言模型 (LLMs)。该系统设计用于保护隐私的应用场景，并提供了文档处理和存储、检索增强生成 (RAG)、信息提取、总结、分类以及最少配置的提示/输出处理的预构建流水线。OnPrem.LLM 支持多个 LLM 后端——包括 llama.cpp、Ollama、vLLM 和 Hugging Face Transformers，并支持量化模型、GPU 加速和无缝的后端切换。尽管旨在进行全本地执行，但 OnPrem.LLM 也支持在允许的情况下与广泛的云 LLM 提供商集成，从而实现性能与数据控制之间的平衡部署。无代码 Web 界面增加了非技术人员的可访问性。

发布时间: 5/13/2025

查看原文

化学领域的检索增强生成方法比对

作者: Xianrui Zhong, Bowen Jin, Siru Ouyang, Yanzhen Shen, Qiao Jin, Yin Fang, Zhiyong Lu, Jiawei Han

arXiv:2505.07671v1 宣告类型: cross 摘要: 检索增强生成 (RAG) 已经成为增强大语言模型 (LLMs) 外部知识的强大框架，特别是在需要专业和动态信息的科学领域中。尽管其潜力巨大，但在化学领域的应用仍然相对未被探索，主要原因是缺乏高质量的领域特定语料库和完善的评估基准。在这项工作中，我们引入了 ChemRAG-Bench，这是一个全面的基准，旨在系统地评估 RAG 在一系列化学相关任务中的有效性。伴随的化学语料库集成了异构知识来源，包括科学文献、PubChem数据库、PubMed摘要、教科书和Wikipedia条目。此外，我们还介绍了 ChemRAG-Toolkit，这是一个模块化且可扩展的 RAG 工具包，支持五种检索算法和八种LLMs。使用 ChemRAG-Toolkit，我们展示了 RAG 在性能方面的显著提升——相对于直接推理方法，平均相对改进率为 17.4%。我们还对检索架构、语料库选择以及检索片段的数量进行了深入分析，最终提出了实用建议，以指导未来 RAG 系统在化学领域的研究和部署。代码和数据可在 https://chemrag.github.io 获取。

发布时间: 5/13/2025

查看原文

探究生成式AI在敏捷软件开发中史诗质量评估作用的案例研究

作者: Werner Geyer, Jessica He, Daita Sarkar, Michelle Brachman, Chris Hammond, Jennifer Heins, Zahra Ashktorab, Carlos Rosemberg, Charlie Hill

arXiv:2505.07664v1 类别: cross 摘要：生成式AI的广泛 availability 为支持各种工作领域提供了新的机会，包括敏捷软件开发。敏捷史诗是产品经理向相关方传达需求的关键文件。然而，在实践中，它们往往定义不充分，导致频繁的变更、交付延迟和成本超支。在这一行业案例研究中，我们探讨了大型语言模型（LLMs）评估全球公司中敏捷史诗质量的机会。一项涉及17名产品经理的用户研究结果表明，LLM评估如何能够纳入他们的工作实践中，包括它们对改进史诗的感知价值和使用情况。高度的满意度表明，敏捷史诗是AI评估的一个新的、可行的应用领域。然而，我们的发现还概述了挑战、限制和采用障碍，这些都可以为从业者和研究人员提供指导，以在未来敏捷工作实践中整合此类评估。

发布时间: 5/13/2025

查看原文

Chronocept: 在机器中灌输时间感

作者: Krish Goel, Sanskar Pandey, KS Mahadevan, Harsh Kumar, Vishesh Khadaria

arXiv:2505.07637v1 Announce Type: cross 摘要：人类认知与对时间的感知——即Chronoception——密切相关。这种感知使我们能够判断事实的有效期，并确定知识何时过时。尽管在视觉、语言和运动控制方面取得了进展，但AIstill在处理时间有效性方面面临挑战。我们引入了Chronocept，这是首个将时间有效性建模为时间上的连续概率分布的基准测试。使用沿语义分解的时间轴拟合的偏斜正态曲线，Chronocept捕捉了涌现、衰减和峰值相关性等细微模式。其中包括两个数据集：基准I（原子事实）和基准II（多句段落）。注释显示出强烈的注释者间一致性（分别为84%和89%）。我们的基线方法预测曲线参数——位置、尺度和偏斜度——这使得学习具有可解释性和泛化性，并优于基于分类的方法。Chronocept填补了AI在时间推理方面的基础空白，支持知识定位、事实核查、检索增强生成（RAG）和主动代理等应用。源码和数据已公开。

发布时间: 5/13/2025

查看原文

神经脑：一种受神经科学启发的具身代理框架

作者: Jian Liu, Xiongtao Shi, Thai Duy Nguyen, Haitian Zhang, Tianxiang Zhang, Wei Sun, Yanjie Li, Athanasios V. Vasilakos, Giovanni Iacca, Arshad Ali Khan, Arvind Kumar, Jae Won Cho, Ajmal Mian, Lihua Xie, Erik Cambria, Lin Wang

arXiv:2505.07634v1 宣告类型：交叉摘要：人工智能（AI）的快速演变已经从静态、基于数据的模型转变为能够感知和与现实环境互动的动力系统。尽管在模式识别和符号推理方面取得了进展，但当前的AI系统，如大型语言模型，仍然缺乏实体性，无法与世界进行物理互动。这一限制推动了具身AI的发展，其中自主代理，如类人机器人，必须在充满不确定性的环境中展现出类似人类的适应性进行导航和操控。这一挑战的核心是神经大脑的概念，这是一种中央智能系统，旨在驱动具有人类适应性的具身代理。神经大脑必须无缝地将多模态感知与认知能力集成在一起。实现这一点还需要具有适应性的记忆系统以及高效的硬件-软件协同设计，以实现动态环境中的实时操作。本文提出了一个统一框架，用于具身代理的神经大脑，解决了两个基本挑战：（1）定义神经大脑的核心组件，（2）弥合静态AI模型与现实世界部署所需的动态适应性之间的差距。为此，我们提出了一种生物启发式架构，该架构将多模态主动感知、感知-认知-行动功能、基于神经可塑性的记忆存储与更新以及神经形态硬件/软件优化融为一体。此外，我们还对这四个方面中具身代理的最新研究进行了回顾，并分析了当前AI系统与人类智能之间的差距。通过综合神经科学的洞见，我们概述了一条通向开发普遍适用、自主的代理并在现实场景中实现人类水平智能的道路。

发布时间: 5/13/2025

查看原文

物超所值：云CPU上的向量搜索

作者: Leonardo Kuffo, Peter Boncz

arXiv:2505.07621v1 公告类型：交叉摘要：向量数据库已经出现，成为一种支持高效查询高维向量的新类型系统。其中许多都将在云上提供其数据库服务。然而，可用的CPU种类繁多，且缺乏针对不同CPU的向量搜索基准测试，使得用户难以选择。在这项研究中，我们展示了云中可用的CPU微架构在向量搜索场景下的表现存在显著差异。例如，在float32向量上的IVF索引中，AMD的Zen4相比Intel的Sapphire Rapids几乎每秒多执行3倍的查询（QPS），但在HNSW索引中，情况则相反。然而，当考虑每美元查询次数（QP$）时，Graviton3对于大多数索引和量化设置来说都是最好的选择，甚至优于Graviton4（表格1）。通过这项工作，我们希望指导用户在部署向量搜索系统时获得最佳的“物有所值”。

发布时间: 5/13/2025

查看原文