arXiv:2502.09925v1 Announce Type: cross
摘要:多模态视觉语言模型在开放式应用中正变得日益重要,这得益于模型架构、训练技术和高质量数据的进步。然而,它们的表现往往受到特定任务数据不足的限制,导致泛化性能不佳和输出偏差。现有努力通过手动任务标注来增加微调数据集中的任务多样性,但这一过程劳动密集,通常只能生成几百种任务类型。为了解决这一问题,我们提出了一种名为TaskGalaxy的大型多模态指令微调数据集,包含19,227种层次任务类型和413,648个样本。TaskGalaxy 利用GPT-4o来丰富任务多样性,从少量手动定义的任务扩展而来,并通过CLIP和GPT-4o筛选出与开源图像最佳匹配的任务,生成相关的问题-答案对。采用多种模型确保样本质量。这一自动化流程既提高了任务多样性,又提升了数据质量,减少了手动干预。将TaskGalaxy应用到LLaVA-v1.5和InternVL-Chat-v1.0模型中,显示了在16个基准测试中的显著性能提升,证明了任务多样性的重要性。TaskGalaxy已公开发布在https://github.com/Kwai-YuanQi/TaskGalaxy。
arXiv:2502.09920v1 宣告类型:交叉
摘要:通过一系列卫星到地球的信道,可以建立一个全球连续变量量子密钥分发(CV-QKD)网络。这样的网络通过使用真实本地振荡器进行相干测量,并通过在传输参考脉冲上编码已知信息并使用信号相位误差估计算法进行本地校准,提供性能提升。信号相位误差估计算法的速度和准确性对于实用的CV-QKD实现至关重要。我们的工作提供了一个框架,用以分析长短期记忆神经网络架构参数化与信号相位误差估计的量子克拉默-拉奥不确定性界之间的关系,重点在于降低模型复杂性。具体来说,我们证明了可以使用低复杂度的神经网络架构实现信号相位误差估计,而不会显著牺牲准确性。我们的结果显著提高了通过卫星到地球信道部署的实际CV-QKD系统的实时性能,从而促成了量子互联网的持续发展。
arXiv:2502.09919v1 交叉公告类型:cross
摘要:糖尿病是一种慢性代谢紊乱,其特征是血糖水平(血糖值)持续升高,可能导致严重并发症,如心血管疾病、周围神经病变和视网膜病变。预测血糖值可以让患者将血糖水平维持在安全范围内,并使护理人员通过生活方式的调整采取主动措施。持续葡萄糖监测(CGM)系统提供实时跟踪,为监测血糖值提供了有价值的工具。然而,由于体力活动、饮食和其他因素的影响,准确预测血糖值仍然颇具挑战。最近的深度学习模型在改善血糖预测方面显示出潜力。然而,从多模态、非均匀采样的数据中对长时间预测进行准确的血糖预测仍然是一个具有挑战性的研究问题。在这篇论文中,我们提出了AttenGluco,一个基于多模态Transformer框架的长期血糖预测方法。AttenGluco利用交叉注意力有效地整合了CGM和活动数据,解决了不同采样率数据融合的挑战。此外,它还采用了多尺度注意力来捕捉时间数据中的长期依赖性,从而提高预测准确性。为了评估AttenGluco的性能,我们在最近发布的AIREADI数据集上进行了预测实验,分析了其在不同受试者组中的预测准确性,包括健康个体、前期糖尿病患者和2型糖尿病患者。此外,我们还探讨了随着新组别的引入,其性能改进和遗忘行为。我们的评估显示,与多模态LSTM模型相比,AttenGluco在所有误差指标(如均方根误差(RMSE)、平均绝对误差(MAE)和相关性)上都有所提高。在RMSE和MAE方面,AttenGluco分别优于基线模型约10%和15%。
arXiv:2502.09891v1 类别: cross
摘要: 检索增强生成(RAG)已被证明在将外部知识集成到大型语言模型(LLMs)中进行问答(QA)任务中是有效的。最新的RAG方法通常使用图数据作为外部数据,因为它们能够捕获丰富的语义信息并链接实体之间的关系。然而,现有的基于图的RAG方法无法准确地从图中识别相关信息,并且在在线检索过程中消耗了大量的令牌。为了解决这些问题,我们提出了一种新的基于图的RAG方法,称为Attributed Community-based Hierarchical RAG(ArchRAG),该方法通过使用属性社区来扩充问题,并引入了一种新的基于LLM的层次聚类方法。为了从图中为问题检索最相关的信息,我们构建了一种新的层次索引结构,用于属性社区,并开发了一种有效的在线检索方法。实验结果表明,ArchRAG在准确性和令牌成本方面均优于现有方法。
arXiv:2502.09889v1 Announce Type: cross
摘要:图形神经网络(GNNs),由图形学习社区开发,已在多机器人和多智能体学习中得到采用并显示出极高的有效性。受这种成功的跨学科合作的启发,我们研究并表征了现有GNN解释方法在解释多智能体协调方面的适用性。我们发现,这些方法有可能识别出对团队行为影响最大的通信渠道。根据初步分析,我们提出了一个注意力熵正则化项,从而使得基于注意机制的策略更适合现有的图基线解释器。直观地说,最小化注意力熵会激励智能体将注意力集中在最具影响力或影响最大的智能体上,从而减轻解释器面临的问题。通过理论上的论证,我们证明最小化注意力熵会增加由解释器生成的子图与其补图之间的差异性。我们在三项任务和三种团队规模下的评估(i)提供了现有解释器有效性的见解,(ii)展示了我们提出的正则化一致地提高了解释质量,而无需牺牲任务性能。
arXiv:2502.09886v1 类别: cross
摘要: 模拟为廉价扩展通用政策的训练数据提供了有前景的方法。为了可扩展地生成来自多样和现实任务的数据,现有的算法要么依赖于可能产生不适用于机器人学任务的虚假任务的大语言模型(LLMs);要么依赖于数字双胞胎,这需要仔细的现实到模拟对齐并且难以扩展。为了解决这些挑战,我们提出了Video2Policy,这是一种新颖的框架,利用互联网RGB视频根据日常人类行为重建任务。我们的方法包括两个阶段:(1) 基于视频在模拟中生成任务;和 (2) 利用上下文中的LLM生成奖励函数进行迭代的强化学习。我们通过从Something-Something-v2 (SSv2) 数据集重建超过100个视频来展示Video2Policy的有效性,这些视频展示了9个不同任务中多样的和复杂的个人行为。我们的方法可以在这些任务上成功训练RL政策,包括复杂的挑战性任务如投掷。最后,我们展示了生成的模拟数据可以用于扩展训练通用政策,并可以通过Real2Sim2Real方式将其转移到真实机器人上。
arXiv:2502.09885v1 类型: cross
摘要:时间序列建模与分析在各个领域变得至关重要。传统的如循环神经网络(RNNs)和Transformer等方法在处理离散时间和定期采样的数据时非常有效,但在捕捉实际场景中固有的连续动态和不规则采样模式时面临重大挑战。神经微分方程(NDEs)通过结合神经网络的灵活性和微分方程的数学严谨性,代表了一种范式转变。本文全面回顾了基于NDE的时间序列分析方法,包括神经常微分方程、神经控制微分方程和神经随机微分方程。我们详细讨论了它们的数学形式、数值方法和应用,突出了其建模连续时间动态的能力。此外,我们还讨论了关键挑战和未来的研究方向。这篇综述为希望利用NDE进行高级时间序列分析的研究人员和从业者提供了基础。
arXiv:2502.09884v1 类型: cross
摘要: 我们考虑由鞅噪声驱动的线性两时间尺度随机近似算法。机器学习中的近期应用促使我们理解有限时间内的误差率,但传统的随机近似分析主要关注分布上的渐近收敛或远非最优的有限时间内界。关于渐近中心极限定理(CLT)的先前工作表明,两时间尺度算法可能能够达到方差期望下的 $1/\sqrt{n}$ 误差,其中常数由极限高斯向量的期望范数给出。然而,已知的最优有限时间速率要慢得多。我们首次根据 Wasserstein-1 距离为带有 Polyak-Ruppert 平均的两时间尺度随机近似推导了非渐近中心极限定理。作为推论,我们证明了 Polyak-Ruppert 平均所达到的期望误差以 $1/\sqrt{n}$ 的速率衰减,这显著改进了先前工作的收敛速率。
arXiv:2502.09874v1 宣告类型: cross
摘要:核实例分割在病理图像分析中起到了关键作用。主要挑战来自于精确分割实例的难度以及进行全监督训练时精确的掩模级别注释的成本高昂。在本文中,我们提出了一个傅里叶引导框架,用于解决弱监督核实例分割问题。在这个框架中,我们构建了一个傅里叶引导模块,将先验信息融入到模型的训练过程中,这有助于模型捕捉核细胞的相关特征。同时,为了进一步提高模型表示核细胞特征的能力,我们提出了基于引导的实例级别对比模块。该模块充分利用了框架本身的特性以及引导信息,有效地增强了核细胞的表示特征。我们在两个公开数据集上展示了,在全监督设计下,我们的模型可以超越当前的SOTA方法;在弱监督实验中,仅使用少量标注数据,我们的模型仍能保持接近全监督的性能。此外,我们还在一个私有数据集上进行了泛化实验,即使在没有任何标注的情况下,我们的模型仍然能够有效地分割训练过程中未见过的核细胞图像。作为开源科学,所有的代码和预训练模型都可以在 https://github.com/LQY404/FrGNet 获得。
arXiv:2502.09870v1 通告类型: cross
摘要:对语言技术(如LLMs)的人性化——赋予非人类对象或实体人类特质——的关注最近引起了关于潜在负面影响的新讨论。为 productive 地讨论这种人性化的潜在影响及其适当的适用情境,我们需要一个共享词汇来涵盖语言人性化的各种方式。在本工作中,我们参考现有文献并分析用户与语言技术的互动案例,以开发一种分类体系,展示能够促进人性化的文本表达。我们指出了理解语言人性化所面临的挑战和紧张关系,例如所有语言本质上都是人类的,并且努力描述和改变人们对机器人性的认知也可能会去人性化某些人类。我们讨论了我们分类体系支持关于和决策语言技术人性化更精确和有效讨论的方式。