arXiv:2503.02650v2 宣告类型: 修改
摘要:无结构文本数据的指数增长为现代数据管理和信息检索提出了根本性的挑战。虽然大型语言模型(LLMs)在自然语言处理方面展现了杰出的能力,但它们将无结构文本转换为标准化、结构化的格式的潜力仍未得到充分探索——这种能力有可能革命性地改变跨行业的数据处理工作流。本研究在系统评估LLMs将无结构食谱文本转换为结构化Cooklang格式的能力方面开创了新局面。通过全面测试四个模型(GPT-4o、GPT-4o-mini、Llama3.1:70b 和 Llama3.1:8b),我们引入了一种新的评估方法,将传统指标(WER、ROUGE-L、TER)与语义元素识别的专门指标相结合。我们的实验表明,带有少量提示的GPT-4o取得了突破性的性能(ROUGE-L:0.9722,WER:0.0730),首次证明LLMs可以在无需大量训练的情况下可靠地将特定领域的无结构文本转换为结构化格式。尽管模型性能通常随着规模的增加而提升,但我们发现像Llama3.1:8b这样的小型模型在通过目标微调进行优化方面具有令人惊讶的潜力。这些发现为各领域的自动化结构化数据生成打开了新的可能性,包括医疗记录和技术文档,有可能改变组织处理和利用无结构信息的方式。
arXiv:2502.17289v2 通告类型: 替换
摘要: 在本文中,我们提出了一种新的方法,通过将问题视为开放式类别问题来解决植物分层分类问题。观察到现有的药用植物分类方法往往无法进行分层分类和准确识别未知物种,这限制了它们在全面植物分类中的有效性。因此,我们通过为未知物种分配最佳的分层标签来解决未知物种分类问题。我们提出了一种新方法,该方法整合了DenseNet121、多尺度自我注意(MSSA)和级联分类器,用于分层分类。该方法系统地对从门到种的多等级药用植物进行分类,确保分类详细且精准。利用多尺度空间注意,模型从图像中捕捉局部和全局上下文信息,提高同类物种之间的区分度以及新物种的识别。该模型使用注意力分数关注多个尺度上的重要特征。所提出的方法为分层分类提供了解决方案,展示了在识别已知和未知物种方面的优越性能。该模型在包含和不包含背景伪影的两个最先进的数据集上进行了测试,以便能够应对实际应用。我们使用未知物种测试了该模型。对于未知物种,该模型分别在预测正确门、纲、目和科方面实现了83.36%、78.30%、60.34%和43.32%的平均准确率。我们提出的模型大小几乎比现有的最先进的方法小四倍,使其在实际应用中易于部署。
arXiv:2502.07503v3 通告类型: 更新
摘要: 受语言和多模态系统中语言分形几何学最新发现的启发,我们介绍了递归推理缩放(RINS)作为一种补充的即插即用方法,用于在语言和多模态系统中扩展推理时间。RINS是递归深度的一种特定形式,显著优于其他55种变体,包括最近的“重复一切”(RAO)策略(楼等人,2024)和潜性递归思考(Geiping等人,2025)。与以往研究不同,我们在计算能力匹配的环境中进行比较,并证明在固定模型大小和训练计算预算的情况下,RINS显著提高了语言建模性能。它还可以超越纯语言任务,为多模态系统带来收益,包括在SigLIP-B/16上0-shot ImageNet准确率提高2%。此外,通过推导数据缩放定律,我们展示了RINS提高了渐近性能限制和缩放指数。更重要的是,通过引入轻量级(线性)适配器(模型参数的<1%)和随机dropout,RINS提供了一种无悔策略,这意味着即使在推理时间不应用递归深度的情况下,RINS增强的预训练也会提高语言建模性能。这对应于在计算能力、参数数量和推理时间匹配的环境中改进性能,表明它作为大语言模型预训练组件的潜在可行性!
arXiv:2501.05368v2 宣告类型:替代
摘要:连接主义机器学习方法,即神经网络,目前正 enjoying 一种相当流行的趋势。然而,这些方法需要大量的数据,并且生成出的模型对人类来说是无法解释的。一种与神经网络和梯度基于学习兼容,但明确建模组合性的替代框架是向量象征架构(Vector Symbolic Architectures,简称VSAs)。VSAs 是一族高维向量表示上的代数。它们源自认知科学,旨在统一神经处理和人类进行的符号推理。虽然机器学习方法已经从范畴论分析中受益,但 VSAs 还未受到类似的待遇。在这篇论文中,我们首次尝试将范畴论应用于 VSAs。具体来说,我们将向量推广到余预层,并将 VSAs 的操作描述为外部张量积的右 Kan 扩展。这种公理化涉及证明在这种情况下右 Kan 扩展可以表达为简单、元素级的操作。我们通过连接到当前 VSAs 实现的具体示例来验证我们的公理化,同时提出了 VSAs 新的设计可能性。
arXiv:2407.19655v2
公告类型: 修改
摘要:人工智能(AI)在医疗领域的进步正在迅速增强各类专业服务的效率和效果,包括心脏病学、眼科、皮肤科、急诊医学等。通过利用机器学习、神经网络和自然语言处理等技术,AI 应用极大地改善了诊断准确性、个性化治疗和患者预后预测。然而,这些进步也带来了重大伦理和公平性挑战,特别是与数据和算法中的偏见有关的问题。这些偏见可能导致医疗服务中的不平等现象,影响不同人口群体的诊断准确性和治疗结果。本文评审了AI在医疗领域的整合,强调了与偏见相关的关键挑战,并探讨了缓解策略。我们强调多样化的数据集、公平意识算法和监管框架对于确保公平医疗服务的重要性。论文以提倡跨学科方法、AI决策透明性和开发创新包容性AI应用的未来研究建议作为结论。
arXiv:2402.16631v3 宣告类型: 更改
摘要:生成式人工智能(GenAI)和通信网络预计将在6G中产生革命性的协同效应。通过无线网络连接GenAI代理,有望释放集体智能(CI)的潜力,并为通用人工智能(AGI)铺平道路。然而,当前的无线网络设计为“数据管道”,并不适合容纳和利用GenAI的能力。在本文中,我们提出了GenAINet框架,其中分布式的GenAI代理通过通信知识(事实、经验和方法)来完成任意任务。我们首先提出了一个单一GenAI代理的架构,然后提供了一个集成GenAI能力的网络架构,用于管理和处理网络协议以及应用程序。在此基础上,我们通过提出一种语义原生的GenAINet来研究有效的通信和推理问题。具体而言,GenAI代理从异构原始数据中提取语义,构建并维护一个表示知识片段之间语义关系的知识模型,该模型被GenAI模型用于规划和推理。在这种范式下,根据目标任务的复杂程度,可以灵活实现不同层次的协作。此外,我们进行了两个案例研究,其中通过无线设备查询证明,提取、压缩和传输公共知识可以提高查询准确性并降低通信成本;在无线功率控制问题中,我们展示了分布式的代理可以通过协作推理独立完成通用任务,而无需预先定义的通信协议。最后,我们讨论了在6G网络中应用大型语言模型(LLMs)所面临的挑战和未来的研究方向。
arXiv:2012.10700v2 公告类型:替换
摘要:深度强化学习在许多完全信息游戏中达到了超人类的水平。具有零知识学习的最新算法是AlphaZero。我们采用了另一种方法,Athéenan,它使用了不同的、基于Minimax的搜索算法Descent,以及不同的学习目标,并且不使用策略。我们展示了Athéenan在多个游戏中比Polygames(AlphaZero的重新实现)更高效。即使Polygames使用100倍更多的GPU资源(至少对于某些游戏),Athéenan仍然具有竞争力。Athéenan性能更优的一个关键因素是,生成用于训练的状态数据的成本大约低296倍。在相同合理的资源条件下,不使用强化启发式的Athéenan至少比Polygames快7倍,而使用强化启发式时,则比Polygames快超过30倍。
arXiv:2505.02824v1 交叉公告类型
摘要:文本到图像(T2I)扩散模型已经迅速发展,使得在文本提示下生成高质量的图像成为可能。然而,对于个人化的不断增长的趋势引发了对未经授权的数据集使用的重大担忧。为了应对这一问题,已经出现了数据集所有权验证(DOV)这一解决方案,通过后门技术将水印嵌入到微调数据集中。这些水印在良性样本下处于不活跃状态,但在触发时会产生拥有者指定的输出。尽管DOV对T2I扩散模型显示出前景,但其针对版权规避攻击(CEA)的鲁棒性尚未得到探索。在本文中,我们探讨了攻击者如何通过CEA绕过这些机制,使模型即使在使用带水印的数据集训练时也能绕过水印。我们提出了首个专为在T2I扩散模型中削弱DOV而设计的版权规避攻击(即CEAT2I)。具体而言,CEAT2I包含三个阶段:带水印样本检测、触发识别和高效的水印缓解。我们方法的关键洞察是,在微调过程中,T2I模型在带水印样本上表现出更快的收敛性,这通过中间特征的偏差得以体现。利用这一点,CEAT2I可以可靠地检测带水印的样本。然后,我们从检测到的带水印样本的提示中迭代删除标记符,并监控中间特征的变化来确定确切的触发标记符。最后,我们采用闭式概念擦除方法来移除注入的水印。广泛的实验表明,我们的CEAT2I能够有效地规避DOV机制,同时保持模型性能。
arXiv:2505.02795v1 宣布类型: 综合
摘要:近年来,大规模语言模型(LLMs)取得了显著突破,革新了自然语言处理领域以及更广泛的领域。由于参数规模庞大,使用私有数据对这些模型进行微调以适应多种下游任务已成为主流。虽然联邦学习(FL)为在不共享原始数据的情况下微调LLMs提供了一种有前景的解决方案,但重大的计算成本阻碍了其普及。此外,在现实世界中,私有客户端设备往往拥有不同的计算资源,这进一步复杂了LLM微调的问题。为应对这些挑战,我们提出了一种基于拆分学习(SL)和低秩适应(LoRA)微调的异构参数高效微调(PEFT)框架——HSplitLoRA,用于在异构客户端设备上高效微调LLMs。HSplitLoRA 首先根据权重对LLM训练的贡献识别出重要权重。然后,它会根据所选权重的不同计算预算动态配置LoRA适配器的分解秩,并根据客户端设备不同的计算预算确定模型分割点。最后,设计了一种无噪声的适配器聚合机制,支持异构适配器聚合而不引入噪声。广泛的实验证明,HSplitLoRA 在训练准确性和收敛速度方面超越了现有基准。
arXiv:2505.02780v1 宣告类型: 交叉
摘要:病理学家依赖百万像素级的整个切片图像(WSIs)来诊断癌症等疾病,但当前的数字病理工具妨碍了诊断。WSIs 的巨大规模,通常超过 100,000×100,000 像素,与传统显示器提供的有限视图形成了矛盾。这种不匹配要求病理学家不断平移和缩放,增加了其认知负担,导致诊断疲劳,并减缓了病理学家采用数字方法的速度。PathVis,我们的用于 Apple Vision Pro 的混合现实可视化平台,解决了这些挑战。它改变了病理学家与数据的交互方式,用直观的探索替代了笨重的鼠标和显示器导航,通过沉浸式的工位空间使用自然的手势、注视和语音命令进行直观探索。PathVis 结合 AI 来增强诊断。一个基于 AI 的搜索功能可以立即检索并并排显示与其最相似的前五个患者病例,通过快速比较来提高诊断的准确性和效率。此外,多模式的对话式 AI 助手提供实时图像解释支持,并帮助病理学家在多个 Apple 设备上协作。通过将传统的病理直接性与先进的混合现实可视化和 AI 融合,PathVis 改进了诊断流程,减轻了认知压力,并使病理实践更加有效和引人入胜。PathVis 的源代码和演示视频可在以下网址获取:https://github.com/jaiprakash1824/Path_Vis