arXiv:2412.00127v2 通告类型: replace-cross
摘要: 我们介绍了一种名为Orthus的自回归(AR)变压器,它在根据文本提示生成图像、基于视觉输入回答问题以及甚至创作冗长的图像-文本交错内容方面表现出色。与先前统一多模态建模的成果不同,Orthus在自回归建模原则下同时处理离散的文本标记和连续的图像特征。对视觉信号的连续处理最大限度地减少了图像理解和生成中的信息损失,而完全的自回归建模使模态间的相关性建模变得直观。Orthus 能够利用这些优点的关键机制在于其特定模态的头部——一个常规语言模型(LM)头部预测离散的文本标记,一个扩散头部生成连续的图像特征,条件是基于主干网络的输出。我们为构建Orthus 设计了一种高效策略——通过将现有统一自回归模型中的向量量化(VQ)操作替换为软替代、引入扩散头部,并调整添加的模块以重建图像,我们可以在极短时间内(例如,不到72个A100 GPU小时)轻松创建一个Orthus-base模型。Orthus-base 可进一步在后训练中增强对交错图像和文本的建模。实验结果显示,Orthus 在标准基准测试中超越了包括Show-o和Chameleon在内的竞争基准模型,在使用7B参数的情况下,GenEval得分为0.58,MME-P得分为1265.8。此外,Orthus 还展示了出色的混合模态生成能力,反映了其处理复杂实际生成任务的潜力。
arXiv:2411.17461v3 宣布类型: 替换-交叉
摘要:中央化提高了人工智能(AI)的效率,但也带来了关键挑战,如单一故障点、固有的偏差、数据隐私问题以及可扩展性问题,这些挑战对于AI系统来说尤为常见。这些问题在闭源的大语言模型(LLMs)中尤为普遍,因为用户数据的收集和使用完全透明。为了应对这些挑战,基于区块链的去中心化AI(DeAI)已被引入。DeAI 利用区块链技术的优势来增强AI系统的透明度、安全性、去中心化以及可信度。尽管DeAI在工业界得到了广泛开发,但对于最先进的实践DeAI解决方案的全面理解仍然不足。在这项工作中,我们提出了一个基于区块链的DeAI解决方案的知识体系结构(SoK)。我们提出了一种分类法,根据模型生命周期对现有的DeAI协议进行分类。基于这种分类法,我们提供了一种结构化的方式以清晰地阐明DeAI协议的生态系统,并确定它们的相似性和差异性。具体而言,我们分析了区块链在DeAI中的功能,探讨了区块链特征如何增强AI过程的安全性、透明度和可信度,同时确保AI数据和模型贡献者的公平激励。此外,我们还提供了开发DeAI协议的关键见解和研究缺口,为以后的研究提供了参考。
arXiv:2411.16707v2 宣告类型: 替换-交叉
摘要: 实验技术与大规模语言模型(LLMs)的结合正在变革科学研究。它将AI定位为多功能的研究助手,而不仅仅是解决问题的工具。然而,在电力系统领域,管理和处理模拟——这一关键的实验技术——仍然是LLMs面临的挑战,由于它们有限的领域特定知识、有限的推理能力以及模拟参数处理的不精确。为了解决这些限制,本文提出了一种反馈驱动的多代理框架。该框架包含三个提出的模块:增强的检索增强生成(RAG)模块、改进的推理模块以及具有误差反馈机制的动态环境代理模块。在Dalinex和MATPOWER的69个多样化任务上进行验证,该框架分别实现了93.13%和96.85%的成功率。它显著优于ChatGPT 4o、o1-preview和微调的GPT-4o,后者在复杂任务上的成功率低于30%。此外,所提出的框架还支持快速、成本效益高的任务执行,每个模拟平均在约30秒内完成,每条令牌成本约为0.014美元。总体而言,这种灵活的框架为开发基于智能LLM的辅助系统奠定了基础,促进电力系统研究以及其他领域的发展。
arXiv:2411.12697v2 公告类型: replace-cross
摘要:联邦学习(FL)允许多个客户端,如移动电话和物联网设备,在保持其数据本地化的情况下协作训练一个全局机器学习模型。然而,近期的研究表明,FL的训练阶段受到了重构攻击(如属性推断攻击,AIA)的威胁,攻击者通过利用交换的消息和辅助公开信息来揭露目标客户端的敏感属性。虽然这些攻击在分类任务的背景下得到了广泛的研究,但在回归任务中的影响却鲜有探讨。本文通过提出针对FL环境中回归任务的新型模型基础属性推断攻击来填补这一空白。我们的方法考虑了攻击者可以监听交换的消息或直接干预训练过程的场景。我们使用真实世界的数据集将我们提出的攻击方法与最先进的方法进行基准测试。结果显示,在异构客户端数据集(在FL中是一个常见场景)中,重构准确性有了显著提高。我们的模型基础属性推断攻击的有效性使其成为量化联邦回归任务中隐私泄露的理想候选方法。
arXiv:2411.07826v2 宣告类型: replace-cross
摘要:近年来,通过Transformer结构的大语言模型(LLMs)在许多机器学习任务中占据了主导地位,尤其是在文本处理领域。然而,这些模型在训练时需要大量的数据,并且在浮点运算(FLOPs)和内存需求方面引入了较高的资源需求。为了以参数高效的方式微调这些模型,已经开发了如Adapter或LoRA之类的技巧。然而,我们注意到,当LoRA应用于联邦学习(FL)时,虽然仍然是参数高效的,但在内存和FLOP方面却是低效的。基于这一观察,我们开发了一种新的层微调方案,该方案允许在跨设备FL中利用预训练神经网络(NNs),同时遵守给定的资源约束。我们展示了我们的方案在处理同质或异质计算和内存约束时优于当前最先进的技术,在有限的通信情况下与LoRA相当,从而在FL训练中实现了显著更高的准确性。
arXiv:2411.01639v2 通知类型: 交叉替换
摘要:多模态基础模型提供了一种有希望的框架,用于通过处理感官输入来生成可执行的计划,从而实现机器人的感知和规划。然而,应对感知(感官解释)和决策(计划生成)中的不确定性仍然是确保任务可靠性的关键挑战。我们提出了一个全面的框架,以分离、量化和减轻这两种形式的不确定性。我们首先引入了一个不确定性分离框架,将由于视觉理解限制引起的感知不确定性与与生成计划的鲁棒性相关的决策不确定性隔离开来。
为了量化每种类型的不确定性,我们提出了针对感知和决策的独特性质定制的方法:我们使用概率齐性预测来校准感知不确定性,并引入形式方法驱动的预测(FMDP)来量化决策不确定性,利用形式验证技术提供理论保证。基于这种量化,我们实现了两个针对性的干预机制:一个主动传感过程,动态重新观察高不确定性场景,以提高视觉输入质量,以及一个自动细化程序,在高确定性数据上微调模型,提高其满足任务规范的能力。在现实世界和模拟机器人任务中的实证验证表明,与基准相比,我们的不确定性分离框架可以将变化性减少多达40%,并将任务成功率提高5%。这两种改进归因于两种干预措施的结合效果,并突显了不确定性分离的重要性,它可以促进有针对性的干预,从而增强自主系统的鲁棒性和可靠性。经过微调的模型、代码和数据集可在https://uncertainty-in-planning.github.io/ 获取。
arXiv:2410.21169v4 文章类型: replace-cross
摘要: 文档解析对于将合同、学术论文和发票等非结构化和半结构化文档转换为结构化、机器可读的数据至关重要。文档解析可靠地从非结构化输入中提取结构化数据,为众多应用提供了巨大便利。特别是在大型语言模型取得最新进展后,文档解析在知识库构建和训练数据生成中扮演着不可或缺的角色。本文综述了当前文档解析的现状,涵盖了从模块化管道系统到由大规模视觉-语言模型驱动的端到端模型的关键方法。详细探讨了核心组件,如版面检测、内容提取(包括文本、表格和数学表达式)以及多模态数据整合。此外,本文还讨论了模块化文档解析系统和视觉-语言模型在处理复杂版面、整合多个模块以及识别高密度文本时面临的挑战。文章列出了未来研究方向,并强调了开发更大规模和更多样化数据集的重要性。
arXiv:2410.20182v2 宣告类型:replace-cross
摘要:大型语言模型和多模态模型的发展使得从文本描述生成新颖分子这一诱人的想法成为了可能。生成模型将改变依赖于大规模化学筛选来发现具有所需性质的分子的范式,转向直接生成这些分子。然而,结合文本和分子的多模态模型通常是从头开始训练的,没有利用现有的高质量预训练模型。从头开始训练消耗更多的计算资源,限制了模型的扩展。相比之下,我们提出了一种基于轻量级适配器的策略,称为化学语言模型链接器(ChemLML)。ChemLML将两个单一领域模型融合在一起,在化学分子领域特有的嵌入空间中从文本描述中实现条件分子生成。通过训练相对少量的适配器参数,ChemLML可以为分子生成量身定制各种预训练文本模型。我们发现,ChemLML 内部使用的分子表示(SMILES 与 SELFIES)在条件分子生成性能上产生了强烈的影响。尽管 SMILES 往往更佳,但它并不能保证生成有效的分子。我们指出了使用整个 PubChem 分子数据库及其相关描述来评估分子生成存在的问题,并提供了一个过滤后的数据集用于生成测试集。为了展示 ChemLML 在实际中的应用,我们生成了候选的蛋白抑制剂,并通过对接评估其质量,同时也生成了候选的膜渗透分子。
arXiv:2410.19955v2 通知类型: replace-cross
摘要:尽管电子健康记录(EHR)在AI辅助诊断预测中的使用日益增多,但大多数数据驱动的模型在整合临床相关医学知识方面存在困难。它们通常依赖于有限的本体,缺乏结构化的推理能力和全面的覆盖范围。这引发了一个重要的研究问题:医学知识能否改善预测模型,以支持人类医生进行的逐步临床推理?为了解决这一问题,我们提出了一种双重专业知识框架DuaLK,该框架结合了两种互补的信息来源。对于外部知识,我们构建了一个诊断知识图谱(KG),该图谱通过大型语言模型(LLM)编码了丰富的层级和语义关系。为了与患者数据对齐,我们进一步引入了一个基于实验室测试信号的代理任务,该任务指导模型遵循基于实验室测试信号的临床一致、逐步的推理过程。在两个公开的EHR数据集上的实验结果表明,DuaLK在四种临床预测任务中始终优于现有基线。这些发现突显了结合结构化医学知识与个体层面的临床信号以实现更准确和可解释性诊断预测的潜力。源代码可在https://github.com/humphreyhuu/DuaLK上公开获取。
arXiv:2410.17088v2 宣布类型: replace-cross
摘要:每天都有大量的学术成果被发表,但其中相当一部分由于密集的行话和复杂的语言而对一般公众而言仍不可访问。为应对这一传播挑战,我们介绍了一种强化学习框架,通过优化语言模型来重新编写更易于理解的学术摘要。该语言模型在综合使用词级和句级可访问性奖励的精细平衡下,有效地用更易理解的替代词汇替换了技术术语,而这种方法在受监督的微调或由传统可读性度量引导的模型中难以实现。我们的最佳模型将学术摘要的可读性水平调整约六个美国年级水平——换句话说,从研究生水平调整到高中水平。这相当于相对提高了监督微调基线约90%,同时保持了事实准确性并保持高质量的语言。深入分析我们的方法显示,平衡的奖励导致基础模型系统性地修改,这可能有助于更平滑的优化和更好的性能。我们设想这项工作是朝着弥合学术研究与一般公众之间的差距迈出的一步,特别是对于年轻读者和没有大学学位的人来说。