arXiv:2411.09627v2 宣告类型: replace-cross
摘要: 我们提出了一个名为MAGIC(manipulation analogies for generalizable intelligent contacts)的新方法,用于一 shots 学习操作策略,并能够快速且广泛地应用到新型物体上。通过利用参考动作轨迹,MAGIC 有效地识别出了新型物体上与示例策略相似的接触点和操作序列,例如使用不同形状和大小的钩子去获取远处的物体。该方法基于一个两阶段的接触点匹配过程,该过程结合了使用预训练神经特征进行的整体形状匹配和局部曲率分析,以确保精确且物理上合理的接触点。我们在包括舀取、悬挂和挂钩三个任务中进行了实验。MAGIC 在性能上超过了现有方法,在运行速度和对不同物体类别的一般化方面取得了显著的改进。网站: https://magic-2024.github.io/ 。
arXiv:2411.07975v2 通告类型: replace-cross
摘要: 我们提出了 JanusFlow,一个强大的框架,将图像理解与生成集成为单一模型。JanusFlow 引入了一种简约的架构,将自动回归语言模型与最先进的生成建模方法之一的修正流结合起来。我们的主要发现表明,修正流可以在大型语言模型框架中直接训练,从而消除了复杂的架构修改的必要。为了进一步提高我们统一模型的性能,我们采用两项关键策略:(i) 将理解编码器和生成编码器解耦,(ii) 在联合训练过程中对它们的表示进行对齐。大量实验表明,JanusFlow 在其各自领域中的表现与专门模型相当或更优,并且在标准基准测试上显著优于现有的统一方法。这项工作代表了向更高效和多功能的跨模态模型迈出的一步。
arXiv:2411.05897v2 宣告类型: replace-cross
摘要:尽管大型语言模型(LLMs)已经在执照考试中被评估其对一般医学知识的掌握情况,但它们在支持临床决策方面的能力,例如选择医学计算器,仍然存在不确定性。我们使用了35种临床计算器中的1,009个多项选择题-答案对组评估了九种LLMs,包括开源、专有和特定领域模型,并在一部分问题上将LLMs与人类进行了比较。尽管性能最好的LLM(OpenAI o1)在100个问题子集中的答案准确率为66.0%(置信区间:56.7-75.3%),但两位人类标注者以平均答案准确率为79.5%(置信区间:73.5-85.0%)的成绩在某些问题上超过了LLMs。最终,我们在包括风险分层和诊断在内的临床场景中评估了医学实习生和LLMs在推荐医学计算器方面的表现。通过错误分析发现,表现最佳的LLM继续在理解(错误的49.3%)和计算器知识(错误的7.1%)方面出现错误,我们的研究结果表明,LLMs在计算器推荐方面并不优于人类。
arXiv:2411.01332v3 Announce Type: replace-cross
摘要:尽管在XAI方面取得了显著进展,学者们注意到仍缺乏坚实的概念基础,并且与更广泛的科学解释讨论的整合不足。为此,新兴的XAI研究借鉴了来自各门科学及其科学哲学文献中的解释策略,以填补这些空白。本文概述了一种机制性的方法,用于解释深度学习系统的功能组织,并将最近的AI可解释性进展置于更广泛哲学的背景下。根据机制性方法,对于不透明的AI系统的解释涉及识别驱动决策的过程机制。对于深度神经网络而言,这意味着分辨功能相关的组件——如神经元、层、电路或激活模式——并通过分解、定位和重组来理解其作用。来自图像识别和语言建模的原理性案例研究与来自OpenAI和Anthropic等AI实验室的最新研究相吻合,这些理论方法与最新的研究相吻合。本文建议,这种系统的方法来研究模型组织可以揭示个体解释技术可能忽略的元素,从而促进更全面可解释的AI。
arXiv:2411.01140v3 宣告类型: replace-cross
摘要:联邦学习(FL)已成为在物联网(IoT)环境中保护数据隐私的关键方法,因为它在本地训练机器学习(ML)模型的同时,仅传输模型更新。尽管如此,FL仍然容易遭受模型反转和成员推断攻击等威胁,这些攻击可能会泄露训练数据。差分隐私(DP)技术通常被引入以缓解这些风险,但简单地向黑盒机器学习模型注入DP噪声可能会损害准确性,特别是在动态物联网环境中,持续的学习导致噪声过度积累。为了解决这一挑战,我们提出了联邦超维度计算与隐私保护(FedHDPrivacy),这是一种解释型人工智能(XAI)框架,结合了神经符号计算和差分隐私。与传统方法不同,FedHDPrivacy主动监控学习轮次中累计的噪声,并仅添加满足隐私约束所需的额外噪声。在监测制造加工过程的实际应用中,FedHDPrivacy保持高性能,同时超过标准的FL框架——联邦平均(FedAvg)、联邦近端(FedProx)、联邦规范化平均(FedNova)和联邦优化(FedOpt)最多37%。展望未来,FedHDPrivacy为进一步增强提供了有前途的方法,例如结合多模态数据融合。
arXiv:2411.00865v2 宣布类型: replace-cross
摘要:使用大型语言模型(LLMs)从自然语言指令生成可执行代码面临着语义歧义和理解任务特定上下文的挑战。为了应对这些问题,我们提出了一种名为DemoCraft的系统,该系统通过利用上下文学习和示范选择,并结合潜在概念学习来增强代码生成。潜在概念学习引入了额外的概念标记,这些是可训练的嵌入,能够捕捉任务特定的知识。然后,我们在两个主要的数据集MBPP和Humaneval上测试了该系统。我们的实验结果表明,与基线模型相比,所提出系统的pass@k指标大约提高了2倍。此外,我们还引入了两个新的评估指标:correctness@k和similarity@k。我们的实证研究表明,这些指标的改进幅度接近3倍。
arXiv:2411.00173v2 宣告类型: replace-cross
摘要:医学编码,即将非结构化的临床文本转换为标准化的医学代码,是一项至关重要但耗时的医疗实践。尽管大型语言模型(LLM)可以自动化编码过程并提高此类任务的效率,但可解释性对于维护患者信任仍然至关重要。当前在医学编码应用的可解释性努力主要依赖于标签注意力机制,这 often 领导到对与ICD代码无关的多余令牌(extraneous tokens)的突出显示。为了促进医学语言模型中的准确可解释性,本文利用字典学习方法,可以从稠密的语言模型嵌入中高效提取稀疏激活的表示。与常见的标签注意力机制相比,我们的模型通过构建可用于解释每个ICD代码预测的可解释字典,超越了基于令牌级别的表示,即使突出显示的令牌在医学上是无关的。我们展示了字典特征可以使模型行为偏向,阐述超过90%医无关联令牌隐藏的意义,并且是可由人类解读的。
arXiv:2410.21349v4 通知类型: replace-cross
摘要:最近,大型语言模型(LLMs)在自动化代码生成方面取得了显著进展。尽管这些模型在遵循指令方面表现出色,但在编程场景中,它们经常难以与用户意图对齐。特别是,由于缺乏多样性的数据集未能解决专门任务或边缘情况,它们常常受到阻碍。此外,在监督微调(SFT)和基于人类反馈的强化学习(RLHF)方面遇到的挑战导致了生成精准、符合人类意图的代码的失败。为了解决这些挑战并提高自动化编程系统的代码生成性能,我们提出了一种反馈驱动的自适应长短时记忆强化编码优化技术(即FALCON)。FALCON结构化为两个层级。从全局层面来看,长期记忆通过保留和应用学到的知识来提高代码质量。在局部层面,短期记忆允许即时从编译器和AI系统获取反馈。此外,我们介绍了带有反馈奖励的元强化学习,以解决全局-局部二层优化问题,并增强模型在各种代码生成任务中的适应性。广泛的实验表明,我们的方法在MBPP基准上比其他强化学习方法领先超过4.5个百分点,在Humaneval基准上领先超过6.1个百分点。开源代码已公开发布在https://github.com/titurte/FALCON。
arXiv:2410.20579v3 宣告类型: replace-cross
摘要:生存预测通常涉及从删失数据集中估计时间-事件分布。之前的Approaches主要集中在增强辨别性和边缘校准。在本文中,我们强调了条件校准在实际应用中的重要性——特别是其在个体决策中的作用。我们提出了一种基于容许预测的方法,该方法使用模型在该实例观测时间点预测的个体生存概率。这种方法有效地提高了模型的边缘校准和条件校准,而不影响辨别性。我们为边际校准和条件校准提供了渐近理论保证,并在15个不同的现实世界数据集中进行了广泛测试,展示了该方法在各种环境中的实际效果和适用性。
arXiv:2410.17236v2 宣告类型: 替换-交叉
摘要: 互联网代理已 emerged 作为基于用户指令自动化完成网页任务的有前途的方向,显著提升了用户体验。最近,互联网代理已从传统的代理发展成基于大规模语言模型 (LLMs) 的互联网代理。尽管他们取得了成功,但现有的基于 LLM 的互联网代理忽略了个性化数据(例如,用户资料和历史网页行为)在帮助理解用户的个性化指令并执行定制化行动中的重要性。为了克服这一局限,我们首先定义了 LLM 支持的个性化互联网代理任务,该任务将个性化数据和用户指令整合起来,个性化指令理解和行动执行。为了应对缺乏全面的评估基准的缺口,我们构建了一个个性化互联网代理基准(PersonalWAB),该基准包含用户指令、个性化用户数据、网页功能以及三个个性化网页任务的两种评估范式。此外,我们提出了个性化用户记忆增强对齐 (PUMA) 框架,以使 LLM 适应个性化互联网代理任务。PUMA 利用一个特定任务的检索策略的记忆库来筛选相关的历史网页行为。基于这些行为,PUMA 然后通过微调和直接偏好优化来对 LLM 进行个性化行动执行的对齐。广泛的实验验证了 PUMA 在 PersonalWAB 上优于现有互联网代理的效果。