arXiv:2504.14150v1 类别:跨学科
摘要:大型语言模型(LLMs)能够生成关于它们是如何回答问题的合理解释。然而,这些解释可能会歪曲模型的“推理”过程,即它们可能是不忠诚的。这种情况又会导致过度信任和误用。我们提出了一种新的方法来衡量LLM解释的忠诚度。首先,我们提供了一个关于忠诚度的严格定义。由于LLM解释模仿人类解释,它们通常会引用输入问题中的高层概念,这些概念据称影响了模型。我们将忠诚度定义为LLM解释暗示是影响因素的概念集合与实际影响因素的概念集合之间的差异。接着,我们提出了一种新颖的方法来估计忠诚度,基于以下两点:(1)使用辅助LLM修改模型输入中概念的值以创建现实的反事实情境,(2)使用贝叶斯分层模型在实例级和数据集级量化概念的因果影响。我们的实验表明,我们的方法可以用于量化和发现不可解释性的可解释模式。在一项关于社会偏见的任务中,我们发现LLM解释隐藏了社会偏见的影响。在一项医学问答任务中,我们发现了LLM解释提供了关于哪些证据影响了模型决策的误导性声明的情况。
arXiv:2504.14147v1 宣传类型: 横贯性
摘要: 近年来在可解释推荐方面的进步大大提升了用户体验,通过阐明决策逻辑。然而,现有的方法实际上由于依赖于传统监督学习范式,在稀疏交互数据中无法提供有效的反馈信号,从而无法为更好的或更差的生成解释提供有效的反馈。为了解决这些问题,我们提出了一种新颖的人类似反馈驱动的优化框架。该框架采用了一种动态交互优化机制,以实现以人为中心的可解释性需求,而无需高昂的劳动力成本。具体而言,我们建议使用大型语言模型(LLMs)作为人类模拟器,预测人的反馈来引导学习过程。为了使LLMs深刻理解任务本质并满足用户多样化的个性化需求,我们引入了一种由人类引导定制的奖励评分方法,这有助于激发LLMs的语言理解和逻辑推理能力。此外,考虑到不同解释质量视角之间的潜在冲突,我们引入了一种原则性的帕累托优化,将多视角质量增强任务转化为多目标优化问题,以提高解释性能。最后,为了实现高效的模型训练,我们设计了一种基于策略的优化管道。通过引入重播缓冲区并解决数据分布偏差问题,可以有效提高数据利用效率并增强模型的一般性。在四个数据集上的广泛实验表明了我们方法的优越性。
arXiv:2504.14145v1 宣布类型: cross
摘要:大型多模态模型(LMMs)已经在多种模态的理解和生成任务中展示了出色的性能。虽然这些模型能够接受灵活的输入数据组合,但它们的训练效率因模型架构异构性导致的管道阶段不平衡以及多模态数据多样性导致的训练数据动态性而受损。
在本文中,我们提出了PipeWeaver,一种为LMM训练设计的动态管道调度框架。PipeWeaver的核心是动态交错管道,它可以动态地为当前训练批次寻找最适合的管道调度。PipeWeaver通过两种技术解决了LMM训练的问题:自适应模态感知分区和在层次调度空间内高效管道调度搜索。同时,PipeWeaver利用了SEMU(步进模拟器),这是一种多模态模型的训练模拟器,可以进行准确的性能估计,并通过空间-时间子图重用提高搜索效率。实验结果显示,与最先进的系统相比,PipeWeaver可以将LMM训练效率提高97.3%,并且展示了对LMM训练数据动态性极好的适应性。
arXiv:2504.14139v1 交叉公告类型
摘要:背景:由于数据有限、观察者间变异性以及计算成本问题,自动分类甲状腺细针穿刺活检(FNAB)图像面临着挑战。高效且可解释的模型对于临床支持至关重要。目标:开发并外部验证一个深度学习系统,用于将甲状腺FNAB图像分类为三个直接指导术后治疗决策的关键类别:良性(B2)、可疑恶变(B5)和恶性(B6),同时在保持高诊断准确性的同时减少计算开销。方法:我们的框架包括:(1)基于YOLOv10的细胞集群检测,用于提取具有信息的子区域和降噪;(2)一种基于 Curriculum Learning 的协议,将局部剪辑排序为全图像,以捕获多尺度特征;(3)自适应轻量级的 EfficientNetB0(4百万个参数),以平衡性能和效率;以及(4)一种由 Transformer 启发的模块,用于多尺度、多区域分析。外部验证使用了1,015个独立的FNAB图像。结果:ThyroidEffi Basic 在内部测试集上实现了宏F1分数为89.19%和AUC值分别为B2(0.98)、B5(0.95)和B6(0.96)。外部验证则得到了B2(0.9495)、B5(0.7436)和B6(0.8396)的AUC值。ThyroidEffi Premium 将宏F1提高到89.77%。Grad-CAM突出了关键的诊断区域,证明了系统的可解释性。该系统能够在30秒内处理1000个案例,展示了在12核CPU等广泛可获取的硬件上实现可行性。结论:本研究证明,即使在极低的计算需求下,也能够实现高准确性和可解释性的甲状腺FNAB图像分类。
arXiv:2504.14130v1 广告类型:跨类别
摘要:将候选新闻与用户兴趣匹配对于个性化新闻推荐至关重要。大多数现有方法可以通过点击新闻构建用户的单个兴趣档案来表示用户的阅读兴趣,但这可能无法全面捕捉用户的兴趣多样性。尽管一些方法结合了候选新闻或主题信息,但由于忽略了候选新闻与用户兴趣之间的多粒度相关性,它们仍然不够充分。为了解决这一问题,这项研究提出了一种多粒度候选新闻感知的用户建模框架,该框架整合了不同粒度层次上的用户兴趣特征。该框架由两个主要部分组成:候选新闻编码和用户建模。新闻文本信息提取器和知识增强实体信息提取器可以捕获候选新闻特征,而词汇级别、实体级别和新闻级别候选新闻感知机制可以提供用户兴趣的全面表示。在真实世界数据集上的广泛实验表明,所提出的模型可以显著优于基线模型。
arXiv:2504.14125v1 类别: cross
摘要: 在最初的兴奋之后,文本到图像(TTI)模型现在正受到更深入的审视。虽然许多讨论集中在大型训练数据集中嵌入的偏见和刻板印象上,但用户与这些模型的互动所涉及的社会技术动态仍然没有被广泛探索。这项研究探讨了用户在创作提示时所做出的语义和语义选择,以及这些选择如何影响生成输出的多样性。通过对Civiverse数据集在CivitAI平台上的六百多万个提示进行七个月的分析,我们将用户分为三类:一致的重复者、偶尔的重复者和不重复者。我们发现,随着用户参与时间的增长,通过采用流行社区标签和描述符,提示语言变得越来越同质化,重复的提示占据了提交的40-50%。同时,语义相似性和主题偏好相对稳定,强调常见的主题和表面美学。使用Vendi分数来量化视觉多样性,我们展示了提示中的词汇相似性与生成图像的视觉相似性之间存在明显相关性,表明语言重复强化了更不多样化的表示。这些发现突显了用户驱动因素在塑造AI生成图像方面的重要作用,超过了固有的模型偏见,并强调了需要工具和实践来鼓励TTI系统中更大的语言和主题实验,以促进更具包容性和多样性的AI生成内容。
arXiv:2504.14112v1 宣告类型: cross
摘要:数字技术的发展不断重塑着个人寻求和接收社会和情感支持的方式。虽然在线平台和社区长期以来已经满足了这一需求,但通用型对话AI在日常生活中的日益集成引入了支持提供和体验的新动态。现有研究强调了使用AI寻求支持的益处(例如,更广泛的福祉资源访问)和潜在风险(例如,过度依赖)。在这项为期五周的探索性研究中,我们招募了149名参与者,分为两个使用组:对照使用组(BU,n=60)按常规使用互联网和AI,积极使用组(AU,n=89)被鼓励使用四种商业化可用的AI工具(Microsoft Copilot、Google Gemini、PI AI、ChatGPT)进行社交和情感互动。我们的分析显示,积极使用组(AU组)在对AI的情感依附方面(增加了32.99个百分点)、感知的AI同理心方面(增加了25.8个百分点)以及使用AI进行娱乐的动机方面(增加了22.90个百分点)都出现了显著增加。我们还观察到,个体差异(例如,性别认同、以往的AI使用经历)影响了对AI同理心和情感依附的感知。最后,积极使用组表达了在使用AI寻求个人帮助、管理压力、获取社交支持和讨论健康方面更高的舒适度,这表明了AI可能在提供更广泛的情感支持方面的潜力,同时也强调了需要防范潜在问题的应用。总体来说,我们的探索性发现强调了负责任地开发面向消费者的情感支持AI工具的重要性,同时赋予用户理解这些工具局限性的能力。
arXiv:2504.14110v1 宣告类型: cross
摘要:生成模型和机器学习有望加速在MOFs中捕获CO2和收集水的材料发现过程,但在导航庞大的化学空间并确保合成可行性方面面临着重大挑战。在这里,我们介绍了MOFGen,一个由相互连接的代理组成的人本智能系统:一个大型语言模型,它提议新的MOF组成;一个扩散模型,生成晶体结构;基于量子力学的代理,它们优化并筛选候选物;以及由专家规则和机器学习指导的合成可行性代理。MOFGen基于所有实验报告的MOFs和计算数据库进行了训练,生成了数十万种新的MOF结构和可合成的有机连接体。我们的方法通过高通量实验得到了验证,并成功合成了五种“AI梦想”的MOFs,这代表了一个自动发现可合成材料的重要步骤。
arXiv:2504.14105v1 交叉公告类型
摘要:当前的AI模型往往无法考虑到地方语境和语言,因为它们的训练数据主要以英语和西方互联网内容为主。这妨碍了这些模型在全球范围内的相关性、实用性和安全性,尤其是在它们获得越来越多的全球用户时。Amplify Initiative 是一个数据平台及方法,通过利用专家社区收集多样化、高质量的数据来解决这些模型的局限性。该平台旨在促进与领域专家的合作数据集创建,提供高质量多语言数据集的访问,并向数据作者提供认可。本文介绍了通过在撒哈拉以南非洲地区(加纳、肯尼亚、马拉维、尼日利亚和乌干达)进行的试点计划,与领域专家(例如医护人员、教师)合作创建数据集的方法。与这些国家的当地研究机构合作,试点计划展示了在敏感领域(例如医生、银行家、人类学家、人权和公民权利倡导者)中与155位专家合作创建数据集的端到端方法。利用Android应用程序实施的这一方法,创建了一个包含8,091条对抗查询的数据集,这些查询有七种语言(例如卢干达语、斯瓦希里语、Чchiedewa语),捕捉到了与关键主题(如信息误导和公众兴趣话题)相关的细微和背景性信息。该数据集可以用于评估模型在其所处语言背景下的安全性和文化相关性。
arXiv:2504.14103v1 宣布类型: cross
摘要:在脊椎动物中,两栖动物因其独特的能够在步行和游泳步态之间转换的能力,突显了脊柱运动在运动中的作用。一个灵活的脊柱允许通过沿着脊柱的波动运动来身体波动,这有助于在不平坦的地形和障碍物上导航。然而,环境不确定性,如表面不规则性和摩擦力的变化,可以显著破坏身体-四肢协调,导致数学模型预测与现实世界结果之间存在差异。解决这一挑战需要开发出能够适应不确定条件同时保持高效运动的复杂控制策略。深度强化学习(DRL)为处理非确定性环境并使机器人系统在困难条件下有效适应并表现稳健提供了一种有前景的框架。在本研究中,我们比较研究了基于学习的控制策略和受生物启发的步态设计方法在一种类似两栖动物的机器人上的应用。