大型语言模型(LLMs)通过提供前所未有的文本生成、翻译和理解能力,彻底改变了自然语言处理(NLP)的各种应用。然而,它们的大规模部署也暴露了这些模型中嵌入的显著偏见问题。本文对LLMs中的偏见进行了全面综述,旨在对这些偏见的类型、来源、影响和缓解策略进行广泛回顾。我们将偏见系统地分类为多个维度。我们的调查综合了当前的研究成果,并讨论了偏见在现实世界应用中的影响。此外,我们批判性地评估了现有的偏见缓解技术,并提出了未来研究方向,以增强LLMs的公平性和公正性。本综述为关注解决和理解LLMs中偏见的学者、从业人员和政策制定者提供了一个基础资源。
近年来,人们开发了许多解释方法来解释深度神经网络(DNN)模型所做的决策。对于图像分类器,这些方法通常为图像中的每个像素提供一个归因分数,以量化其对预测的贡献。然而,大多数这些解释方法独立地将归因分数分配给像素,尽管人类和 DNN 都通过同时分析一组密切相关的像素来做出决策。因此,应该通过考虑自身及其结构上类似的像素来联合评估像素的归因分数。我们提出了一种名为 IProp 的方法,该方法将每个像素的个体归因分数建模为解释信息的来源,并通过信息在所有像素上的动态传播来解释图像预测。为了制定信息传播,IProp 采用马尔可夫奖励过程,该过程保证收敛,最终状态指示所需像素的归因分数。此外,IProp 与任何现有的基于归因的解释方法兼容。在各种解释方法和 DNN 模型上的大量实验验证了 IProp 在各种可解释性指标上显着提高了它们。
随着人工智能(AI)系统在全球范围内的应用越来越广泛,它们也越来越频繁地卷入人工智能事件 - 对个人和社会造成伤害的事件。因此,全球的行业、民间社会和政府正在制定最佳实践和法规来监控和分析人工智能事件。人工智能事件数据库(AIID)是一个项目,旨在编目人工智能事件,并通过提供一个平台来对事件进行分类,以支持不同的运营和研究目标。本研究回顾了 AIID 的 750 多个 AI 事件数据集以及应用于这些事件的两个独立分类法,以确定对 AI 事件索引和分析的常见挑战。我们发现,某些 AI 事件模式存在结构性歧义,这给事件数据库带来了挑战,并探讨了 AI 事件报告中的认知不确定性是不可避免的。因此,我们报告了缓解措施,使事件流程对与事件原因、伤害程度、严重程度或所涉系统技术细节相关的的不确定性更加稳健。基于这些发现,我们讨论了如何制定未来的 AI 事件报告实践。
大型语言模型 (LLM) 在各种任务中展现出非凡的能力,利用先进的推理能力。然而,由于缺乏对任务答案的特定先验知识,它们在面向任务的提示方面存在困难。目前最先进的方法 PAL 利用代码生成来解决这个问题。然而,PAL 依赖于手动制作的提示模板和示例,同时仍然产生不准确的结果。在这项工作中,我们提出了 TITAN——一种旨在增强 LLM 在面向任务的提示方面的性能的新策略。TITAN 通过使用通用方法和零样本学习生成脚本来实现这一目标。与现有方法不同,TITAN 消除了对详细的任务特定指令和大量手动工作的需求。TITAN 通过在简化流程中利用 LLMs 的分析和代码生成能力,增强了 LLM 在各种任务中的性能。TITAN 采用两种关键技术:(1) 回退提示,以提取任务的输入规范;(2) 思维链提示,以识别所需的程序步骤。这些信息被用来改进 LLM 的代码生成过程。TITAN 通过后处理进一步细化生成的脚本,并执行脚本以检索最终答案。我们全面的评估证明了 TITAN 在各种任务中的有效性。平均而言,TITAN 在与 GPT-3.5 和 GPT-4 配合使用时,比最先进的零样本方法分别高出 7.6% 和 3.9%。总的来说,在没有人工标注的情况下,TITAN 在 11 个案例中的 8 个案例中取得了最先进的性能,而在 3 个案例中仅略微落后于少样本方法(需要人工干预),差距很小。这项工作代表了在解决面向任务的提示方面取得的重大进展,为有效利用 LLM 完成日常生活任务提供了一种新颖的解决方案。
大型语言模型 (LLM) 在软件工程任务中展现出令人印象深刻的性能。然而,提高它们在生成正确可靠代码方面的准确性仍然是一个挑战。许多提示工程技术 (PET) 已经被开发出来以解决这个问题,但没有一种方法是普遍最佳的。选择适合每个查询的 PET 很困难,主要有两个原因:(1) 交互式提示技术可能无法始终如一地带来预期的好处,特别是对于更简单的查询,以及 (2) 目前的自动化提示工程方法缺乏适应性,无法充分利用多阶段响应。为了克服这些挑战,我们提出了 PET-Select,这是一种与 PET 无关的选择模型,它使用代码复杂度作为代理来对查询进行分类并选择最合适的 PET。通过结合对比学习,PET-Select 有效地区分了简单问题和复杂问题,使其能够选择最适合每个查询复杂度级别的 PET。我们在 MBPP 和 HumanEval 基准上使用 GPT-3.5 Turbo 和 GPT-4o 进行的评估表明,pass@1 准确率提高了 1.9%,令牌使用量减少了 74.8%。此外,我们提供了定量和定性结果,以证明 PET-Select 如何有效地为每个代码生成查询选择最合适的技术,进一步展示了它在优化 PET 选择方面的效率。
近年来,现代霍普菲尔德网络(MHN)等内容寻址记忆被用作人类陈述性记忆的自动关联和存储/检索的数学模型,但它们在大规模内容存储方面的实际应用面临挑战。其中最主要的是亚稳态的出现,尤其是在处理大量高维内容时。本文介绍了霍普菲尔德编码网络(HEN),它将编码的神经表示集成到 MHN 中,以提高模式可分离性并减少亚稳态。我们表明 HEN 也可以用于图像与自然语言查询的异关联检索,从而消除了需要访问同一域中部分内容的限制。实验结果表明,亚稳态数量显著减少,存储容量增加,同时仍然能够完美地召回数量显著更大的输入,从而提高了联想记忆网络在现实世界任务中的实用性。
人工智能在自动化各种医学影像任务方面展现出巨大潜力,这些任务很快将在临床实践中成为常态,用于疾病诊断、预后、治疗计划和治疗后监测。然而,患者数据隐私问题是人工智能在医学影像领域广泛应用的主要障碍,因为开发准确、可推广且稳健的人工智能模型需要大量、多样化的训练数据集。联邦学习 (FL) 提供了一种解决方案,使组织能够协作训练人工智能模型,而无需共享敏感数据。联邦学习在参与站点之间交换模型训练信息,例如梯度。尽管前景光明,但联邦学习仍处于发展阶段,面临着诸多挑战。值得注意的是,敏感信息仍然可以从模型训练期间共享的梯度中推断出来。量化人工智能模型的不确定性至关重要,因为部署后可能出现数据分布偏移,这会影响模型性能。由于参与站点之间的数据异质性,联邦学习中的不确定性量化 (UQ) 尤其具有挑战性。这篇综述全面考察了联邦学习、隐私保护联邦学习 (PPFL) 和联邦学习中的不确定性量化。我们确定了当前联邦学习方法的关键差距,并提出了未来研究方向,以增强医学影像应用中的数据隐私和可信度。
华为翻译服务中心(HW-TSC)在WMT24聊天翻译共享任务中,针对英语↔德语(en-de)双向翻译提交了相关方案。实验涵盖了使用聊天数据微调模型以及探索各种策略,包括最小贝叶斯风险(MBR)解码和自训练。结果表明,在某些方向上取得了显著的性能提升,其中MBR自训练方法获得了最佳结果。该大型语言模型还讨论了聊天翻译领域中所面临的挑战以及未来研究的潜在方向。
放射组学是一个相对较新的领域,它利用从放射学扫描中自动识别的特征。它在肿瘤学中得到了广泛的应用,特别是在肿瘤学中,因为许多重要的肿瘤学生物标志物肉眼不可见。近年来,大数据的出现,包括医学影像,以及新的机器学习技术的发展,为更快、更准确的肿瘤学诊断带来了可能性。此外,基于放射组学的标准化数学特征提取有助于消除可能的放射科医师偏差。本文回顾了 MRI 放射组学特征在肿瘤学应用中的最新进展。它侧重于识别异柠檬酸脱氢酶 (IDH) 突变状态,这是诊断胶质母细胞瘤和 IV 级星形细胞瘤的重要生物标志物。
电力难以储存,除非付出高昂的代价,因此发电和负荷之间的平衡必须始终保持。电力传统上通过预测需求和间歇性生产(风能、太阳能)以及匹配灵活生产(水力、核能、煤炭和天然气)来管理。因此,准确预测电力负荷和可再生能源生产对于确保电网性能和稳定性至关重要。两者都高度依赖气象变量(温度、风、阳光)。这些依赖关系复杂且难以建模。一方面,空间变化不会产生统一的影响,因为人口、工业以及风电场和太阳能发电场在整个领土上分布不均匀。另一方面,时间变化可能会对负荷产生延迟影响(由于建筑物的热惯性)。通过访问来自不同气象站的观测数据和来自气象模型的模拟数据,我们相信这两种现象可以一起建模。在当今最先进的负荷预测模型中,天气的时空建模是固定的。在这项工作中,我们旨在利用深度神经网络的自动表示和时空特征提取能力来改进负荷预测的时空天气建模。我们将基于深度学习的方法与法国国家负荷的最新技术进行比较。这种方法也可以完全适应预测可再生能源生产。