大型语言模型在根据自然语言描述生成功能代码方面展现出显著的能力。然而,客观且无偏地评估这些能力的标准化方法仍有待发现。本文回顾了当前可用的评估方法,并对一个最先进的模型(GPT4-o-mini)在解决Codewars(一个软件开发社区)中收集的8种编程语言的精选编码挑战方面的性能进行了新的评估。我们的分析表明,模型成功的概率与任务难度、所用编程语言的流行程度以及挑战发布后经过的时间呈正相关。进一步基于高级特征的近似解释性分析暗示,虽然模型性能的46.6%可能归因于任务难度,但37.4%似乎与挑战解决方案泄露到模型训练集中有关,而剩余的16%则取决于编程语言。这些结果表明,目前的评估方法可能会高估大型语言模型生成功能代码的实际能力。
本文介绍了SelfScore的开发和验证,这是一个新颖的基准测试,旨在评估自动化大型语言模型(LLM)代理在帮助台和专业咨询任务中的性能。鉴于人工智能在各行各业(尤其是在客户服务领域)的日益融合,SelfScore通过实现自动化代理和人工工作人员的比较,填补了关键的空白。该基准测试评估代理在问题复杂性和响应帮助性方面的表现,确保其评分系统的透明性和简洁性。该研究还开发了自动化LLM代理来评估SelfScore,并探索了检索增强生成(RAG)在特定领域任务中的优势,证明了结合RAG的自动化LLM代理优于未结合RAG的代理。所有自动化LLM代理的表现都优于人工对照组。鉴于这些结果,该研究对可能导致人类劳动者被取代的潜在风险表示担忧,尤其是在人工智能技术表现优异的领域。最终,SelfScore提供了一个基础工具,用于理解人工智能在帮助台环境中的影响,同时倡导在向自动化过渡的过程中应考虑伦理因素。
解释AI的决策对于培养用户对这些系统的信任至关重要。本文研究了名为“文本到SQL语义解析”的结构化预测任务的解释方法,该任务将自然语言问题转换为结构化查询语言(SQL)程序。在此任务设置中,我们设计了三个级别的模型解释,每个级别都揭示了不同程度的模型决策细节(称为“算法透明度”),并研究了不同的模型解释如何对用户体验产生不同的影响。我们对约100名参与者的研究表明:(1)低/高透明度的解释往往导致用户对模型决策的依赖程度降低/提高,而中等透明度的解释则取得了良好的平衡;(2)只有中等透明度参与者组能够进一步参与交互并在一段时间内表现出性能提升;(3)他们在研究前后信任度的变化最小。
本文提出了一种针对低地球轨道 (LEO) 空间任务最优地面站选择的解决方案,使任务运营商能够精确设计其地面段的性能和成本。空间任务运营商越来越多地转向地面站即服务 (GSaaS) 提供商来提供地面通信段,以降低成本并增加网络规模。然而,这种方法带来了一个新的挑战,即为给定任务选择最佳的服务提供商和站址。我们将地面站选择问题视为一个优化问题,并提出一个通用的解决方案框架,允许任务设计者设定其整体优化目标,并约束关键的任务性能变量,例如总数据下行链路、总任务成本、经常性运营成本和最大通信时间间隔。我们使用整数规划 (IP) 来解决这个问题。为了解决计算扩展的挑战,我们引入了一种代理优化方法,其中最优站点的选择是基于在缩减的时间域内解决问题来确定的。使用不同星座规模的 LEO 卫星的随机选择来评估两种不同的 IP 公式。我们考虑了商业 GSaaS 提供商 Atlas Space Operations、亚马逊网络服务 (AWS) 地面站、Azure 轨道地面站、Kongsberg 卫星服务 (KSAT)、Leaf Space 和 Viasat 实时地球的网络。我们将我们的结果与与一个或两个主要地面站提供商集成的标准操作实践进行了比较。
医学领域的机器翻译(MT)在提高医疗质量和传播医学知识方面发挥着关键作用。尽管英泰机器翻译技术取得了进步,但常见的机器翻译方法由于无法精确翻译医学术语,在医学领域往往表现不佳。我们的研究不仅优先提高翻译准确性,还通过代码切换(CS)翻译来保持翻译文本中英文医学术语。我们开发了一种生成代码切换医学翻译数据的方法,用此数据微调了代码切换翻译模型,并将其性能与强大的基线(如谷歌神经机器翻译(NMT)和GPT-3.5/GPT-4)进行了评估。我们的模型在自动指标中表现出具有竞争力的性能,并在人工偏好评估中受到高度青睐。我们的评估结果还表明,即使略微影响流畅性,医疗专业人员也更倾向于保留关键英文术语的代码切换翻译。我们的代码和测试集已公开发布:https://github.com/preceptorai-org/NLLB_CS_EM_NLP2024。
基于机器学习模型的星载高光谱数据处理将为广泛的任务(例如甲烷检测或矿物识别)带来前所未有的自主性。甲烷是导致气候变化的第二大重要温室气体,利用机器学习模型进行星载自动化检测将有助于建立早期预警系统,并能够实现新的功能,例如卫星星座内的自动化调度。传统的甲烷检测方法存在高误报率的问题,以往的深度学习模型则存在计算需求过高的缺点。我们提出了一种快速且准确的机器学习架构,该架构支持对高光谱维数数据进行端到端训练。我们在与高光谱数据处理相关的两个任务(甲烷泄漏检测和矿物识别)上评估了我们的模型。使用我们提出的通用架构,我们在新创建的合成数据集上将先前甲烷检测最先进模型的F1分数提高了27%以上,在先前发布的大型基准数据集上提高了近13%。我们还证明,与从头开始训练相比,在合成数据集上训练模型可以将微调后的真实事件数据集模型的F1分数提高6.9%。在一个新创建的矿物识别数据集上,与默认版本的模型相比,我们的模型将F1分数提高了3.5%。通过去除对经典计算特征的依赖,我们提出的模型将推理速度提高了85.19%,优于以往的经典和深度学习方法。具体来说,使用ION-SCV 004卫星上使用的现实代理硬件,可以仅用30秒处理EMIT传感器的一次捕获。
近年来,表征工程方法在高效引导模型行为方面展现出潜力。然而,这些方法的评估流程主要依赖于主观的演示,而非定量、客观的指标。我们旨在通过倡导当前评估中缺失的四个特性来解决这个问题:(i)评估干预质量时应使用与下游任务足够相似的上下文;(ii)应考虑模型似然性;(iii)评估应允许对不同目标行为进行标准化比较;以及(iv)应提供基线比较。我们引入了一个基于这些标准的评估流程,对给定方法的有效性进行了定量和可视化分析。我们使用此流程评估了两种表征工程方法如何有效地引导真实性和可纠正性等行为,发现一些干预措施的效果不如先前报道的那么好。
自动化机器学习 (AutoML) 方法包括优化固定流水线以进行模型选择和集成之类的传统方法,以及自主构建流水线的新型基于大型语言模型 (LLM) 的框架。虽然基于 LLM 的代理在自动化机器学习任务方面显示出前景,但即使经过多次迭代,它们也常常会生成多样性低且次优的代码。为了克服这些限制,我们引入了树搜索增强型 LLM 代理 (SELA),这是一个创新的基于代理的系统,它利用蒙特卡洛树搜索 (MCTS) 来优化 AutoML 流程。通过将流水线配置表示为树,我们的框架使代理能够智能地进行实验并迭代地改进其策略,从而更有效地探索机器学习解决方案空间。这种新颖的方法允许 SELA 根据实验反馈发现最佳路径,从而提高解决方案的整体质量。在对 20 个机器学习数据集进行的广泛评估中,我们将传统 AutoML 方法和基于代理的 AutoML 方法的性能进行了比较,结果表明,在所有数据集上,SELA 对每个基准的胜率为 65% 到 80%。这些结果强调了基于代理的策略在 AutoML 中的巨大潜力,为解决复杂的机器学习挑战提供了新的视角。
设计奖励函数是强化学习的核心组成部分,但对于真正复杂的行为来说可能具有挑战性。来自人类反馈的强化学习 (RLHF) 通过用从偏好中学习到的奖励函数代替人工编码的奖励函数来缓解这一挑战。然而,学习这些奖励可能极其低效,因为它们通常是从零开始学习的。我们研究了大型语言模型 (LLM) 是否可以通过将一系列迭代的人类偏好转换为表示奖励的代码来减少这种查询低效性。我们提出了上下文偏好学习 (ICPL),这是一种利用LLM的基础来加速从偏好中学习奖励函数的方法。ICPL 获取环境上下文和任务描述,合成一组奖励函数,然后使用对生成的策略视频的人类排名反复更新奖励函数。使用合成偏好,我们证明 ICPL 比 RLHF 高效得多,甚至可以与使用真实奖励函数而不是偏好的方法相媲美。最后,我们进行了一系列人类偏好学习试验,并观察到 ICPL 扩展到合成设置之外,并且可以有效地与人类互动。更多信息和视频请访问 https://sites.google.com/view/few-shot-icpl/home。
责任是多智能体系统以及创建安全、可靠和道德AI的关键概念。然而,大多数先前关于责任的研究只考虑了对单一结果的责任。本文提出了一个用于多智能体、多值环境中责任归属的模型。我们还将该模型扩展到责任预期,展示了责任考量如何帮助智能体选择与其价值观一致的策略。特别是,我们表明,非支配性最小化后悔策略可靠地最小化了智能体的预期责任程度。