我们对 ChatGPT 的四个版本进行了受控实验偏差审计,要求它们推荐新员工薪资谈判的开价。我们向每个版本提交了 98,800 个提示,系统地改变了员工的性别、大学和专业,并在谈判双方(员工与雇主)的声音中测试了提示。我们发现 ChatGPT 作为多模型平台不够健壮和一致,无法信任它执行此类任务。我们观察到在所有四个模型中,当改变性别时,薪资报价存在统计学上的显著差异,尽管与其他测试属性相比,差距较小。最大的差距是不同的模型版本以及员工与雇主的声音提示之间的差距。我们还观察到在改变大学和专业时存在很大的差距,但许多偏差在不同模型版本之间并不一致。我们测试了虚构和欺诈性大学,发现在不同案例和模型版本之间存在极不一致的结果。我们对 AI/ML 公平性文献做出了更广泛的贡献。我们的情景和实验设计在关键方面不同于主流 AI/ML 审计工作。偏差审计通常测试对受保护群体的歧视,例如性别,而我们将其与测试大学和专业等非受保护群体进行对比。要求谈判建议包括一个人在谈判中应该有多强势,相对于已知的经验薪资分布和尺度而言,这是一个深度上下文和个性化的任务,没有客观的真相来验证。这些结果引起了我们对测试的特定模型版本以及 ChatGPT 作为持续开发中的多模型平台的担忧。我们的认识论不允许我们明确地证明这些模型在测试的属性上是普遍有偏差还是无偏差,但我们的研究引起了利益相关者进一步调查的关注。
在响应刺激时形成、检索和推理记忆的能力是通用智能的基石——它塑造了能够学习、适应和具有直觉洞察力的实体。大型语言模型 (LLM) 已经证明了它们的能力,在提供适当的记忆或上下文的情况下,能够推理并对刺激做出有意义的反应。然而,它们仍然无法以最佳方式编码、存储和检索记忆——实现这一能力将释放它们作为 AI 代理的全部能力,并使其能够专门化到利基领域。为了解决这个问题,一个很有希望的研究领域是检索增强生成 (RAG),其目标是通过为 LLM 提供丰富的上下文示例和信息来增强它们。在问答 (QA) 应用中,RAG 方法将感兴趣的文本分成块,并使用文本嵌入检索与提示最相关的块。受人类记忆编码和检索的启发,我们旨在通过生成和编码更高级别的信息以及通过其回答问题的效用对块进行标记来改进标准 RAG 方法。我们引入了用于检索增强生成的图形特征记忆 (GEM-RAG)。GEM-RAG 通过使用 LLM 生成的“效用”问题标记给定文本语料库中的每个文本块,根据其文本和效用问题的相似性将块连接在图中,然后使用记忆图的特征分解来构建捕获文本主要主题的更高级别的摘要节点。我们使用 UnifiedQA 和 GPT-3.5 Turbo 作为 LLM,使用 SBERT 和 OpenAI 的文本编码器在两个标准 QA 任务上评估 GEM-RAG,结果表明 GEM-RAG 在这些任务上优于其他最先进的 RAG 方法。我们还讨论了拥有强大的 RAG 系统的意义和未来的方向。
利用提示工程进行语音情感标注和识别是近年来随着大型语言模型 (LLM) 的发展而兴起的,但其有效性和可靠性仍存在疑问。本文对此进行了系统研究,首先提出了包含声学、语言学和心理学情感特定知识的新型提示。随后,我们检验了基于 LLM 的提示对自动语音识别 (ASR) 转录的有效性,并将其与真实转录进行对比。此外,我们提出了一种“修正-推理-识别”提示管道,用于从带有 ASR 错误的口语中进行鲁棒的基于 LLM 的情感识别。此外,还进行了上下文感知学习、情境学习和指令微调实验,以检验 LLM 训练方案在该方向上的实用性。最后,我们研究了 LLM 对微小提示变化的敏感性。实验结果证明了情感特定提示、ASR 错误校正和 LLM 训练方案对基于 LLM 的情感识别的有效性。我们的研究旨在改进 LLM 在情感识别及相关领域的应用。
近年来,强化学习 (RL) 已广泛应用于许多具有挑战性的任务。然而,为了获得良好的性能,它需要访问一个良好的奖励函数,而该函数通常是稀疏的或人工设计的,存在错误的可能性。引入人类先验知识通常被视为解决上述问题的可能解决方案,例如模仿学习、偏好学习和逆强化学习。从反馈中学习是另一个框架,它使 RL 代理能够从二元评价信号中学习,这些信号描述了教师对代理行为的(正面或负面)评价。然而,这些方法通常假设评价性教师反馈是完美的,这是一个限制性假设。在实践中,这种反馈可能由于教师专业知识有限或其他加剧因素(如认知负荷、可用性、分心等)而变得嘈杂。在这项工作中,我们提出了 CANDERE-COACH 算法,该算法能够从非最优教师的嘈杂反馈中学习。我们提出了一种噪声过滤机制来对在线反馈数据进行降噪,从而使 RL 代理能够成功地学习,即使高达 40% 的教师反馈是错误的。在三个常见领域进行的实验证明了所提出方法的有效性。
为大型语言模型 (LLM) 赋予信息检索能力(即检索增强生成 (RAG))已被证明有利于知识密集型任务。然而,在生成回复时理解用户上下文搜索意图对于对话式问答 (QA) 来说是一个鲜为人知的课题。与单轮 QA 相比,这种对话式扩展带来了额外的挑战,因为系统更难理解对话上下文并在多轮对话中管理检索到的段落。在这项工作中,我们提出了一种方法,使 LLM 能够在给定对话上下文的情况下决定何时在 RAG 设置中检索。当检索被认为是必要的时,LLM 然后重写对话以进行段落检索,并在生成响应之前判断返回段落的相关性。在操作上,我们建立在单轮 SELF-RAG 框架(Asai 等人,2023)的基础上,并为对话设置提出了 SELF-multi-RAG。SELF-multi-RAG 在检索相关段落(通过使用总结的对话上下文)和评估生成响应的质量方面展示了比单轮变体更好的能力。在三个对话式 QA 数据集上的实验验证了 SELF-multi-RAG 增强后的响应生成能力,通过人工标注测量的改进率约为 13%。
本报告介绍了一种用于统一多模态表示学习的新方法——PixelBytes Embedding。我们的方法将不同的输入捕获在一个单一的、连贯的表示中,从而为多模态序列生成(特别是文本和像素图像)提供了新兴的属性。受Image Transformers、PixelCNN和Mamba-Bytes等最先进的序列模型的启发,PixelBytes旨在解决集成不同数据类型的挑战。我们探索了各种模型架构,包括循环神经网络(RNN)、状态空间模型(SSM)和基于注意力的模型,重点关注双向处理和我们创新的PxBy嵌入技术。我们对专门的PixelBytes Poké'mon数据集进行的实验表明,具有PxBy嵌入和卷积层的双向序列模型可以生成连贯的多模态序列。这项工作有助于推动集成式人工智能模型的发展,使其能够以统一的方式理解和生成多模态数据。
准确的复发风险分层对于优化乳腺癌患者的治疗方案至关重要。现有的预后工具,如Oncotype DX (ODX),为HR+/HER2-患者提供了宝贵的基因组见解,但其受到成本和可及性的限制,尤其是在服务不足的群体中。在本研究中,我们提出了Deep-BCR-Auto,这是一种基于深度学习的计算病理学方法,可以从常规H&E染色全切片图像(WSI)中预测乳腺癌复发风险。我们的方法在两个独立的队列中得到验证:TCGA-BRCA数据集和来自俄亥俄州立大学(OSU)的内部数据集。Deep-BCR-Auto在将患者分层为低复发风险和高复发风险类别方面表现出强大的性能。在TCGA-BRCA数据集上,该模型的接收者操作特征曲线下面积(AUROC)为0.827,显著优于现有的弱监督模型(p=0.041)。在独立的OSU数据集中,Deep-BCR-Auto保持了强大的泛化能力,AUROC为0.832,准确率为82.0%,特异性为85.0%,敏感性为67.7%。这些发现突出了计算病理学作为复发风险评估的经济高效替代方案的潜力,扩大了个性化治疗策略的获取范围。这项研究强调了将基于深度学习的计算病理学整合到乳腺癌预后的常规病理评估中的临床实用性,适用于各种临床环境。
确保在长尾样本上表现稳健是机器学习许多现实应用(例如自动驾驶)中的一个重要问题。本研究重点关注在未标记数据语料库中识别罕见样本的问题。我们提出了一种简单且可扩展的数据挖掘方法,该方法利用大型视觉语言模型 (VLM) 中包含的知识。我们的方法利用 VLM 将图像内容概括为一组关键词,并根据关键词频率识别罕见样本。我们发现,与基于模型不确定性的传统方法相比,VLM 为识别长尾样本提供了独特的信号。因此,我们提出了一种简单且通用的方法来整合来自多种挖掘算法的信号。我们评估了所提出的方法在两个不同的任务上的表现:2D 图像分类(其中类间差异是数据多样性的主要来源)和 3D 物体检测(其中类内差异是主要关注点)。此外,通过检测任务,我们证明了从 2D 图像中提取的知识可以迁移到 3D 领域。我们的实验始终表明,在几个代表性的基准测试(ImageNet-LT、Places-LT 和 Waymo 开放数据集)上,与基线技术相比,我们的方法取得了显著的改进(10% 到 50% 之间)。
近年来,人工智能的进步催生了功能强大的大型语言模型 (LLM),它们可以像人类一样执行任务。然而,LLM 在某些领域只表现出婴儿级别的认知能力。其中一个领域是 A-Not-B 错误,这是一种在婴儿中观察到的现象,即他们在观察到条件发生明显变化后,仍然重复之前被奖励的行为。这突出了它们缺乏抑制控制能力——即抑制习惯性或冲动性反应的能力。在我们的研究中,我们设计了一个类似于 A-Not-B 实验设置的基于文本的多项选择问答场景,以系统地测试 LLM 的抑制控制能力。我们发现,最先进的 LLM(如 Llama3-8b)在上下文学习 (ICL) 中表现始终出色,但在推理任务中会犯错误,当上下文发生微不足道的变化时,其推理能力下降高达 83.3%。这表明,在这一点上,LLM 的抑制控制能力仅与人类婴儿相当,在 ICL 期间,它们往往无法抑制先前建立的反应模式。
大型语言模型 (LLM) 已经成为机器人利用常识推理生成任务计划的工具。为了让 LLM 生成可执行的计划,必须提供场景上下文,通常通过地图。最近的工作已经从具有固定语义类的显式地图转变为基于可查询嵌入的隐式开放词汇地图,这些嵌入能够表示任何语义类。然而,嵌入无法直接报告场景上下文,因为它们是隐式的,需要进一步处理才能与 LLM 集成。为了解决这个问题,我们提出了一种显式文本地图,它可以表示数千个语义类,同时由于其文本性质,可以轻松地与 LLM 集成,这是基于大规模图像识别模型构建的。我们研究了地图中的实体如何被定位,并通过评估表明,我们的文本地图定位与开放词汇地图的定位性能相当,同时使用的内存少两个到四个数量级。真实的机器人实验演示了将 LLM 与文本地图结合以解决用户任务。