大型语言模型展现出令人印象深刻的推理能力,但由于缺乏个人用户偏好信息,它们难以提供个性化内容。现有的方法,如上下文学习和参数高效微调,在捕捉人类偏好的复杂性方面存在不足,尤其是在个人拥有的数据集较小的情况下。本文提出了一种新方法,利用小型参数模型作为偏好代理来生成自然语言规则,指导较大的预训练模型,实现高效的个性化。我们的方法涉及一个小型、本地“方向盘”模型,它引导一个更大的基础模型的输出,产生符合个人偏好的内容,同时利用大型模型的广泛知识和能力。重要的是,这种个性化是在无需微调大型模型的情况下实现的。在电子邮件和文章数据集上的实验结果表明,我们的技术显著优于基线个性化方法。通过允许基础模型以数据和计算高效的方式适应个人偏好,我们的方法为高度个性化的语言模型应用铺平了道路。
我们展示了 OpenGPT-X 项目的初步结果。目前,该项目已开发出两种多语言大型语言模型,旨在通过支持欧盟所有 24 种官方语言来拥抱欧洲的语言多样性。我们的模型在约 60% 的非英语数据组成的数据集上进行训练,并使用定制的多语言分词器,解决了现有大型语言模型主要侧重于英语或少数资源丰富的语言的局限性。我们详细介绍了模型的开发原则、数据处理技术、分词器优化和训练方法。模型在多语言基准测试中展现出具有竞争力的性能,这体现在其在欧洲版本的 ARC、HellaSwag、MMLU 和 TruthfulQA 上的性能。
QUIC 作为一种新兴的传输协议,正在取代 TCP,它通过提供增强的安全性、性能以及流多路复用和连接迁移等功能来解决 TCP 的局限性。然而,这些功能也给网络运营商带来了挑战,他们需要监控和分析网络流量。本文介绍了 VisQUIC,这是一个包含超过 10 万个 QUIC 跟踪的标记数据集,这些跟踪来自超过 44,000 个网站(URL),收集时间跨越了四个月。这些跟踪为生成超过 700 万张图像提供了基础,这些图像具有可配置的窗口长度、像素分辨率、归一化和标签参数。这些图像使观察者能够分析和洞察客户端与服务器之间的交互,从而了解 QUIC 加密连接。为了说明该数据集的潜力,我们提供了一个用例示例,即观察者估计给定 QUIC 中 HTTP/3 响应/请求对的数量,这可以揭示服务器行为、客户端-服务器交互以及观察到的连接所带来的负载。我们将问题定义为一个离散回归问题,为其训练了一个机器学习 (ML) 模型,然后使用所提出的数据集对用例进行评估。
大型语言模型 (LLM) 和检索增强生成 (RAG) 系统在现实世界应用中可靠部署的关键在于确保其对上下文的忠实度,因为错误或不支持的信息会损害用户信任。尽管在标准基准测试中取得了进展,但忠实度幻觉——模型生成与提供的上下文不一致的响应——仍然是一个重大挑战。在这项工作中,我们介绍了 FaithEval,这是一个新颖且全面的基准测试,旨在评估 LLM 在三种不同任务中的上下文场景中的忠实度:不可回答、不一致和反事实上下文。这些任务模拟了现实世界中的挑战,其中检索机制可能会出现不完整、矛盾或虚构的信息。FaithEval 总共包含 4.9K 个高质量问题,通过严格的四阶段上下文构建和验证框架进行验证,采用基于 LLM 的自动评估和人工验证。我们对各种开源和专有模型的广泛研究表明,即使是最先进的模型也经常难以保持对给定上下文的忠实度,并且更大的模型不一定表现出更高的忠实度。该项目可在以下地址获取:\url{https://github.com/SalesforceAIResearch/FaithEval}.
在集体利益和个人利益发生冲突的社会困境中,人们通常比与人类同伴相比,与机器合作的程度更低,这种现象被称为“机器惩罚”。克服这种惩罚对于成功的人机集体至关重要,然而,目前解决方案通常涉及道德上有问题的策略,例如隐藏机器的非人类本质。在本研究中,我们招募了1152名参与者,探索了在交互方之间可以进行沟通的情况下,使用大型语言模型 (LLM) 来解决这一研究问题的可能性。我们设计了三种类型的 LLM:(i) 合作型,旨在帮助其人类伙伴;(ii) 自私型,只关注最大化其自身利益;以及 (iii) 公平型,平衡自身利益和集体利益,同时略微优先考虑自身利益。我们的研究结果表明,在与人类互动时,公平型 LLM 能够诱导与人类之间互动中观察到的类似的合作水平,即使它们的非人类本质完全公开。相比之下,自私型和合作型 LLM 无法实现这一目标。实验后分析表明,三种类型的 LLM 都成功地与人类形成了相互合作协议,但只有公平型 LLM,它们偶尔会违背承诺,能够在人类中灌输一种观念,即与它们合作是一种社会规范,并引发对它们的信任、警觉性、智力和沟通质量的积极评价。我们的研究结果表明,为了有效的人机合作,机器人制造商应该避免设计只具有理性决策能力或只专注于帮助人类的机器。相反,他们应该设计能够明智地平衡自身利益和人类利益的机器。
随着人工智能在文本生成领域取得进展,人类对人工智能生成内容的信任仍然受到偏见的影响,而这种偏见超越了对准确性的担忧。本研究探讨了偏见如何影响人们对人工智能生成内容和人类生成内容的感知。通过三个涉及文本改写、新闻文章摘要和说服性写作的实验,我们调查了人类评审员如何对标注和未标注的内容做出反应。虽然评审员在盲测中无法区分两种类型的文本,但他们 overwhelmingly favored 被标注为“人类生成”的内容,超过那些被标注为“人工智能生成”的内容,偏好分数超过 30%。即使标签被故意调换,我们也观察到了相同的模式。这种对人工智能的负面偏见对社会和认知具有更广泛的影响,因为它低估了人工智能的表现。本研究强调了人类在与人工智能互动时判断力的局限性,并为改善人机协作提供了基础,尤其是在创意领域。
本文旨在回答一个核心问题:开源生成式文本模型在何种程度上可以用于工作流程以近似社会科学研究中的主题分析?为了回答这个问题,我们提出了基于生成式人工智能的主题组织和结构化 (GATOS) 工作流程,该流程使用开源机器学习技术、自然语言处理工具和生成式文本模型来促进主题分析。为了验证该方法的有效性,我们展示了三个案例研究,应用 GATOS 工作流程,利用这些模型和技术归纳地创建类似于传统主题分析程序的代码簿。具体来说,我们研究了包含开源模型和工具的工作流程在多大程度上可以归纳地生成接近已知主题和子主题空间的代码簿。为了应对从这些文本中获取见解的挑战,我们将开源生成式文本模型、检索增强生成和提示工程相结合,以识别大量文本中的代码和主题,即生成定性代码簿。该过程模拟了研究人员在传统主题分析中可能使用的归纳编码过程,即一次阅读一个分析单元,考虑代码簿中现有的代码,然后根据现有代码簿是否提供足够的主题覆盖范围来决定是否生成新的代码。我们使用来自假设组织研究环境的三个合成数据集展示了此工作流程:团队合作环境中队友反馈的研究、组织道德行为文化的 研究以及员工对疫情后返回办公室的观点的研究。我们表明,GATOS 工作流程能够识别用于生成原始合成数据集的文本中的主题。
“表层对齐假设”认为,语言模型几乎所有能力和知识都来自于预训练阶段,而微调阶段只是为了赋予模型正确的风格和格式。我们通过实证研究微调样本数量增加时的缩放行为,并使用客观的特定任务标准化基准进行评估,对这些说法进行了重新检验。通过对多个尺寸的 Llama-3、Mistral 和 Llama-2 模型家族的实验,我们观察到,类似于预训练缩放规律,微调后的任务性能随着微调样本数量的增加而呈幂律关系。这种幂律关系存在于各种能力中,包括数学推理、编码、指令遵循和多跳推理。此外,对于数学和多跳推理等任务,我们观察到,少量样本仅仅从风格上对齐了模型,但并没有在基准上达到饱和。模型性能与推理能力相关,随着样本数量的增加而显著提高,这说明除了衡量与人类偏好的对齐程度之外,还需要利用客观基准进行整体评估计划。我们还观察到,语言模型并不一定局限于使用预训练阶段学习到的知识。通过适当的微调,模型在多跳问答等下游任务中整合新知识的能力得到了极大的提升。综上所述,这些结果为“表层对齐假设”提供了新的见解,表明它充其量只是一种过度简化。
本研究旨在为深入研究强化学习中状态空间、动作空间和策略空间的拓扑结构奠定基础。通过从数学角度研究这些空间,我们期望更深入地了解如何构建更好的算法来解决决策问题。因此,我们重点介绍了巴拿赫不动点定理与强化学习算法收敛之间的联系,并说明了从该联系中获得的见解如何在实践中帮助设计更有效的算法。然而,在此之前,我们首先介绍了度量空间、赋范空间和巴拿赫空间等相关概念,以便更好地理解,然后将整个强化学习问题用马尔可夫决策过程来表达。这使我们能够以适合强化学习的语言恰当地介绍巴拿赫压缩原理,并将贝尔曼方程写成巴拿赫空间上的算子形式,以说明为什么强化学习算法收敛。最后,我们展示了从数学收敛研究中获得的见解如何帮助推断使强化学习算法更有效的最佳方法。
推荐系统规模的不断扩大需要进行大量的调整,以应对市场动态和系统变化。本文针对大型广告推荐平台的调整问题,该平台包含多个连续参数,这些参数会影响关键绩效指标 (KPI)。传统的开放式蒙特卡罗模拟器虽然精确,但由于需要评估大量参数设置,计算成本很高。为了解决这个问题,我们提出了一种混合方法,即模拟器引导重要性抽样 (SGIS),它将开放式模拟与重要性抽样 (IS) 相结合。SGIS 利用了两种技术的优势:它对参数空间进行粗略枚举,以识别有前景的初始设置,然后使用 IS 迭代地细化这些设置。这种方法显著降低了计算成本,同时在 KPI 估计方面保持了高精度。我们通过模拟和真实世界的实验验证了 SGIS 的有效性,结果表明,与传统方法相比,它以更低的计算开销实现了 KPI 的显著改进。