LLM2D
CI-Bench:在合成数据上评估AI助手上下文完整性的基准测试
CI-Bench: Benchmarking Contextual Integrity of AI Assistants on Synthetic Data
发布日期: 9/24/2024
arXiv ID: oai:arXiv.org:2409.13903v1

摘要

生成式人工智能的进步预示着个性化应用的新时代,这些应用能够代表用户执行多样化的任务。尽管通用人工智能助手尚未完全出现,但其潜在的共享个人数据的能力引发了重大的隐私挑战。本文介绍了CI-Bench,这是一个全面的合成基准,用于评估AI助手在模型推理过程中保护个人信息的能力。利用上下文完整性框架,我们的基准能够系统地评估信息在重要上下文维度(包括角色、信息类型和传输原则)之间的流动。我们提出了一种新颖的、可扩展的多步骤合成数据管道,用于生成自然的通信内容,包括对话和电子邮件。与之前较小规模、狭窄聚焦的评估工作不同,我们提出了一种新颖的、可扩展的多步骤数据管道,能够合成生成自然的通信内容,包括对话和电子邮件,并利用这些内容生成了跨越八个领域的44,000个测试样本。此外,我们制定并评估了一个简单的AI助手,以展示进一步研究和在个人助手任务中谨慎训练的必要性。我们设想CI-Bench将成为指导未来语言模型开发、部署、系统设计和数据集构建的有价值工具,最终有助于开发出符合用户隐私期望的AI助手。