arXiv:2401.12393v3 宣告类型: replace-cross
摘要:检测涉及个人属性的推断查询并保护这些查询不泄露个人信息需要从业者付出巨大的努力。为了解决这个问题,我们提出了一种端到端的工作流,用于自动化隐私保护的推断查询,包括涉及AI/ML模型对敏感属性进行推断的子查询的检测。我们提出的新声明式隐私保护工作流允许用户指定“要保护什么隐私信息”而不是“如何保护”。 behind the scenes,系统会自动选择隐私保护计划和超参数。
arXiv:2401.10747v4 公告类型: replace-cross
摘要:多模态情感分析旨在通过视觉、语言和声音线索识别个体所表达的情绪。然而,现有大多数研究工作假设在训练和测试过程中所有模态都是可用的,使得其算法容易受到缺失模态场景的影响。本文中,我们提出了一种新颖的知识传递网络,用于在不同模态之间进行翻译,以重建缺失的声音模态。此外,我们开发了一种跨模态注意力机制,用于在情感预测中保留重建和观察模态的最大信息量。在三个公开可用的数据集上的广泛实验表明,与基线方法相比取得了显著改进,并且在完全多模态监督的情况下达到了与先前方法相当的结果。
arXiv:2401.09410v2 宣告类型: 替换-交叉
摘要:知识无法与人分离。随着人工智能知识系统的挖掘大量工作相关的数据,所提取和呈现的知识与创造和使用这些知识的人之间存在内在联系。当这些系统嵌入组织环境中时,被置于前台的信息以及被推至边缘的信息能够影响个体相互间以及他们在工作中的自我认知。在本文中,我们提出了镜子隐喻,并使用它来重新概念化人工智能知识系统为反映和扭曲的系统,扩展了我们对透明度要求、影响和挑战的认知。我们将透明度视为塑造不同视角的关键中介,包括看到系统内部,这揭示了其功能、局限性和行为,以及透过系统来看待,这塑造了工人对自己贡献和组织中他人的感知。认识到这些系统的社会技术性质,我们确定了实现人工智能知识系统价值所需的三个透明度维度,即系统透明度、程序透明度和结果透明度。我们讨论了阻碍这些形式透明度实施的关键挑战,揭示了更大的社会技术差距,并强调了未来计算机支持的合作工作(CSCW)研究的方向。
arXiv:2312.16262v2 宣布类型: 替换-交叉
摘要:大多数现有的捆绑生成方法在生成固定大小的捆绑方面存在不足。此外,它们在生成过程中往往忽视了反映在捆绑中的用户意图,导致生成的捆绑可解释性较差。本文通过探索两个相关任务,即个性化捆绑生成和潜在意图推理,基于不同的用户会话针对这些限制进行了解决。受到大型语言模型(LLMs)推理能力的启发,我们提出了一个自适应的上下文学习范式,允许LLMs从相关会话中抽取定制的教训作为示范,从而提升目标会话的表现。具体来说,我们首先使用检索增强生成来识别最近邻会话,然后精心设计提示,以指导LLMs在这些邻近会话上执行这两个任务。为了应对可靠性和幻觉挑战,我们进一步引入了(1)一种自我校正策略,促进了两个任务在无需监督信号的情况下相互提高;(2)一种基于LLMs在不同邻近会话中所犯错误的差异化自反馈机制,用于自适应监督。因此,目标会话可以通过观察其邻近会话的示范来获得定制的教训,从而提高其表现。在三个真实数据集上的实验结果证明了我们提出方法的有效性。
arXiv:2311.02544v4 宣告类型: replace-cross
摘要:我们研究了具有非线性轨迹偏好下的多目标强化学习。即,在多目标马尔可夫决策过程(MOMDP)中,我们最大化非线性函数在累积奖励上的期望值(期望标量化回报或ESR)。我们推导出一种非线性优化的扩展形式的贝尔曼最优性,该形式明确考虑了时间以及当前累积奖励。利用这一表述,我们描述了一种近似算法,在具有常数数量奖励的平滑标量化函数下,可以在伪多项式时间内计算近似最优的非稳态策略。我们从理论上证明了该近似方法,并通过实验展示了该算法,显示了我们的算法计算出的最优策略与其他基准方法之间可能存在较大的差距。
arXiv:2311.01534v4 宣告类型: replace-cross
摘要: 在本文中,我们关注大型城市环境中自主多代理出租车路由问题,其中未来乘车请求的位置和数量事先未知,但可以通过经验分布进行估计。最近的理论表明,具有稳定基础策略的展开算法会产生接近最优的稳定策略。在路由设置中,如果执行过程能够保持未解决请求的数量随时间均匀有界,那么策略是稳定的。尽管基于展开的方法非常适合学习考虑未来需求的协作多代理策略,但在大型城市环境中应用此类方法可能会因为需要大量出租车以确保稳定性而代价高昂。本文旨在通过提出一个近似的两阶段多代理展开算法来解决多代理展开的计算瓶颈,从而降低计算成本,同时仍然实现一个接近最优的稳定策略。我们的方法根据预测需求和用户计算资源所能运行的最大出租车数量,将图划分成区域。然后该算法应用瞬时分配(IA)重新平衡各区域中的出租车,并在每个区域并行执行涉及整个区域的多代理展开算法。我们提供了两个主要的理论成果:1)表征确保瞬时分配稳定性的所需出租车数 $m$;2)推导出随时间推移确保瞬时分配稳定性的 $m$ 的必要条件。我们的数值结果表明,我们的方法能够确保满足理论条件的 $m$ 数值实现稳定性。我们还通过实验证明,我们提出的两阶段算法在整个地图上逐个执行的展开算法具有同等性能,但运行时间显著较低。
arXiv:2310.11409v5 宣告类型: replace-cross
摘要:渗透测试是软件安全测试的重要组成部分,允许组织识别并修复其系统中的漏洞,从而增强其针对网络攻击的防御机制。最近在渗透测试领域的一个进展是利用语言模型(LLMs)。我们探索了LLMs与渗透测试的交叉点,以了解它们在权限提升上下文中的能力与挑战。我们介绍了一种完全自动化的权限提升工具,用于评估LLMs在伦理黑客攻击方面的有效性,执行使用多种LLMs的基准测试,并调查其各自的测试结果。
我们的结果显示,GPT-4-turbo 对漏洞的利用效率较高(33-83%的漏洞)。GPT-3.5-turbo 可以滥用16-50%的漏洞,而本地模型如Llama3只能利用0-33%的漏洞。
我们分析了不同上下文大小、上下文学习、可选高级指导机制和内存管理技术的影响。我们讨论了LLMs面临的挑战,包括测试过程中保持专注、应对错误,最终将LLMs与人类黑客进行比较。
当前版本的LLM引导权限提升原型可以在https://github.com/ipa-labs/hackingBuddyGPT找到。
arXiv:2308.15334v3 通告类型: 替换-交叉
摘要:向学生提供丰富、建设性的反馈对于支持和增强他们的学习至关重要。近期生成式人工智能(AI)的发展,尤其是大型语言模型(LLMs),为提供可扩展、可重复且即时的反馈带来了新的机会,这有效地使一种历史上稀缺且成本高昂的资源变得丰富起来。从技术角度来看,由于在人工智能和自然语言处理(NLP)方面的突破,这种方法现在变得可行。虽然这些教育领域的潜在好处令人振奋,但实施这些技术也引入了一大堆必须仔细解决的伦理考虑。人工智能系统的核心优势之一是能够自动化常规和繁琐的任务,从而可能为人类教育者腾出时间进行更为细腻的工作。然而,自动化的便捷性也带来了“多数规则”的风险,即少数或独特学习者的多样化需求可能会被忽视,因为它们可能更难以系统化且不太容易兼容。因此,确保AI生成反馈的包容性和公平性,成为负责地在教育中实施AI的关键方面。开发能够产生有价值、个性化和真实反馈的机器学习模型的过程也需要大量来自人类领域专家的输入。关于谁的专业知识被纳入、如何被捕捉以及何时被应用的决策对最终反馈的相关性和质量有着深远的影响。此外,维护和不断改进这些模型也是必要的,以便适应不断变化的背景、理论和学生相关因素。如果没有持续的适应,反馈可能会变得过时或与多元学生群体的当前需求不符。
arXiv:2304.08733v2 宣告类型:替换交叉
摘要:采用监督机器学习训练的计算机视觉人工智能(AI)模型被认为通过模仿从训练标签中学到的人类行为来解决分类任务。近年来,视觉研究中的大部分努力集中在使用标准化基准(如准确率)来衡量模型任务性能上。然而,很少有人尝试理解人类与机器在感知方面的差异。为了填补这一空白,本研究首先分析来自两种来源的错误的统计分布,然后探讨任务难度水平如何影响这些分布。我们发现,即使AI从训练数据中学习到一个优秀的模型,一个整体准确率超越人类的模型,这些AI模型也与人类感知存在显著且一致的差别。我们通过一个简单的、优于单独的人类、单独的AI或AI-AI团队合作的表现的人机团队算法,强调了研究这些差别的重要性。
arXiv:2303.12807v2 优化类型:替换-交叉
摘要:优化问题旨在寻找最优解,而这变得越来越复杂且难以解决。传统的演化优化方法总是忽略了解空间的颗粒特性。在实际的优化场景中,解空间通常被划分为由不同分布程度描述的子区域。这些子区域在搜索潜力和难度上表现出不同的颗粒特性。考虑到解空间的颗粒特性,粗颗粒区域的数量小于点的数量,因此计算更加高效。另一方面,粗颗粒特性不容易受到细颗粒样本点的影响,因此计算更加稳健。为此,本文提出了一种新的多颗粒演化优化方法,即粒度球优化(GBO)算法,该方法从粗颗粒到细颗粒来界定和搜索解空间。具体而言,通过使用粒度球而非传统点来进行优化,可以增加随机搜索过程的多样性和鲁棒性。同时,不同迭代过程中的搜索范围由粒度球的半径限制,从而从大到小覆盖解空间。粒度球分裂机制被应用于不断分裂和演化大粒度球为较小的粒度球,以细化解空间。广泛的实验表明,GBO在常用的基准测试中优于流行的高级演化算法。代码可在补充材料中找到。