入门编程课程通常强调在学习更复杂和有趣的程序之前先掌握语法和基本结构。这种自下而上的方法对于新手来说可能令人沮丧,它将重点从解决问题上转移开,并可能使计算对更广泛的学生群体失去吸引力。代码生成式人工智能的兴起可以通过与人工智能模型的交互来培养新的技能,部分解决这些问题,包括构建高级提示和评估自动生成的代码。在本经验报告中,我们探讨了在为期六周的模块中,在四个实验室中实施的入门课程中包含两个以提示为重点的活动。第一个要求学生通过编写自然语言提示来解决计算问题,强调解决问题而不是语法。第二个让学生创建提示来生成与提供的代码片段等效的代码,以培养对提示和代码之间关系的理解。课程中大多数学生都表示学习编程很困难,经常提到对语法和调试的沮丧。我们发现,自述的学习编程难度与传统编程评估(如测试和项目)的表现之间存在很强的反向关系,正如预期的那样。然而,自然语言任务的表现与自述的难度关系较弱,这表明它们可能针对不同的技能。学习如何与人工智能编码模型交流正成为一项重要技能,自然语言提示任务可能吸引更广泛的学生群体。
解耦表示学习在使表示可控、可解释和可迁移方面发挥着至关重要的作用。尽管它在该领域意义重大,但寻找可靠且一致的定量解耦度量仍然是一个重大挑战。这源于使用各种度量来衡量不同的属性,以及其设计中可能引入的偏差。我们的工作对现有的流行解耦评估指标进行了全面考察,在衡量解耦的各个方面(即模块化、紧凑性和显式性)、检测因子-代码关系以及描述解耦程度方面进行了比较。我们提出了一个新的解耦度量框架,引入了名为\emph{EDI}的指标,它利用了\emph{排他性}的直观概念和改进的因子-代码关系来最大限度地减少临时决策。深入分析表明,EDI 衡量了基本属性,同时比现有指标提供了更高的稳定性,主张将其作为标准方法采用。
大型语言模型 (LLM) 正在迅速成为大型软件系统中的通用组件。这带来了自然的安全和隐私问题:从一个组件中检索到的中毒数据可能会改变模型的行为并危及整个系统,包括迫使模型将机密数据传播到不可信的组件。一种有前景的方法是在系统级别通过动态信息流(又称污染)跟踪来解决这个问题。不幸的是,将最严格的输入标签传播到输出的传统方法对于 LLM 在从不同来源检索到的输入上运行的应用程序来说过于保守。在本文中,我们提出了一种新颖的、更宽松的方法来传播 LLM 查询中的信息流标签。我们方法背后的关键思想是只传播对生成模型输出有影响的样本的标签,并消除不必要的输入的标签。我们实施并研究了这种方法的两种变体的有效性,分别基于 (i) 基于提示的检索增强,以及 (ii) $k$ 最近邻语言模型。我们将这些与基于内省的影响估计器的基线进行比较,该估计器直接要求语言模型预测输出标签。获得的结果突出了我们基于提示的标签传播器的优越性,它在 LLM 代理设置中超过 85% 的情况下改进了标签。这些发现强调了宽松标签传播在检索增强方面的实用性。
社会文化规范作为社交互动中个人行为的指导原则,强调尊重、合作和适当的行为,这有利于对话信息检索、情境信息检索和检索增强机器学习等任务。我们提出了一种利用大型语言模型(LLMs)构建社会文化规范(SCN)库的可扩展方法,用于实现社会感知对话。我们构建了一个全面且公开可访问的中文社会文化规范库。我们的方法利用社会感知对话,并辅以情境框架,作为主要数据源来约束生成过程并减少幻觉。这使得能够提取高质量和细致入微的自然语言规范语句,利用语句在情境方面的语用含义。由于带有黄金框架的真实对话数据并不容易获得,我们建议使用合成数据。我们的实验结果表明:(i)从合成数据中提取的 SCN 的质量与从带有黄金框架的真实对话中提取的 SCN 的质量相当,以及(ii)从带有银色(预测)或黄金框架的真实数据中提取的 SCN 的质量超过了没有框架注释的 SCN 的质量。我们进一步证明了提取的 SCN 在基于 RAG(检索增强生成)的模型中有效性,以推理多个下游对话任务。
扩散模型(DMs)已发展成为先进的图像生成工具,特别是在少样本微调方面,其中预训练的 DM 在一小部分图像上进行微调,以捕捉特定风格或物体。许多人将这些个性化的检查点上传到网上,促进了 Civitai 和 HuggingFace 等社区的发展。然而,模型所有者可能会忽视发布其微调检查点所带来的数据泄露风险。此外,在微调过程中使用未经授权的数据也会引发版权侵犯问题。本文提出一个问题:“能否从这些在线共享的微调 DM 中提取训练数据?”成功的提取不仅会带来数据泄露威胁,还会提供版权侵犯的实质性证据。为了回答这个问题,我们提出了 FineXtract,一个用于提取微调数据的框架。我们的方法将微调近似为模型学习分布的逐渐转变——从原始预训练 DM 向微调数据转变。通过推断微调前后模型,我们引导生成过程朝微调数据分布内的高概率区域发展。然后,我们应用聚类算法从这些使用推断指导生成的图像中提取最可能的图像。在使用 WikiArt、DreamBooth 和在线发布的真实世界检查点等数据集微调的 DM 上进行的实验验证了我们方法的有效性,在大多数情况下提取了大约 20% 的微调数据,显著超过了基线性能。
随着机器人的能力不断提升,用户希望能够描述高层次的任务,并让机器人填补细节。在许多现实场景中,预先构建的地图难以获取,因此执行任务需要探索和建图,而这些是任务所必需的,并且是针对特定任务的。例如,在紧急救援场景中,用户命令机器人“对受灾区域进行分类”。机器人必须根据先验知识或其他上下文推断相关的语义(受害者等)和探索目标(受损区域),然后探索并在线完善其计划。这些任务的描述是不完整的,这意味着它们隐含了子任务和语义。虽然许多语义规划方法在线运行,但它们通常被设计用于明确定义的任务,例如物体搜索或探索。最近,大型语言模型 (LLMs) 在一系列用自然语言描述的机器人任务中展示了强大的上下文推理能力。然而,现有的 LLM 规划器通常不考虑在线规划或复杂的任务;相反,相关子任务由预先构建的地图或用户提供。我们通过 SPINE(用于非结构化环境中具有不完整自然语言规范的任务的在线语义规划器)来解决这些局限性。SPINE 使用 LLM 来推理任务所隐含的子任务,然后在后退地平线框架中实现这些子任务。任务会自动验证安全性,并通过新的观察结果在线完善。我们在仿真和真实世界环境中对 SPINE 进行了评估。评估任务需要在超过 20,000 平方米的杂乱户外环境中进行多步语义推理和探索。我们评估了 SPINE 在单智能体和空地协同应用中的竞争基线。请访问我们的项目页面查看视频和软件:https://zacravichandran.github.io/SPINE。
在线仇恨言论在社交媒体平台上日益猖獗,对个人和社会造成伤害。虽然已经努力通过内容审核来解决这个问题,但用户驱动的反驳言论作为替代解决方案的潜力尚未得到充分探索。现有的反驳言论方法往往面临着报复的恐惧和技能相关的障碍。为了应对这些挑战,我们推出了 CounterQuill,这是一个 AI 中介系统,可以帮助用户撰写有效且富有同理心的反驳言论。CounterQuill 提供了三步过程:(1)学习环节,帮助用户了解仇恨言论和反驳言论;(2)头脑风暴环节,指导用户识别仇恨言论的关键要素并探索反驳言论策略;(3)合作写作环节,使用户能够与 CounterQuill 一起起草和完善他们的反驳言论。我们对 20 名参与者进行了主题内用户研究,以评估 CounterQuill 与 ChatGPT 的比较。结果表明,CounterQuill 的指导和协作写作过程为用户提供了更强的共同创作反驳言论的所有权感。用户将 CounterQuill 看作写作伙伴,因此与使用 ChatGPT 撰写的反驳言论相比,他们更愿意将共同撰写的反驳言论发布到网上。
人们普遍认为,动态稀疏训练为人工神经网络开辟了一个可扩展性和效率的新时代,但可能在分类任务的准确性方面会付出一些代价。与此同时,密集训练被广泛接受为训练人工神经网络的“事实上的”方法,如果人们希望最大限度地提高其对图像损坏的鲁棒性。在本文中,我们对这种普遍做法提出了质疑。因此,我们声称,与普遍看法相反,动态稀疏训练方法在鲁棒性精度方面始终优于密集训练,尤其是在效率方面不被视为主要目标的情况下(即稀疏度水平在 10% 到 50% 之间),而不会增加(甚至减少)资源成本。我们使用用于计算机视觉的几种传统和现代深度学习架构以及三种广为研究的动态稀疏训练算法,在两种类型的数据(图像和视频)上验证了我们的主张。我们的发现揭示了动态稀疏训练的一个新的、未知的好处,并为超越当前技术水平的深度学习鲁棒性改进开辟了新的可能性。
近年来,生成模型,尤其是扩散模型的进步,为时间序列建模开辟了新的方向,在预测和合成方面取得了最先进的性能。然而,基于扩散的模型依赖于一个简单的固定先验,这使得生成过程变得复杂,因为数据和先验分布存在显著差异。我们引入了 TSFlow,这是一个用于时间序列的条件流匹配 (CFM) 模型,通过结合高斯过程、最优传输路径和数据相关先验分布来简化生成问题。通过结合 (条件) 高斯过程,TSFlow 使先验分布更紧密地与数据的时序结构对齐,从而增强无条件和条件生成。此外,我们提出条件先验采样,以实现使用无条件训练的模型进行概率预测。在对八个真实世界数据集进行的实验评估中,我们证明了 TSFlow 的生成能力,产生了高质量的无条件样本。最后,我们表明,条件和无条件训练的模型在预测基准测试中都取得了有竞争力的结果,在 8 个数据集中的 6 个数据集上超过了其他方法。
同行评审是确保已发表科学研究完整性的关键流程。对这一流程的信任建立在这样一个假设之上:相关领域的专家会认真考虑提交出版的稿件的优点。随着大型语言模型 (LLM) 在语言能力方面的快速发展,同行评审流程面临着一个新的潜在风险,即疏忽的审稿人会依赖 LLM 来执行通常耗时的论文审阅流程。在本研究中,我们调查了现有 AI 文本检测算法区分人类撰写的同行评审和不同最先进的 LLM 撰写的同行评审的能力。我们的分析表明,现有的方法无法识别许多 GPT-4o 撰写的评论,同时也会产生大量的误报分类。为了解决这一缺陷,我们提出了一种新的检测方法,该方法在识别 GPT-4o 撰写的同行评审方面超越了现有方法,并且误报分类的水平很低。我们的工作揭示了在单个评论级别准确识别 AI 生成文本的难度,突出了对新工具和方法的迫切需求,以检测这种不道德的生成式 AI 应用。