LLM2D

arXiv 论文列表

作者: Javier Lopez Zambrano, Juan A. Lara, Cristobal Romero
教育数据挖掘和学习分析领域目前面临的主要挑战之一是,如何将针对特定课程获得的预测模型移植或迁移到其他不同课程中。为了应对这一挑战,首要问题之一是模型过度依赖于用于训练它们的低级属性,这降低了模型的可移植性。为了解决这个问题,使用具有更多语义意义的高级属性,例如本体论,可能非常有用。沿着这条思路,我们建议使用一个本体论,该本体论使用一个动作分类法来概括学生与 Moodle 学习管理系统的交互。我们将这种方法的结果与我们之前使用直接从 Moodle 日志中获得的低级原始属性的结果进行了比较。结果表明,使用提出的本体论提高了模型在预测精度方面的可移植性。本文的主要贡献是表明,在一个源课程中获得的本体论模型可以应用于其他具有类似使用水平的不同目标课程,而不会损失预测精度。
发布时间: 10/11/2024
查看原文
作者: Hana Matatov, Marianne Aubin Le Qu\'er\'e, Ofra Amir, Mor Naaman
大型生成式 AI 模型(如 Dall-E)的广泛普及使得任何人都可以创作出引人注目的视觉艺术。在在线社区中,AI 生成内容(AIGC)的引入可能会影响社区动态,例如改变发布的内容类型或对被怀疑由 AI 生成的内容的回应。我们正在努力研究 AIGC 对 Reddit 上与艺术相关的社区的潜在影响。我们将社区分为两类:禁止 AI 内容的社区和没有明确政策的社区。我们关注这些社区中透明地由 AI 创建的基于图像的帖子,或这些社区中怀疑作者使用生成式 AI 的评论。我们发现,截至 2023 年底,AI 帖子(和指控)在这些社区中所占比例非常小,少于 0.2% 的基于图像的帖子。即使随着时间的推移,作者标记的 AI 帖子的绝对数量减少,但对 AI 使用的指控却更加持久。我们发现,AI 内容更容易被新人使用,并且如果符合社区规则,它可能有助于提高参与度。然而,随着时间的推移,怀疑他人使用 AI 的评论语气变得越来越消极,特别是在没有关于 AI 的明确规则的社区中。总体而言,结果表明在线创意社区中围绕 AIGC 的规范和互动正在发生变化。
发布时间: 10/11/2024
查看原文
作者: Oliver Niggemann, Gautam Biswas, Alexander Diedrich, Jonas Ehrhardt, Ren\'e Heesch, Niklas Widulle
“基于人工智能的网络物理系统规划”研讨会于 2024 年 2 月 26 日在加拿大温哥华举办的第 38 届年度人工智能促进协会 (AAAI) 大会上举行,该研讨会汇集了研究人员,讨论了用于网络物理系统 (CPS) 的人工智能规划方法的最新进展。由于其复杂性和数据密集型特性,CPS 构成了重大挑战,这往往超出了传统规划算法的能力。研讨会重点介绍了神经符号架构、大型语言模型 (LLM)、深度强化学习和符号规划方面的最新进展等新方法。这些技术在管理 CPS 的复杂性方面很有前景,并在现实世界应用中具有潜力。
发布时间: 10/11/2024
查看原文
作者: Irene Cannistraci, Emanuele Rodol\`a, Bastian Rieck
深度神经网络常常学习相似的内部表示,这既存在于不同模型之间,也存在于模型自身的各个层级内部。虽然网络间的相似性已经催生了模型拼接和融合等技术,但网络内部的相似性为设计更高效的架构带来了新的机遇。本文研究了不同神经网络架构中不同层级之间这些内部相似性的涌现,结果表明相似性模式的出现与所用数据集无关。我们引入了一个简单的度量指标——块冗余度——来检测冗余块,为未来的架构优化方法奠定了基础。在此基础上,我们提出了冗余块近似 (RBA) 框架,该框架能够识别并使用更简单的变换来近似一个或多个冗余计算块。我们证明了两个表示之间的变换 $\mathcal{T}$ 可以高效地以闭合形式计算,并且足以替换网络中的冗余块。RBA 在保持良好性能的同时,降低了模型参数和时间复杂度。我们使用各种预训练的基础模型和数据集,在视觉领域的分类任务上验证了我们的方法。
发布时间: 10/10/2024
查看原文
作者: Xiang Li, Pin-Yu Chen, Wenqi Wei
基于生成式人工智能技术的文本转语音 (TTS) 和语音转换 (VC) 技术的最新进展使得生成高质量、逼真的类人语音成为可能。这给区分人工智能合成语音和真实人声带来了巨大的挑战,并可能引发恶意用途的潜在问题,例如冒充和欺诈、传播虚假信息、深度伪造和诈骗。然而,现有的 AI 合成音频检测技术尚未跟上步伐,并且在不同数据集上的泛化能力往往较差。本文介绍了 SONAR,一个合成 AI 音频检测框架和基准,旨在为区分最先进的 AI 合成音频内容提供全面的评估。SONAR 包含一个来自 9 个不同音频合成平台(包括领先的 TTS 提供商和最先进的 TTS 模型)的新型评估数据集。它是第一个统一基准测试传统和基于基础模型的深度伪造检测系统 AI 音频检测的框架。通过大量实验,我们揭示了现有检测方法的泛化局限性,并证明基础模型具有更强的泛化能力,这可以归因于其模型大小以及预训练数据的规模和质量。此外,我们探讨了少样本微调在提高泛化能力方面的有效性和效率,突出了其在定制应用中的潜力,例如针对特定实体或个人的个性化检测系统。代码和数据集可在 https://github.com/Jessegator/SONAR 获取。
发布时间: 10/10/2024
查看原文
作者: Oren Sultan, Alex Khasin, Guy Shiran, Asnat Greenstein-Messica, Dafna Shahaf
我们提出了一种实用的蒸馏方法,用于微调大型语言模型 (LLM),以便在实时应用中调用工具。我们关注视觉编辑任务;具体来说,我们通过解释用户用自然语言指定的风格化请求(例如“黄金时段”),使用大型语言模型选择合适的工具及其参数来实现所需的视觉效果,从而修改图像和视频。我们发现,诸如 GPT-3.5-Turbo 等专有大型语言模型在该任务中显示出潜力,但其高成本和高延迟使其不适用于实时应用。在我们的方法中,我们使用来自教师大型语言模型的指导和行为信号来微调(较小的)学生大型语言模型。我们引入了离线指标来评估学生大型语言模型。在线和离线实验都表明,我们的学生模型能够匹配教师模型(GPT-3.5-Turbo)的性能,同时显著降低了成本和延迟。最后,我们表明,在低数据情况下,使用数据增强可以将微调效果提高 25%。
发布时间: 10/10/2024
查看原文
作者: Zihan Fang, Zheng Lin, Senkang Hu, Hangcheng Cao, Yiqin Deng, Xianhao Chen, Yuguang Fang
车内多模态监控技术近年来兴起,用于及早发现驾驶员异常状态并及时预警,预防交通事故。然而,尽管使用多模态数据训练模型可以提高异常状态检测的可靠性,但标注数据稀缺和类别分布不平衡等问题阻碍了关键异常状态特征的提取,显著降低了训练性能。此外,由于环境和硬件限制导致的模态缺失进一步加剧了异常状态识别的挑战。更重要的是,对乘客(特别是老年人)异常健康状况的监测至关重要,但仍未得到充分探索。为了应对这些挑战,我们引入了IC3M,这是一种基于相机旋转的高效多模态框架,用于监测车内驾驶员和乘客。IC3M包含两个关键模块:自适应阈值伪标签策略和缺失模态重建。前者根据类别分布定制不同类别的伪标签阈值,生成类别平衡的伪标签以有效地指导模型训练;后者利用从有限标签中学到的跨模态关系,通过从可用模态转移分布来准确恢复缺失模态。大量的实验结果表明,IC3M在准确率、精确率和召回率方面均优于最先进的基准方法,并在标注数据有限和模态缺失严重的情况下表现出优越的鲁棒性。
发布时间: 10/10/2024
查看原文
偏好学习为解决代码语言模型监督微调 (SFT) 的局限性提供了一种有前景的方案,在该方案中,模型并非明确地训练以区分正确和错误的代码。最近的研究表明,策略内数据是成功偏好学习的关键,其中偏好数据是使用正在训练的相同策略语言模型收集的。受此启发,我们提出了 PLUM,一个增强了代码语言模型测试用例的策略内偏好学习框架。该框架包含三个关键阶段:(1) 从自然语言指令自动生成测试用例;(2) 通过评估从策略中采样的候选代码解决方案来创建偏好数据,然后可用于 (3) 训练策略语言模型。PLUM 消除了训练奖励模型的需要,允许大规模的策略内和在线偏好数据收集。PLUM 在标准基准(HumanEval、MBPP)和更具挑战性的基准(LiveCodeBench)上进行了评估,与原始 SFT 模型和其他执行反馈驱动的方法相比,取得了显著改进。我们展示了 PLUM 的优势在各种广泛使用的代码语言模型中是一致的,即使它们已经通过 SFT 进行了良好的训练。例如,PLUM 在标准基准测试中的平均通过率提高了高达 4.8%,在 LiveCodeBench 中提高了 11.8%,证明了其有效性和泛化能力。我们还通过全面的实验论证了策略内和在线偏好学习的优势。
发布时间: 10/10/2024
查看原文
作者: Yishuai Cai, Xinglin Chen, Yunxin Mao, Minglong Li, Shaowu Yang, Wenjing Yang, Ji Wang
行为树 (BT) 凭借其模块化、反应性和鲁棒性,正日益成为机器人技术中流行的控制结构。在 BT 生成方法方面,BT 规划在生成可靠的 BT 方面显示出前景。然而,BT 规划的可扩展性常常受到复杂场景中规划时间过长的限制,这很大程度上是由于缺乏领域知识。相比之下,预训练的大型语言模型 (LLM) 已在各个领域展现出任务推理能力,但其规划的正确性和安全性仍存在不确定性。本文提出将 BT 规划与 LLM 推理相结合,引入启发式行为树规划 (HBTP)——一个可靠且高效的 BT 生成框架。HBTP 的关键思想是利用 LLM 进行特定任务的推理以生成启发式路径,然后 BT 规划可以沿着该路径高效地展开。我们首先介绍启发式 BT 展开过程,以及分别针对最优规划和满意规划设计的两种启发式变体。然后,我们提出解决 LLM 推理不准确性的方法,包括动作空间剪枝和反思反馈,以进一步提高推理精度和规划效率。实验结果证明了 HBTP 的理论界限,来自四个数据集的结果证实了其在日常服务机器人应用中的实际有效性。
发布时间: 10/10/2024
查看原文
作者: Yongxin Guo, Zhenglin Cheng, Xiaoying Tang, Zhaopeng Tu, Tao Lin
稀疏专家混合模型 (SMoE) 已广泛用于提高基于 Transformer 的基础模型的训练和推理效率,并取得了可喜的成果。然而,SMoE 的性能严重依赖于超参数的选择,例如专家的数量和要激活的专家数量(称为 top-k),导致由于搜索各种超参数配置而进行的广泛模型训练带来了巨大的计算开销。为解决这个问题,我们引入了动态专家混合模型 (DynMoE) 技术。DynMoE 集成了:(1) 一种新颖的门控方法,使每个 token 都能自动确定要激活的专家数量;(2) 一个自适应过程,可在训练过程中自动调整专家的数量。在视觉、语言和视觉语言任务上的大量数值结果表明,我们的方法在与 GMoE(用于视觉和语言任务)和 MoE-LLaVA(用于视觉语言任务)相比取得了具有竞争力的性能,同时通过激活较少的参数来保持效率。我们的代码可在 https://github.com/LINs-lab/DynMoE 获取。
发布时间: 10/10/2024
查看原文