LLM2D

arXiv 论文列表

本文针对 Instagram 上与 COVID-19 相关的帖子进行了挖掘和分析,提出了三个科学贡献。首先,本文构建了一个包含 500,153 条 Instagram 帖子的多语言数据集,涵盖了 2020 年 1 月至 2024 年 9 月期间发布的有关 COVID-19 的帖子。该数据集包含 161 种不同语言的 Instagram 帖子以及 535,021 个不同的标签,并已公开发布在 https://dx.doi.org/10.21227/d46p-v480。在构建数据集后,本文进行了多语言情感分析,将每条帖子分类为正面、负面或中性。情感分析的结果作为单独的属性包含在该数据集中。其次,本文展示了 2020 年至 2024 年间每年进行的情感分析结果。研究发现,自疫情爆发以来,Instagram 上与 COVID-19 相关的情感趋势发生了显著变化。例如,在 2020 年至 2024 年期间,正面情感比例从 38.35% 下降至 28.69%,而中性情感比例从 44.19% 上升至 58.34%。最后,本文还展示了语言特异性情感分析的结果。该分析突出了 Instagram 上不同语言发布的帖子之间情感趋势的相似之处和差异。例如,在所有英文帖子中,49.68% 为正面,14.84% 为负面,35.48% 为中性。相比之下,在所有印地语帖子中,4.40% 为正面,57.04% 为负面,38.56% 为中性,反映出这两种语言之间情感分布的显著差异。
发布时间: 10/7/2024
查看原文
作者: Matteo Rufolo, Dario Piga, Gabriele Maroni, Marco Forgione
近年来,由部分作者提出的上下文识别范式旨在离线并基于合成数据估计一个元模型,该模型描述了整个系统类别的行为。经过训练后,该元模型将接收来自真实系统生成的观测输入/输出序列(上下文),以零样本学习的方式预测其行为。本文通过三个关键创新来增强原始元建模框架:将学习任务置于概率框架内;管理非连续上下文和查询窗口;以及采用循环补丁来有效地处理长上下文序列。通过一个重点关注 Wiener-Hammerstein 系统类的数值示例,证明了这些修改的有效性,突出了模型的增强性能和可扩展性。
发布时间: 10/7/2024
查看原文
作者: Haibo Wang, Zhiyang Xu, Yu Cheng, Shizhe Diao, Yufan Zhou, Yixin Cao, Qifan Wang, Weifeng Ge, Lifu Huang
视频大型语言模型(Video-LLMs)在粗粒度视频理解方面展现出非凡的能力,然而,它们在细粒度时间定位方面却存在困难。本文介绍了 Grounded-VideoLLM,这是一种新颖的视频-LLM,能够以细粒度的方式感知和推理特定视频片段。我们发现,现有的 Video-LLMs 在细粒度视频理解方面存在局限性,因为它们缺乏有效的时序建模和时间戳表示。鉴于此,我们通过结合(1)额外的时序流来编码帧之间的关系,以及(2)富含特定时间知识的离散时序标记来表示时间戳,来提升模型的精度。为了优化 Grounded-VideoLLM 的训练,我们采用多阶段训练方案,从简单的视频字幕任务开始,逐步引入复杂度不断增加的视频时间定位任务。为了进一步增强 Grounded-VideoLLM 的时间推理能力,我们还通过自动标注管道构建了一个基于时间定位的视频问答数据集。大量的实验表明,Grounded-VideoLLM 不仅在细粒度定位任务(如时间句子定位、稠密视频字幕和基于时间定位的视频问答)中表现出色,而且作为通用的视频助手在通用视频理解方面也展现出巨大潜力。
发布时间: 10/7/2024
查看原文
作者: Yasaman Torabi, Shahram Shirani, James P. Reilly
心肺音对于医疗保健监测至关重要。近年来,听诊器技术的进步使得能够以更高的精度捕捉患者的声音。在这个数据集中,我们使用数字听诊器来捕捉心肺音,包括单独和混合的录音。据我们所知,这是第一个提供单独和混合心肺音的数据集。这些录音是在临床人体模型上收集的,该模型是一种模拟人体生理状况的患者模拟器,能够生成不同身体部位的清晰心肺音。该数据集包括正常声音和各种异常声音(例如,杂音、心房颤动、心动过速、房室传导阻滞、第三和第四心音、喘息、爆裂音、哮鸣音、胸膜摩擦音和咕噜咕噜声)。该数据集包含由专业护士在不同解剖部位进行的胸部检查的音频记录。每个录音都经过频率滤波器增强,以突出特定类型的音效。该数据集对于人工智能应用非常有用,例如自动心肺疾病检测、声音分类、无监督分离技术以及与音频信号处理相关的深度学习算法。
发布时间: 10/7/2024
查看原文
作者: Kazuki Adachi, Shin'ya Yamaguchi, Atsutoshi Kumagai, Tomoki Hamagami
本文研究了回归问题的测试时自适应(TTA),其中一个在源域预训练的回归模型被自适应到一个未知的目标分布,该分布具有未标记的目标数据。尽管回归是机器学习中的基本任务之一,但现有的 TTA 方法大多是针对分类的,它们假设模型输出类别分类预测,而回归模型通常只输出单个标量值。为了使 TTA 适用于回归,我们采用了一种特征对齐方法,该方法对齐源域和目标域之间的特征分布以减轻域间差距。然而,我们发现现有的 TTA 方法中使用的简单特征对齐对于回归来说是无效的,甚至更糟,因为特征分布在一个小的子空间中,并且许多原始特征维度对输出几乎没有意义。为了在回归的 TTA 中实现有效的特征对齐,我们提出了显著子空间对齐(SSA)。SSA 由两个部分组成:子空间检测和维度加权。子空间检测找到对输出具有代表性和重要性的特征子空间。然后,在 TTA 期间对子空间进行特征对齐。同时,维度加权提高了特征子空间中对输出具有更大意义的维度的重要性。我们通过实验表明,SSA 在真实世界数据集上优于各种基线。
发布时间: 10/7/2024
查看原文
作者: Sebastian Bordt, Suraj Srinivas, Valentyn Boreiko, Ulrike von Luxburg
大型语言模型(LLM)训练数据中泄露基准数据已成为评估其能力的一项重大挑战。本研究通过实验证据和理论估计,对小规模污染使基准评估无效的普遍假设提出了质疑。首先,我们基于三个维度进行缩放,以实验方式量化基准过拟合的程度:模型参数数量(高达16亿)、示例出现的次数(高达144次)以及训练标记数量(高达400亿)。我们发现,如果模型和数据遵循 Chinchilla 缩放定律,轻微的污染确实会导致过拟合。同时,如果训练数据规模超过 Chinchilla 五倍(这是许多现代 LLM 的特征),即使污染了 144 次,也会被遗忘。然后,我们推导出一个简单的示例遗忘理论,该理论基于累积权重衰减。它使我们能够限制遗忘过去数据所需的梯度步数,前提是我们知道 AdamW 的超参数。这表明许多 LLM,包括 Llama 3,已经忘记了在训练开始时看到的数据。在实验中,我们证明遗忘发生的速度比我们的界限预测的要快。综上所述,我们的结果表明,在实际规模的训练运行结束时,中等程度的污染是可以被遗忘的。
发布时间: 10/7/2024
查看原文
作者: Oliver Hausd\"orfer, Alexander von Rohr, \'Eric Lefort, Angela Schoellig
在模拟环境中进行深度强化学习(DRL)通常会导致脆弱且不现实的学习结果。为了推动智能体朝着更理想的解决方案发展,可以通过奖励塑造、专家数据或运动原语等方式将先验信息注入学习过程。我们提出了一种用于机器人学习的附加归纳偏差:从专家演示中学习的潜在动作作为动作空间中的先验知识。我们证明,这些动作先验知识可以通过简单的自编码器仅从单个开环步态周期中学习。使用这些潜在的动作先验知识结合 DRL 中用于模仿的已建立风格奖励,可以实现超越专家演示级别的性能,并导致更理想的步态。此外,动作先验知识显著提高了迁移任务的性能,甚至可以实现更高的目标速度的步态转换。视频和代码可在以下网站获得:https://sites.google.com/view/latent-action-priors。
发布时间: 10/7/2024
查看原文
作者: Luca Gioacchini, Marco Mellia, Idilio Drago, Alexander Delsanto, Giuseppe Siracusano, Roberto Bifulco
基于大型语言模型 (LLM) 的生成式 AI 代理,正在成为自动化网络安全任务的一种很有前景的方法。在众多任务中,渗透测试由于其任务的复杂性和模拟网络攻击的多样化策略而极具挑战性。尽管人们对利用生成式代理自动化渗透测试越来越感兴趣,并且已经开展了一些初步研究,但仍然存在一个显著的差距,即缺乏一个全面且标准化的框架来评估和开发这些代理。本文介绍了 AutoPenBench,这是一个用于评估生成式代理在自动化渗透测试中的开放基准。我们提出了一个全面的框架,其中包括 33 个任务,每个任务代表一个代理需要攻击的脆弱系统。任务的难度级别不断提升,包括体外和现实世界场景。我们使用通用和特定里程碑来评估代理性能,这使我们能够以标准化方式比较结果,并了解被测代理的局限性。我们通过测试两种代理架构展示了 AutoPenBench 的优势:一个完全自主的代理和一个支持人机交互的半自主代理。我们比较了它们的性能和局限性。例如,完全自主的代理在整个基准测试中仅取得了 21% 的成功率 (SR),无法完成 27% 的简单任务,并且只完成了一个现实世界任务。相比之下,辅助代理表现出显著的改进,成功率达到 64%。AutoPenBench 还使我们能够观察到不同的 LLM,如 GPT-4o 或 OpenAI o1,如何影响代理完成任务的能力。我们相信,我们的基准弥合了差距,提供了一个标准且灵活的框架,可以在共同基础上比较渗透测试代理。我们希望通过在 https://github.com/lucagioacchini/auto-pen-bench 上提供该基准,与研究界一起扩展它。
发布时间: 10/7/2024
查看原文
作者: Anyi Rao, Jean-Pe\"ic Chou, Maneesh Agrawala
剧本作者通常依靠他们的心理可视化,通过想象来看到、感受和体验他们正在创作的场景,从而创造出鲜活的故事。除了心理可视化,他们经常参考现有的电影图像或场景,并分析视觉元素以营造特定的情绪或氛围。在本文中,我们开发了 ScriptViz,它基于大型电影数据库为编剧过程提供外部可视化。它根据剧本的文本和对话从大型电影数据库中实时检索参考视觉。该工具提供了两种类型的视觉元素控制,使作家能够 1) 使用固定的视觉元素看到他们想要的确切内容,以及 2) 在不确定的元素中看到变化。对 15 位编剧的评估表明,ScriptViz 能够为编剧提供一致且多样化的视觉可能性,与他们的剧本紧密一致,并帮助他们创作。
发布时间: 10/7/2024
查看原文
作者: Eneko Osaba, Esther Villar-Rodriguez, Javier Del Ser, Antonio J. Nebro, Daniel Molina, Antonio LaTorre, Ponnuthurai N. Suganthan, Carlos A. Coello Coello, Francisco Herrera
近年来,现实世界优化问题的表述及其通过元启发式算法的有效解决已成为无数研究的催化剂。尽管在元启发式算法的设计和使用方面取得了数十年的历史性进展,但在新技术成果的可理解性、算法设计正直性和性能可验证性方面仍存在巨大困难。一个明显的例子来自处理用于优化的元启发式算法的著作的稀缺可复制性,这通常由于方法的呈现中存在模糊性和缺乏细节而难以实现。此外,在许多情况下,其报告结果的统计显著性存在疑问。本工作旨在为读者提供一项关于在进行关于用于优化的元启发式方法的研究时应采用的良好实践的建议,以提供科学严谨性、价值和透明度。为此,我们介绍了一个逐步方法,涵盖解决该科学领域时应遵循的每个研究阶段。具体而言,将讨论一些经常被忽视但至关重要的方面和有用的建议,这些方面和建议涉及问题的表述、解决方案编码、搜索算子的实现、评估指标、实验设计以及现实世界性能方面的考虑等。最后,我们将概述新开发的优化元启发式算法在其部署和在现实世界应用环境中的运行中取得成功的关键考虑因素、挑战和研究方向。
发布时间: 10/7/2024
查看原文