arXiv 论文列表

作者: Einari Vaaras, Manu Airaksinen, Okko R\"as\"anen

arXiv:2411.10087v3 公告类型: replace-cross 摘要：自监督学习（SSL）是一种以数据内在结构为指导的数据驱动的学习方法。与依赖外部标签的监督学习不同，SSL 使用数据本身的固有特性来生成其自身的监督信号。然而，SSL 方法的一个常见问题是表示崩溃，即模型输出一个不变的输入特征表示。这一问题妨碍了 SSL 方法在新数据模态中的潜在应用，因为它寻求避免表示崩溃浪费了研究者们的时间和精力。本文介绍了一种名为 Masked Latents from Predicted Functionals（PFML）的新颖 SSL 算法，用于时间序列数据。PFML 不直接预测被遮掩的输入信号或其潜在表示，而是通过给定未遮掩的潜在表示序列来预测输入信号对应的被遮掩嵌入的统计函数。该算法旨在避免表示崩溃，使其可以直接应用于不同的时间序列数据领域，例如临床数据中新的传感器模态。我们通过三种不同数据模态的复杂现实分类任务展示了 PFML 的有效性：从多传感器惯性测量单元数据中分类婴儿的姿态和动作，从语音数据中识别情绪，从 EEG 数据中分类睡眠阶段。结果表明，PFML 在概念上优于另一种类似的概念 SSL 方法，同时也优于基于对比学习的 SSL 方法。此外，PFML 与当前最先进的 SSL 方法相当，但更具概念上的简洁性，且不会受到表示崩溃的影响。

发布时间: 4/9/2025

查看原文

过去十年间政治 misinformation 的特征

作者: Erik J Schlicht

arXiv:2411.06122v2 宣告类型：替换-交叉摘要：尽管虚假信息倾向于在网络上传播，但它可能会产生严重的现实后果。为了开发能够自动检测和减轻虚假信息影响的工具，研究人员必须利用能够适应传播方式（文本、图像和视频）、来源和虚假信息内容的算法。然而，这些特性往往随时间动态变化，使得开发出稳健的算法来对抗虚假信息传播变得具有挑战性。因此，本文利用自然语言处理技术，在十二年的时间跨度内寻找政治性虚假信息的共同特征。结果显示，近年来虚假信息的数量有显著增加，并且越来越多地从主要传播方式为文本和图像的来源（如Facebook和Instagram）分享。尽管包含虚假信息的视频分享来源（如TikTok）也开始增加。此外，研究发现，传播虚假信息的声明比准确信息更具有负面情绪。然而，无论准确信息还是不准确信息都表现出情绪的下降趋势，表明政治声明的总体情绪在时间上变得更加消极。最后，发现了多个跨年反复出现的虚假信息类别，这可能意味着人们倾向于围绕他们害怕或无法理解的信息（如科学和医学、犯罪、宗教），直接影响他们（如政策、选举诚信、经济）或在他们日常生活中具有重要性的公众人物分享不准确的声明。希望这些建议能够帮助研究人员开发出在时间上不变且能够检测和减轻跨时间虚假信息的算法。

发布时间: 4/9/2025

查看原文

Fox-1: 开放的小型语言模型 for 云端和边缘

作者: Zijian Hu, Jipeng Zhang, Rui Pan, Zhaozhuo Xu, Shanshan Han, Han Jin, Alay Dilipbhai Shah, Dimitris Stripelis, Yuhang Yao, Salman Avestimehr, Tong Zhang, Chaoyang He

arXiv:2411.05281v3 宣布类型: replace-cross 摘要：我们介绍了Fox-1，这是一个小型语言模型（SLM）系列，包括Fox-1-1.6B和Fox-1-1.6B-Instruct-v0.1。这些模型是在3万亿个网页抓取文档数据上进行预训练的，并在50亿个指令跟随和多轮对话数据上进行微调。为了提高预训练效率，Fox-1-1.6B模型引入了一种新的三阶段数据课程，跨越所有训练数据，序列长度为2K-8K。在架构设计上，Fox-1配备了更深的层结构、扩展的词汇表，并利用了分组查询注意（GQA），提供了与其他SLM相比更高效且性能更好的架构。Fox-1在各种基准测试中达到或优于StableLM-2-1.6B、Gemma-2B、Qwen1.5-1.8B和OpenELM1.1B的性能，具有竞争力的推理速度和吞吐量。模型权重已根据Apache 2.0许可证发布，我们旨在推动大型语言模型的民主化，并使其对整个开源社区完全开放。

发布时间: 4/9/2025

查看原文

KnowCoder-X：通过代码提升多语言信息提取

作者: Yuxin Zuo, Wenxuan Jiang, Wenxuan Liu, Zixuan Li, Long Bai, Hanbin Wang, Yutao Zeng, Xiaolong Jin, Jiafeng Guo, Xueqi Cheng

arXiv:2411.04794v2 Announce Type: replace-cross 摘要：实证证据表明，大模型（LLMs）表现出自发的跨语言对齐。然而，尽管大模型在信息抽取（IE）方面表现出色的跨语言对齐，不同语言之间仍然存在显著的不平衡，这表明存在潜在的缺陷。为了解决这一问题，我们提出了一种名为KnowCoder-X的强大代码大模型，具备先进的跨语言和多语言能力，用于通用信息抽取。首先，它使用Python类标准化了多语言模式的表示，确保不同语言之间的一致本体论。然后，跨语言的IE被形式化为一个统一的代码生成任务。其次，我们通过我们在提出的翻译实例预测任务上进行的跨语言信息抽取指令调整来增强模型的跨语言转移能力。在这个阶段，我们还构建了一个高质量且多样化的双语信息抽取平行数据集ParallelNER，包含257,000个样本，该数据集由我们提出的稳健的三阶段管道合成，并通过人工注释确保质量。尽管没有在29种未见过的语言上进行训练，KnowCoder-X仍超过了ChatGPT的30.17%和现有最佳技术水平（SoTA）的20.03%，从而展示了卓越的跨语言信息抽取能力。在各种设置下，64个中文和英文信息抽取基准测试的全面评估表明，KnowCoder-X显著增强了跨语言信息抽取的转移性。我们的代码和数据集可在以下链接获取：https://github.com/ICT-GoKnow/KnowCoder

发布时间: 4/9/2025

查看原文

理解LLM对齐中各层的重要性

作者: Guangyuan Shi, Zexin Lu, Xiaoyu Dong, Wenlong Zhang, Xuanyu Zhang, Yujie Feng, Xiao-Ming Wu

arXiv:2410.17875v3 宣告类型: 替换-交叉摘要：通过监督微调对大型语言模型（LLMs）进行对齐是将它们定制到特定应用的关键。最近的研究表明，对齐主要调整模型的呈现风格而非其基础知识，这意味着只有模型的某些部分受到显著影响。为了在微观层面上揭示对齐如何影响模型行为，我们提出了一种方法来识别哪些层在对齐过程中最为关键。我们的方法名为ILA，涉及在对齐过程中为每个层的参数变化学习一个二元掩码，作为层重要性的指示器。实验结果表明，尽管所使用的对齐数据集存在巨大差异，但由ILA识别的重要层几乎有90%的重叠，突显了LLM对齐中的基本模式。结果还表明，冻结非关键层可以提高整体模型性能，而选择性地调整最关键层则能在少量性能损失的情况下显著提高微调效率。最后，我们讨论了这些发现如何从LLM对齐扩展到推理。

发布时间: 4/9/2025

查看原文

AUTALIC：一个反自闭症 ableist 语言的情境数据集

作者: Naba Rizvi, Harper Strickland, Daniel Gitelman, Tristan Cooper, Alexis Morales-Flores, Michael Golden, Aekta Kallepalli, Akshat Alurkar, Haaset Owens, Saleha Ahmedi, Isha Khirwadkar, Imani Munyaka, Nedjma Ousidhoum

arXiv:2410.16520v3 宣布类型: 替换交叉摘要：随着我们对自闭症和残疾主义的理解不断加深，我们对针对自闭症人士的残疾主义语言的理解也在不断加深。这种语言在自然语言处理（NLP）研究中构成了一个重大挑战，因其微妙性和依存于上下文的特性。然而，检测反自闭症的残疾主义语言仍然被广泛忽视，现有的NLP工具往往难以捕捉其细微的表达。我们提出了AUTALIC，这是第一个专门用于检测情境中的反自闭症残疾主义语言的基准数据集，填补了该领域的空白。该数据集由2,400条与自闭症相关的句子组成，这些句子是从Reddit收集的，并附有上下文信息，且由神经多样性背景的训练专家进行标注。我们全面的评估显示，当前的语言模型，包括最先进的大规模预训练语言模型（LLMs），在可靠地识别反自闭症残疾主义和与人类判断对齐方面存在困难，凸显了它们在这一领域的能力限制。我们公开发布了AUTALIC以及单独的标注信息，这些标注信息对研究残疾主义、神经多样性以及研究注释任务中的分歧的研究人员来说是一个宝贵资源。该数据集为开发更包容和情境感知的NLP系统迈出了关键一步，这些系统更好地反映了多元化的视角。

发布时间: 4/9/2025

查看原文

计算约束的数据选择

作者: Junjie Oscar Yin, Alexander M. Rush

arXiv:2410.16208v4 宣布类型: 替换-交叉摘要：数据选择可以减少训练LLMs所需的训练数据量；然而，数据选择的有效性与其计算量成正比。受计算受限的微调实践挑战的驱动，我们考虑了既预算了数据选择成本又预算了训练成本的设置。我们首先通过成本意识效用函数形式化了数据选择问题，并将数据选择问题建模为初始选择成本与训练增益之间的权衡。我们在多个任务上进行了全面的实验，通过调整微调令牌数量、模型大小以及数据选择计算预算来变化计算预算。有趣的是，我们发现许多强大的数据选择方法几乎从未在计算效率上占优，且更便宜的数据选择替代方案在理论和实验上都占优。对于计算效率的训练，我们发现困惑度数据选择和梯度数据选择所需的训练到选择模型大小的比例分别为5倍和10倍。

发布时间: 4/9/2025

查看原文

在大语言模型中预测下游性能的标度定律

作者: Yangyi Chen, Binxuan Huang, Yifan Gao, Zhengyang Wang, Jingfeng Yang, Heng Ji

arXiv:2410.08527v2 宣告类型: 替换-交叉摘要：在训练之前精确估计大型语言模型（LLMs）的下游性能对于指导其开发过程至关重要。缩放定律分析利用一系列显著较小的采样语言模型（LMs）的统计信息来预测目标LLM的性能。对于下游性能预测而言，关键挑战在于LLMs中超出任务特定计算阈值的涌现能力。在这项工作中，我们聚焦于预训练损失作为更计算高效的性能估计指标。我们的两阶段方法FLP分为两个步骤：首先，使用一系列完全收敛的采样模型估计一个映射计算资源（例如FLOPs）到预训练损失的函数；其次，使用中间模型中的涌现性能将预训练损失映射到下游任务性能。在我们的实验中，这种方法FLP可以使用展平到3B的采样LMs准确预测7B和13B参数LLM的性能，误差分别为5%和10%，并且显著优于FLOPs-to-Performance方法。此外，我们提出了FLP-M，这是一种基础方法，用于解决预训练过程中从多个来源整合数据集的实际需求。FLP-M将幂律分析函数扩展为基于数据源的FLOPs预测领域特定的预训练损失，同时采用两层神经网络来建模多个领域特定的损失与下游性能之间的非线性关系。通过使用特定比例训练的3B LLM和一系列较小的采样LMs，FLP-M可以有效地预测3B和7B LLM在多种数据混合下的表现，误差在10%以内，适用于大多数基准测试。

发布时间: 4/9/2025

查看原文

GRAPPA：通过在线代理指导一般化和适应机器人策略

作者: Arthur Bucker, Pablo Ortega-Kral, Jonathan Francis, Jean Oh

arXiv:2410.06473v3 通告类型: replace-cross 摘要：行为克隆和强化学习等机器人学习方法已经在特定环境从人类示范中合成机器人技能方面展示了巨大潜力。然而，这些方法通常需要任务特定的示范或设计复杂的模拟环境，这限制了在未见过的实际环境中开发可泛化和鲁棒的策略的能力。近期用于机器人领域的基础模型（如LLMs、VLMs）的进步显示了从大规模互联网数据中理解世界语义的巨大潜力。然而，如何利用这些知识使机器人系统理解世界的基本动力学，泛化策略到不同的任务，以及适应新环境仍是一个开放的挑战。为了缓解这些局限性，我们提出了一种机器人自我指导和自我改进的框架，该框架包含一组角色专业化对话代理，如一个高层次的顾问、一个接地代理、一个监控代理和一个机器人代理。该框架通过迭代地将基准机器人策略与环境中相关的物体关联，并利用视觉和运动线索在线调整政策的动作分布，进入更可取的状态，同时对给定机器人硬件平台的主观配置保持无偏见。我们证明，我们的方法可以在仿真和实际实验中有效引导操作策略，获得显著更高的成功率，无需额外的人类示范或广泛的探索。相关代码和视频可在以下网址获得：https://agenticrobots.github.io

发布时间: 4/9/2025

查看原文

基于群体的社会导航框架与大规模多模态模型

作者: Shangyi Luo, Ji Zhu, Peng Sun, Yuhong Deng, Cunjun Yu, Anxing Xiao, Xueqian Wang

arXiv:2409.18084v2 Announce Type: replace-cross 摘要：随着服务机器人和服务型自主车辆在人类环境中的日益普及，导航系统需要超越简单的目的地到达，而融入社会意识。本文介绍了GSON，这是一种新颖的基于群体的社会导航框架，该框架利用大型多模态模型（LMMs）来增强机器人的社会感知能力。我们的方法使用视觉提示来实现对行人之间社会关系的零样本抽取，并将这些结果与稳健的行人检测和跟踪管道集成，从而克服了LMMs固有的推理速度限制。规划系统包含一个中级规划器，该规划器位于全局路径规划和局部运动规划之间，有效地保持了全局上下文和反应性响应，同时避免了预测的社会群体的干扰。我们通过广泛的现实世界移动机器人导航实验验证了GSON，这些实验涉及排队、交谈和拍照等复杂的社会场景。对比结果表明，我们的系统在最小化社会干扰方面显著优于现有的导航方法，同时在传统的导航指标上保持相似的性能。

发布时间: 4/9/2025

查看原文