arXiv:2504.21214v2 Announce Type: replace-cross
摘要:本文探讨了在主动脑-机接口(BCI)系统中无声语音解码的问题,这些系统提供了比传统BCI应用更自然和灵活的通信方式。我们收集了一个新的无声语音数据集,包含了超过120小时的脑电图(EEG)记录,捕捉了用于语言模型预训练和解码的24个常用英语单词。借鉴最近利用自监督范式预训练大模型以提升EEG分类性能的成功经验,我们提出了大型脑语言模型(LBLM),该模型用于主动BCI中的无声语音解码。为预训练LBLM,我们提出了未来频谱-时间预测(FSTP)预训练范式,以从未标记的EEG数据中学习有效的表示。与现有主要遵循遮盖重建范式的EEG预训练方法不同,我们提出的FSTP方法利用了时间域和频域的自回归建模,以捕捉EEG信号中的时间和频谱依赖性。预训练后,我们在下游任务中微调我们的LBLM,包括词级和语义级分类。广泛实验表明,LBLM相较全监督和预训练基线模型具有显著的性能增益。例如,在困难的跨会话设定中,我们的模型在语义级分类上的准确率为47.0%,在词级分类上的准确率为39.6%,分别比基线方法高5.4%和7.3%。我们的研究推进了主动BCI系统中无声语音解码的发展,提供了创新的EEG语言模型预训练解决方案,并为基本研究提供了新的数据集。
arXiv:2504.20903v2 宣布类型: 替换-交叉
摘要:我们开发了一个基于代理的仿真,以形式化AI与人类的合作,并且作为任务结构的函数,提出了一个可推广的战略决策框架,应用于组织中。我们区分基于启发式的手工适应和基于规则的AI搜索,通过使用NK模型,对模块化(平行)和序列化(相互依赖)任务的交互进行了建模。研究结果表明,在模块化任务中,除非人类的专业知识非常高超,且AI搜索空间要么聚焦于狭窄领域要么极其广泛,AI经常取代人类,提供更高的收益。在序列化任务中,有趣的合作关系出现了。当专家人类启动搜索,然后AI进行细化时,整体性能得到最大化。相反,当AI引导时,人类过多地基于启发式进行细化可能会降低收益。我们还展示了即使是“幻觉”型的AI——缺乏记忆和结构——在增补低能力人类时也可以通过帮助其跳出局部最优解而改善结果。这些结果揭示了一个稳健的推论:AI与人类合作的效果较少取决于情境或行业,更多取决于底层任务结构。通过将任务分解作为核心分析单元,我们的模型为涉及人类和有自主权的AI的战略决策提供了可转移的视角,适用于各种组织环境。
arXiv:2504.20834v2 宣传类型: 替换-交叉
摘要:我们提出了针对在严格内存和计算限制下大型语言模型(LLMs)推理的强化学习(RL)策略,特别关注与LoRA微调的兼容性。我们设计了不依赖于完整的序列更新或单独的评论网络的方法,而是针对一小部分具有信息性的输出令牌进行操作,以减少内存使用并稳定训练过程。我们引入了S-GRPO,这是一种组相对策略优化的随机变体,以及T-SPMO,一种用于细粒度信用分配的令牌级别前缀匹配方法。将这些方法应用于Qwen2-1.5B,我们的方法将SVAMP基准上的准确率从46%提高到超过70%,并在多位数乘法方面表现出强大的性能。令人惊讶的是,LoRA下的全令牌GRPO并未超过基线模型,这表明在低参数训练环境中,选择性的令牌级别优化可能作为一种隐式的正则化器起作用。
arXiv:2504.20348v2 通知类型: replace-cross
摘要: 大型语言模型(LLMs)使边缘人工智能系统能够实时调用函数,但这也导致了显著的计算开销,进而产生了高昂的能源消耗和碳排放。现有方法虽然优化了性能,但却忽视了可持续性,使其在能源受限的环境中效率低下。我们提出了CarbonCall,这是一种具有可持续性意识的函数调用框架,集成了动态工具选择、碳意识执行和量化LLM适应。CarbonCall根据实时碳强度预测调整功率阈值,并在功率限制条件下切换模型变体以维持高每秒令牌吞吐量。在NVIDIA Jetson AGX Orin上的实验表明,CarbonCall能够将碳排放减少52%,功耗减少30%,执行时间减少30%,同时还保持了高效率。
arXiv:2504.20304v2 更新类型: 替换-交叉
摘要: CHILDES 是一个广泛使用的儿童及其面向儿童的言语的转录资源。本文介绍了 UD-English-CHILDES,这是第一个基于之前依赖注释的 CHILDES 数据并采用一致和统一注释准则的通用依赖树库。我们的语料库汇聚了来自 11 名儿童及其照顾者的注释,总计超过 48,000 个句子。我们在 UD v2 框架下验证了现有金标准注释,并提供了额外的 100 万个银标准句子,为计算和语言研究提供了一致的资源。
arXiv:2504.20117v2 宣告类型: replace-cross
摘要:本文介绍了一种名为 ResearchCodeAgent 的新型多智能体系统,该系统利用大型语言模型(LLMs)智能体来自动化机器学习文献中描述的研究方法的编码过程。该系统填补了高级研究概念与其实际实施之间的空白,允许研究人员自动生成基准测试或构建现有方法的代码,这些方法在文献中有部分或完整的起始代码可用。ResearchCodeAgent 采用灵活的智能体架构和全面的动作集,使其实现能够适应研究环境的上下文交互。系统集成了动态规划机制,利用短期和长期记忆进行迭代适应。我们在三个具有不同任务复杂性的不同机器学习任务上评估了 ResearchCodeAgent:数据增强、优化和数据批处理。我们的结果表明该系统的有效性和通用性,有 46.9% 的生成代码是高质量且无错误的,25% 的代码在基线实现上展示了性能改进。实证分析显示,与手动实现相比,平均减少了 57.9% 的编码时间。我们观察到在更复杂的任务上获得更高的收益。ResearchCodeAgent 代表了自动化研究实施过程的重要一步,有可能加速机器学习研究的步伐。
arXiv:2504.19956v2 宣布类型: 替换-交叉
摘要:随着生成式人工智能(GenAI)代理在企业环境中的应用越来越普遍,它们带来的安全挑战与传统系统不同。这些代理不仅仅是语言模型,它们还能够进行推理、记忆和行动,通常在极低的人类监督下进行。本文引入了一个专为GenAI代理定制的全面威胁模型,重点关注它们的自主性、持久性内存访问、复杂推理和工具集成如何创造新的风险。这项研究工作识别了9种主要威胁,并将它们组织在五大关键领域中:认知架构漏洞、时间持久性威胁、操作执行漏洞、信任边界违规以及治理规避。这些威胁不仅是理论上的,还带来了实际挑战,例如延迟的利用能力、跨系统传播、跨系统横向移动以及难以检测的微妙目标偏差。为了解决这些挑战,这项研究工作提出了两个互补的框架:ATFAA - 先进的自主AI代理威胁框架,用于组织代理特有的风险,以及SHIELD,一个提出实际缓解策略的框架,旨在降低企业暴露风险。虽然这项工作基于现有的LLM和AI安全工作,但焦点在于代理为何与众不同及其为何重要。最终,这项研究认为GenAI代理需要一种新的安全视角。如果我们未能调整我们的威胁模型和防御措施以考虑到它们的独特架构和行为,那么我们可能会把一个强大的新工具变成对企业的严重负担。
arXiv:2504.19594v2 通知类型: 替换-交叉
摘要:Telegram 已成为政治对话和替代媒体的主要平台。然而,其缺乏监督使得错误信息、极端主义和毒性信息得以传播。尽管之前的研究重点关注这些特定现象或主题,但这些现象多数是独立研究的,有关Telegram生态系统更广泛的理解仍然缺失。在这项工作中,我们通过利用2023年收集的13,151个聊天中的1.86亿条消息的数据集,填补了这一空白。我们运用网络分析、大型语言模型和毒性检测工具,研究了不同主题社区的形成、在意识形态上的对齐及其在意大利文化背景下的有害言论。结果表明,不同主题和意识形态之间存在强烈的同质性。我们还发现了一些混合意识形态的社区,在特定的地理政治问题上,左翼和右翼言论并存。超越政治分析,我们发现毒性现象,并不仅限于少数极端对话群组,而是在高度毒性的社区中广泛正常化。此外,我们发现,意大利人主要针对黑人、犹太人和同性恋人士发表言论,这与讨论主题无关。最后,我们揭露了一种国内敌对的趋势,即意大利人经常攻击其他意大利人,反映了可以追溯到旧的历史分歧的区域文化和区域内部文化冲突。本研究提供了意大利Telegram生态系统的首次大规模映射,提供了有关意识形态互动、网络暴力及其仇恨目标的见解,为Telegram上不同文化与语言背景下的网络毒性研究做出了贡献。
arXiv:2504.19267v2 通知类型: 替换-跨领域
摘要:视觉讲故事是一个结合计算机视觉和自然语言处理的跨学科领域,用于从图像序列中生成连贯的故事叙述。本文提出了一种新方法,利用最新的多模态模型进展,特别是适应基于变换器的架构和大型多模态模型,以解决视觉讲故事任务。依托大规模视觉讲故事(VIST)数据集,我们的VIST-GPT模型生成了视觉上合理的、上下文适配的叙述。我们针对传统的评估指标(如BLEU、METEOR、ROUGE和CIDEr),这些指标不适用于此任务,进行了改进。相反,我们使用了RoViST和GROOVIST这两种新颖的参考自免费指标,旨在评估视觉讲故事,重点关注视觉定位、连贯性和非冗余性。这些指标提供了对叙述质量更细致的评估,与人类判断高度一致。
arXiv:2504.18267v2 宣告类型: replace-cross
摘要:本文研究了神经运算子在学习霍金斯模型解时的局限性,该模型是用于人群动力学的一阶双曲守恒律系统。该模型将表示行人密度的福克-计划克方程与广义梯度型(非线性型)方程耦合。霍金斯模型属于一类非线性双曲系统,这些系统通常表现出复杂解结构,包括激波和不连续性。在本研究中,我们评估了三种最先进的神经运算子(傅里叶神经运算子、小波神经运算子和多小波神经运算子)在各种具有挑战性的场景中的性能。具体来说,我们考虑了(1)不连续和高斯初始条件以及(2)多种边界条件,并考察了不同数值方案的影响。
我们的结果显示,在初始条件中不连续性较少的简单场景中,这些神经运算子表现出色,但在具有多个初始不连续性和动态边界条件的复杂场景中,即使是在针对此类复杂样本进行了专门训练的情况下,它们也难以应对。预测的解往往显得更加平滑,导致总变差减少和重要物理特征丢失。这种平滑行为与Daganzo(1995)讨论的问题类似,在其中分析了引入人工扩散的模型无法捕捉双曲系统中的激波等问题。这些结果表明,当前的神经运算子架构可能会引入意想不到的正则化效应,从而限制它们捕捉由不连续性控制的传输动力学的能力。此外,这些方法在交通应用中推广时,由于需要保留激波,这也会引起担忧。