arXiv:2504.03643v1 交叉类型: cross
摘要:在持续情感识别和视频 Highlights 检测等应用中,自动和高质量的情感标注是至关重要的。然而,通过手动人类标注来实现这一点具有挑战性。受到神经科学中使用的大规模跨被试相关性(Inter-Subject Correlation, ISC)的启发,本研究提出了一种新的基于脑电图(Electroencephalography, EEG)的 ISC 方法,该方法利用单导电极和基于特征的动态方法。我们的贡献有三个方面。首先,我们重新识别了两种适用于情感分类的有效情感特征:一阶差分(First-order Difference, FD)和差异熵(Differential Entropy, DE)。其次,通过整体相关性分析,我们展示了电极之间的异质同步性能。这种性能与先前研究中建立的神经情感模式一致,从而验证了我们方法的有效性。第三,通过采用滑动窗口相关技术,我们展示了在每个分析片段中的各种特征或关键电极上,动态 ISC 显著的一致性。我们的研究结果表明,该方法在捕捉由激发性电影刺激引起的个体间一致的动态共享神经同步方面具有可靠性。这突显了我们方法作为持续人类情感唤醒指标的潜力。这项研究对情感计算和更广泛的神经科学领域的发展具有重要意义,表明了一种简化有效的情感分析工具在实际应用中的潜在用途。
arXiv:2503.22688v1 交叉类型
摘要:大规模语言模型(LLMs)在代码生成任务中展现了卓越的性能,并已成为开发人员不可或缺的编程助手。然而,现有的代码生成基准主要评估LLMs在单轮交互中生成的代码的功能正确性,这在多轮交互的场景下对它们生成严格遵循用户指令代码的能力提供了有限的见解。在本文中,我们介绍了\bench,这是一个用于评估LLMs在交互式代码生成中遵循指令能力的基准。具体而言,\bench 包含九种可验证的指令,这些指令与实际软件开发需求对齐,并且可以通过指定的测试用例独立且客观地进行验证,从而方便评估多轮交互中的遵循指令能力。我们使用\bench评估了九种突出的LLMs,实验结果揭示了它们的基本编程能力和遵循指令能力之间存在显著差异,尤其是在任务复杂性、上下文长度和对话轮次增加时更为明显。
arXiv:2409.18219v2 命中类型: 交叉学科
摘要:随着网络的不断扩展和相互连接变得更加紧密,对新颖恶意软件检测方法的需求也变得更加明显。传统的安全措施越来越难以应对现代网络攻击的复杂性。深度包检测(DPI)在增强网络安全方面发挥了关键作用,提供了超越常规监控技术的深入分析网络流量的能力。DPI 不仅检查网络包的元数据,还将深入研究包载荷中实际承载的内容,提供网络中流动数据的全面视图。尽管将高级深度学习技术与DPI 相结合引入了现代恶意软件检测和网络流量分类方法,但最先进的监督学习方法受限于其对大量标注数据的依赖及其无法将新颖的未见过的恶意软件威胁泛化的能力。为了解决这些限制,本文利用了自监督学习(SSL)和少样本学习(FSL)的最新进展。我们提出了一种自监督方法,通过SSL训练一个转换器,从大量未标注的数据中学习包内容(包括载荷)的表示,通过掩蔽部分包来实现,从而获得一个适用于各种下游任务的泛化表示。一旦从包中提取了表示,它们就被用于训练恶意软件检测算法。然后,从转换器获得的表示用于使用少样本学习方法将恶意软件检测器适应于新的攻击类型。我们的实验结果表明,我们的方法在UNSW-NB15数据集上实现了高达94.76%的分类准确率,在CIC-IoT23数据集上实现了83.25%的分类准确率。
arXiv:2504.05299v1 宣布类型: 新
摘要: 大型视觉-语言模型(VLMs)表现出色,但需要大量的计算资源,这限制了它们在移动和边缘设备上的部署。较小的VLMs通常会采用大型模型的设计选择,例如广泛的图像标记化,导致GPU内存使用效率低下,制约了它们在设备端应用程序中的实际应用。
我们引入了SmolVLM,这是一个专门针对资源高效推断设计的紧凑型多模态模型系列。我们系统地探索了有利于低计算开销的架构配置、标记化策略和数据采集优化。通过这种方式,我们确定了在图像和视频任务中实现显著性能提升的关键设计选择,并且内存占用尽可能小。
我们最小的模型SmolVLM-256M,在推理过程中使用不到1GB的GPU内存,尽管比300倍大的Idefics-80B模型规模小18个月,但在图像和视频任务中仍表现出色。我们最大的模型,参数量为2.2B,其GPU内存使用量是现有最先进的VLMs的两倍,但仍能与之匹敌。SmolVLM模型不仅限于静态图像,还展示了强大的视频理解能力。
我们的实验结果强调,战略性地优化架构设计、采取激进但高效的标记化策略以及精心策划的训练数据显著提升了多模态性能,从而使得在规模小得多的情况下实现实际、节能的部署成为可能。
arXiv:2504.05278v1 公告类型: 新
摘要:本研究探讨了在医疗应用中大型语言模型(LLMs)中的不确定性量化,强调了技术和哲学层面的影响。随着LLMs在临床决策中的作用增加,准确传达不确定性对于确保可靠、安全和伦理的人工智能辅助医疗至关重要。我们的研究将不确定性视为知识的必要组成部分,而非障碍,邀请一种动态和反思性的方法来设计AI。通过结合贝叶斯推断、深度集成和蒙特卡洛丢弃等先进的概率方法,以及计算预测性和语义熵的语言分析,我们提出了一种综合框架,以管理先验和偶然不确定性。该框架包括代理建模以解决专有API的局限性,多源数据集成以提供更好的上下文,并通过持续学习和元学习进行动态校准。通过不确定性地图和信心度量嵌入可解释性,以支持用户信任和临床解释能力。我们的方法支持与负责任和反思性AI原则相一致的透明和伦理决策。从哲学上讲,我们提倡接受可控的模糊性,而不是追求绝对的可预测性,承认医学知识的内在临时性。
arXiv:2504.05259v1 安全类型:新
摘要:随着语言模型(LLM)代理越来越能够自主地造成危害,AI开发者将依赖越来越复杂的控制措施来防止可能的不一致代理造成危害。AI开发者可以通过运行控制评估来证明他们的控制措施是足够的:一种测试练习,在这种练习中,红队会生成试图规避控制措施的代理。为了确保控制评估能准确捕捉到不一致性风险,赋予红队的权限应根据要部署在控制措施下的代理的能力特征进行调整。
在这篇论文中,我们提出了一种系统化的框架,用于根据不断发展的AI能力调整红队的权限。我们不假定代理总是执行人类所知的最佳攻击策略,而是展示了如何根据代理的实际能力特征来指导可控评估,从而达到更实际和成本效益更高的控制措施。我们通过考虑五个逐步进阶能力的虚构模型(M1-M5)来说明这一框架,并定义了五个不同的AI控制级别(ACLs)。对于每个ACL,我们提供了控制评估、控制措施和安全案例的示例规则。最后,我们解释了为什么为超智能LLM代理构建有说服力的AI控制安全案例需要研究突破,强调我们最终可能需要采取其他方法来降低不一致性风险。
arXiv:2504.05231v1 宣布类型: 新
摘要: 本文描述了一个多层次多模态管道,用于在整个欧洲进行高分辨率生物多样性分布 Mapping,该管道整合了物种分布建模、生物多样性指标和生境分类。提出的管道首先使用一种深度物种分布模型 (deep-SDM) 预测物种组成,该模型在分辨率 50x50m 的遥感数据、气候时间序列和物种分布数据上进行训练。这些预测随后用于生成生物多样性指标图,并使用 Pl@ntBERT 进行生境分类,Pl@ntBERT 是一种基于转换器的大型语言模型,专为物种到生境 Mapping 设计。通过这种方法,产生了大陆规模的物种分布图、生物多样性指标图和生境图,提供了精细的生态见解。与传统方法不同,该框架能够联合建模物种间的依赖关系、使用异质存在缺失数据进行有偏差意识的训练,并从多源遥感输入中进行大规模推断。
arXiv:2504.05229v1 说明类型: 新
摘要:可解释的自动事实核查(AFC)领域的目标是通过提供清晰易懂的解释来增强自动化事实验证系统的透明度和可信度。然而,这些解释的有效性取决于它们的实际可操作性——即它们的能力,能够赋能用户做出知情决策并减少误导信息。尽管实际可操作性是高质量解释的一个关键属性,但此前没有任何研究提出了专门评价这一属性的方法。本文介绍了一种名为FinGrAct的细粒度评估框架,它可以访问互联网,并且专门设计用于通过明确的标准和评估数据集来评估AFC解释的实际可操作性。FinGrAct超越了当前最先进的(SOTA)评估方法,在皮尔逊和肯德尔相关性上达到与人类判断最高的水平,同时显示出最低的以自我为中心的偏见,从而使其成为一种更稳健的实际可操作性评估方法。
arXiv:2504.05163v1 提取类型: 新增
摘要: 基于知识图谱的检索增强生成(KG-RAG)是一种通过从知识图谱(KGs)中检索相关信息来增强大型语言模型(LLM)推理的技术,在回答问题(QA)等任务中的应用。然而,现实世界中的知识图谱往往是不完整的,这意味着回答问题所需的必要信息可能缺失。现有的基准测试并没有充分捕捉到知识图谱不完整性对KG-RAG性能的影响。在本文中,我们通过使用不同方法移除三元组并分析其结果,系统地评估了在不完整知识图谱下的KG-RAG方法。我们证明了KG-RAG方法对知识图谱不完整性敏感,这突显了在实际场景中需要更具鲁棒性的方法。
arXiv:2504.05118v1 宣告类型: 新
摘要: 我们提出了一种基于价值的增强近端策略优化框架VAPO,该框架专为价值范式下的推理模型设计。VAPO在AIME 2024数据集上取得了最先进的得分$\mathbf{60.4}$。在相同的实验设置下,VAPO在与此前报告的DeepSeek-R1-Zero-Qwen-32B和DAPO的直接比较中,性能高出10分以上。VAPO的训练过程表现出色且高效,在仅仅5,000步内就达到了最先进的性能。此外,多次独立运行中没有出现训练崩溃的情况,这突显了其可靠性。这项研究探讨了在基于价值的强化学习框架中使用长链思维推理(long-CoT)。我们指出了基于价值方法面临的三个关键挑战:价值模型偏差、序列长度的异质性以及奖励信号的稀疏性。通过系统设计,VAPO提供了一种综合解决方案,有效地缓解了这些挑战,从而在长链思维推理任务中实现了更好的性能。