arXiv 论文列表

作者: Isabel O. Gallegos, Chen Shani, Weiyan Shi, Federico Bianchi, Izzy Gainsburg, Dan Jurafsky, Robb Willer

arXiv:2504.09865v2 宣传类型：替换交叉摘要：随着生成式人工智能（AI）能够在大规模和高速度下创建和传播信息，理解人们如何感知AI生成的内容变得越来越重要。一个主要的政策建议要求明确标注AI生成的内容，以增加透明度并鼓励对信息进行批判性思考，但先前的研究尚未测试此类标签的效果。为了解决这一缺口，我们在美国多样化样本上进行了一项调查实验（N=1601），向参与者展示了关于几项公共政策（如允许大学支付运动员薪酬）的AI生成信息，随机分配参与者被告知消息是由（a）专家级AI模型、（b）人类政策专家，还是（c）无标签生成的。我们发现，这些信息通常具有说服力，平均影响了参与者对政策的看法达9.74个百分点。然而，尽管94.6%参与了AI和人类标签条件的参与者相信了作者身份标签，标签对参与者对政策态度的改变、对信息准确性的判断，以及分享该信息的意图均没有显著影响。这些模式在参与者特征的各种变化中表现稳健，包括他们对政策的先前知识、对AI的先前经验、政党、教育水平或年龄。综合上述结果表明，虽然作者身份标签可能提高透明度，但它们不太可能显著影响标有标签内容的说服力，这凸显了需要采用替代策略来应对由AI生成信息带来的挑战。

发布时间: 4/23/2025

查看原文

看或回忆：解决多模态LLM在解答可视化问题回答任务中视觉作用的合理性检验

作者: Zhimin Li, Haichao Miao, Xinyuan Yan, Valerio Pascucci, Matthew Berger, Shusen Liu

arXiv:2504.09809v2 Announce Type: replace-cross 摘要：近年来，多模态大型语言模型（MLLM）的发展使语言模型能够联合推理视觉和语言。这使得MLLMs能够感知并回答关于各种设计和任务的数据可视化问题。将MLLMs应用于广泛的可视化任务需要我们适当评估它们的能力，最常见的评估方式是通过衡量模型的可视化推理能力，类似于我们评估人类对可视化的理解（例如，可视化素养）。然而，我们发现，在可视化问答（VisQA）的背景下，MLLMs如何感知和推理可视化与人类如何解决相同问题有着根本的不同。在评估过程中，即使没有提供可视化信息，模型也可以正确回答大量可视化测试问题。无论是否提供选择选项。我们假设语言模型中编码的大量知识使其能够进行事实记忆，这超越了从视觉信号中获取信息的必要性。这提出了一个令人担忧的问题，即当前的VisQA评估可能未能全面捕捉模型的可视化推理能力。为了解决这个问题，我们提出了一种综合的合理性检查框架，该框架结合了基于规则的决策树和合理性检查表，以分离“看见”（视觉处理）和“记忆”（依赖先验知识）的影响。这验证了用于评估的VisQA数据集，指出模型真正“看见”的地方，受到事实记忆的正面或负面影响，或依赖归纳偏见进行问答。我们的研究强调了在利用MLLMs进行未来可视化理解研究时需要仔细考虑。

发布时间: 4/23/2025

查看原文

区域小型故事：使用小型模型比较语言学习和分词器性能

作者: Nirvan Patil, Malhar Abhay Inamdar, Agnivo Gosai, Guruprasad Pathak, Anish Joshi, Aryan Sagavekar, Anish Joshirao, Raj Dandekar, Rajat Dandekar, Sreedath Panat

arXiv:2504.07989v2 通知类型: 交叉替换摘要: 小型语言模型（SLMs）为特定领域提供了LLMs的高效替代方案。2023年的TinyStories研究开发了一个英语言料库，使具有1到1000万个参数的SLMs能够生成连贯的输出。我们的研究扩展了这一框架，通过将原始数据集翻译成印度语，并使用LLMs生成合成数据。我们专注于印地语、马拉地语和孟加拉语，评估SLMs在地区语言处理中的性能，并理解语言复杂性。我们展示了SLMs能够用远少于LLMs的参数高效处理地区语言，提供了基于推理评估分词策略和语言复杂性的补充框架。我们的分析表明，地区语言特定的分词器在印度语言方面优于通用分词器。基于信息论和形态学分析的经验验证提供了Hindi模型在Marathi和Bengali上的更好性能背后的基本理解。此外，我们展示了合成数据集在训练SLMs方面的表现优于翻译内容。相关分析揭示了跨语言模式以及创造性、语法精确性和叙事完整性之间的语言特定关系。这些发现既推进了SLMs在未充分服务语言中的实际应用，也加深了我们对神经语言发展的理论理解。

发布时间: 4/23/2025

查看原文

VocalNet：多令牌预测的语音LLM，实现更快更高质量的生成

作者: Yuhao Wang, Heyang Liu, Ziyang Cheng, Ronghua Wu, Qunshan Gu, Yanfeng Wang, Yu Wang

arXiv:2504.04060v2 宣传类型: 替换-交叉摘要：语音大语言模型（LLMs）已成为语音处理领域的研究重点。我们介绍了VocalNet-1B和VocalNet-8B，这一系列高性能、低延迟的语音LLMs，它们得益于一个为实时语音交互设计的可扩展且模型无关的训练框架。我们贡献的核心在于，首次将多令牌预测（MTP）应用到语音LLMs中。这种方法在标准的下一个令牌预测（NTP）的基础上进行了范式的转变，同时提高了生成速度和质量。受到MTP对语音生成影响的分析及实验比较的启发，我们设计了一种简单有效的MTP实现。实验表明，即使训练数据有限，VocalNet的表现也与主流的Omni LLMs相当，而且显著超越现有的开源语音LLMs。为促进可再现性和社区进步，所有模型权重、推理代码、训练数据和框架实现均已公开发布在https://github.com/SJTU-OmniAgent/VocalNet

发布时间: 4/23/2025

查看原文

SCMPPI：监督对比多模态框架用于预测蛋白质-蛋白质相互作用

作者: Shengrui XU, Tianchi Lu, Zikun Wang, Jixiu Zhai, Jingwan Wang

arXiv:2504.02698v2 宣告类型: replace-cross 摘要：蛋白质-蛋白质相互作用（PPI）预测在解读细胞功能和疾病机制方面起着关键作用。为了应对传统实验方法和现有计算方法在跨模态特征融合和假阴性抑制方面的局限性，我们提出了一种新颖的监督对比多模态框架——SCMPPI。通过有效整合基于序列的特征（AAC、DPC、ESMC-CKSAAP）、网络拓扑（Node2Vec嵌入），并结合增强的对比学习策略和负样本筛选，SCMPPI实现了卓越的预测性能。在八个基准数据集上的广泛实验展示了其最先进的准确率（98.13%）和AUC（99.69%），以及出色的跨物种泛化能力（AUC>99%）。CD9网络、Wnt途径分析和癌症特异性网络的成功应用进一步突显了其在疾病靶点发现方面的潜力，将SCMPPI确立为多模态生物数据解析的强大工具。

发布时间: 4/23/2025

查看原文

一种评估新兴人工智能攻击能力的框架

作者: Mikel Rodriguez, Raluca Ada Popa, Four Flynn, Lihao Liang, Allan Dafoe, Anna Wang

arXiv:2503.11917v3 宣布类型: replace-cross 摘要：随着前沿AI模型的能力不断增强，评估它们可能用于发动网络攻击的可能性对于确保人工智能通用智能（AGI）的安全发展至关重要。当前的网络评估努力往往缺乏系统性地分析攻击阶段，并且缺乏针对目标防御的指导。本项工作引入了一种新的评估框架，通过以下方式解决了这些限制：（1）检查端到端的攻击链，（2）识别AI威胁评估中的不足之处，以及（3）帮助防御者优先考虑有针对性的缓解措施，并利用AI进行对手模拟以进行红队演练。我们的方法将现有的网络攻击链框架适应于AI系统。我们分析了谷歌威胁情报组编目超过12,000个AI参与的网络安全事件实例，从中筛选出七个有代表性的攻击链模式。通过对这些模式进行瓶颈分析，我们指出了最容易受到AI驱动干扰的阶段。然后我们确定并利用针对这些关键阶段的外部开发的网络安全模型评估。我们报告了AI在其特定攻击阶段放大进攻能力的潜力，并提出了优先防御的建议。我们认为，这代表了迄今为止发布的最全面的AI网络安全风险评估框架。

发布时间: 4/23/2025

查看原文

事件中心知识图谱中归因的概念模型

作者: Florian Pl\"otzky, Katarina Britz, Wolf-Tilo Balke

arXiv:2503.03563v2 宣告类型: 替换-交叉摘要：将叙述作为将知识图谱（KGs）中的信息融合到连贯的论证中的手段的研究是最近一个研究领域。在以事件为中心的知识图谱中，叙述特别有用，因为它们提供了一种连接不同现实世界事件并根据众所周知的叙述对它们进行分类的方法。然而，对于争议性事件而言，信息融合中出现了一个问题，即可能存在关于某些事件方面有效性的不同观点，例如，关于参与者在事件中所扮演的角色。在KG中表达这些观点具有挑战性，因为不同观点提供的有争议的信息可能会引入不一致性。因此，大多数KG仅特征化了所包含信息的一种观点，阻碍了叙述信息访问的有效性。本文是对我们原始工作的扩展，并引入了归因，即参数化谓词，允许表示仅在特定观点下有效的事实。为此，我们开发了一个概念模型，允许表示观点依赖性信息。在此基础上，我们通过观点兼容性的概念扩展了模型。基于此，我们深入探讨了模型对信息融合的影响，并提供了额外的文献依据。

发布时间: 4/23/2025

查看原文

学习用于工业过程控制的动作世界模型

作者: Peng Yan, Ahmed Abdulkadir, Gerrit A. Schatte, Giulia Aguzzi, Joonsu Gha, Nikola Pascher, Matthias Rosenthal, Yunlong Gao, Benjamin F. Grewe, Thilo Stadelmann

arXiv:2503.01411v2 宣告类型: 交叉替换摘要：从(被动的)工艺监测转变为积极的工艺控制，高效的人工智能系统必须从非常有限的训练数据中学习复杂系统的行为，形成针对工艺输入和输出的自适应数字孪生，以捕捉行动对工艺世界的影响。我们提出了一种新的方法论，基于学习世界模型，该模型在学习到的潜在表示中解耦工艺参数，从而实现精细控制。通过在联合嵌入预测架构内的对比学习，驱动表示学习的变化可以通过输入的变化预测出来，反之亦然，这有助于解释导致工艺变化的关键因素，从而为保持工艺在操作范围内而提出有效的控制动作铺平道路。通过在塑料注射成型示例中的有效性验证，证明了该方法在提出针对难控制工艺的具体控制动作方面的实际相关性。

发布时间: 4/23/2025

查看原文

基于LLM的上下文驱动Android恶意软件检测与分类

作者: Xingzhi Qian, Xinran Zheng, Yiling He, Shuo Yang, Lorenzo Cavallaro

arXiv:2502.13055v2 宣告类型: replace-cross 摘要：移动应用的迅猛增长已经加剧了Android恶意软件的威胁。尽管存在众多检测方法，但它们常常难以应对不断演变的攻击、数据集偏差以及有限的解释性。大规模语言模型（LLMs）由于其零样本推理和推理能力，提供了一种富有前景的替代方案。然而，将LLMs应用于Android恶意软件检测面临两大关键挑战：（1）Android应用中的大量支持代码，通常跨越数千个类，超过了LLMs的上下文限制，掩盖了良性功能中的恶意行为；（2）Android应用的结构复杂性和相互依赖性超出了LLMs的基于序列的推理能力，导致代码分析碎片化，妨碍了恶意意图的推理。为解决这些挑战，我们提出了LAMD，这是一种实用的上下文驱动框架，以使基于LLM的Android恶意软件检测成为可能。LAMD整合了关键上下文提取，以隔离安全关键代码区域并构建程序结构，然后采用分层代码推理，逐步分析应用行为，从低级指令到高级语义，最终提供预测和解释。设计了一个完善的事实一致性验证机制，以减轻第一层级中的LLM幻觉现象。在实际环境中的评估表明，LAMD优于传统的检测器，并为基于LLM的恶意软件分析在动态威胁环境中提供了可行的基础。

发布时间: 4/23/2025

查看原文

通过强化学习实现稳健运动的可变刚度

作者: Dario Spoljaric, Yashuai Yan, Dongheui Lee

arXiv:2502.09436v2 宣布类型: 替换-交叉摘要：基于强化学习的运动使腿足机器人能够执行高度动态的运动，但通常会伴随关节刚度的手动调参过程耗时。本文介绍了一种新颖的控制范式，它将可变刚度集成到动作空间与关节位置中，从而实现如每条腿刚度（PLS）、每组腿刚度（PLS）和混合关节-腿刚度（HJLS）等分组刚度控制。我们展示了使用每条腿刚度（PLS）分组的可变刚度策略在速度跟踪和推力恢复方面优于基于位置的控制。相比之下，HJLS 在能效方面表现更佳。尽管我们的策略仅在平地上训练，但我们的方法在多种户外地形上展示了稳健的行走行为，表明了从仿真到现实的稳健转移。我们的方法简化了设计过程，消除了每条关节刚度的调参，同时在各种指标上保持了竞争力的结果。

发布时间: 4/23/2025

查看原文