arXiv:2402.01744v4 通知类型: replace-cross
摘要:背景:虚拟筛选(VS)已成为药物发现中不可或缺的工具,使研究人员能够迅速而经济地识别潜在的生物活性分子。近年来,图神经网络(GNNs)因其能使用图基表示法来建模复杂分子结构的能力受到了关注。然而,将解释性方法整合进来,以阐明分子亚结构对生物活性的具体贡献仍是一个重大挑战。这一限制阻碍了预测模型的可解释性和新型药物的理性设计。结果显示:我们针对小分子训练了20个GNN模型,目标是预测这些小分子在20种不同激酶家族蛋白质靶点上的活性。这些分类器在虚拟筛选任务中达到了最先进的性能,在不同靶点上显示了高准确性和鲁棒性。在此基础上,我们实现了层次化Grad-CAM图解释框架(HGE),以深入分析驱动蛋白-配体相互作用稳定化的分子片段。HGE利用原子、环和整个分子层面的Grad-CAM解释,并利用消息传递机制突出显示最相关的化学片段。文献中的实验数据验证了解释器能够识别药物分子模式,并正确地将其注释到已知靶点的能力。结论:我们的方法可能是一种有效的支持,以缩短筛选和候选药物发现过程。对参与结合过程的分子亚结构的详细了解可以帮助计算化学家了解结构优化,并在药物再利用任务中获得洞察。
arXiv:2311.13254v4 宣告类型: replace-cross
摘要: 无监督领域自适应语义分割(UDA-SS)的目标是将来自标注源域的监督转移到无标注目标域。现有的大多数UDA-SS工作通常只考虑图像,而最近的尝试进一步通过建模时间维度来处理视频。尽管这两条研究路线在克服潜在的领域分布转移方面共享主要挑战,但它们的研究是很大程度上独立的,导致碎片化的见解、整体理解的欠缺以及研究思想相互借鉴的机会被错过。这种碎片化导致方法的统一被阻碍,引起在图像和视频域之间存在冗余努力和次优的知识转移。在观察到这一点后,我们认为有必要统一对视频和图像场景中的UDA-SS的研究,从而实现更全面的理解、协同进步和高效的知识分享。为此,我们从通用数据增强的角度探索统一的UDA-SS,提供了一个统一的概念框架,提高了泛化能力,并为进一步的思想互渗提供了可能,最终为该领域的整体进展和实际影响做出了贡献。具体而言,我们提出了一种四方向Mixup(QuadMix)方法,通过特征空间内的四个方向路径解决不同点属性和特征不一致性问题以实现跨域的混合。为了处理视频中的时间偏移,我们结合了基于光流的空间和时间维度的特征聚合,以实现精细粒度的领域对齐。大量的实验结果显示,我们的方法在四个具有挑战性的UDA-SS基准测试中显著优于现有的最新方法。我们的源代码和模型将在 https://github.com/ZHE-SAPI/UDASS 发布。
arXiv:2311.05740v2 宣告类型: 交叉替换
摘要: 编程示范是指合成分解一个程序,使其与用户提供的输入输出示例一致。由于示例往往是用户意图的不足描述,一个好的合成器必须从许多与给定示例集一致的程序中选择用户意图的程序。先前的工作将程序合成框架设为听者(合成程序)与说者(用户选择示例)之间的合作博弈,并表明计算推理论证模型在选择用户意图的程序方面是有效的。然而,这些模型需要在大量程序和示例上进行反事实推理,这在真实的程序空间中是不可行的。在本文中,我们提出了 PraX,一种利用神经网络来减轻这种搜索的新方法。我们通过听者模型与说者模型之间自博弈生成程序和示例的配对样本,并使用推理论证选择具有信息性的训练示例。然后,我们使用这些信息性的数据集来训练模型,以提高合成器在不需要人类监督的情况下对用户提供的示例进行澄清的能力。我们对从示例字符串合成正规表达式这一具有挑战性的任务进行了验证,并发现我们的方法(1)比没有选择推理论证示例训练的模型高出23%(相对增加51%)(2)尽管在训练中未使用任何人类数据,在推理论证示例数据集上与监督学习的性能相当。
arXiv:2309.17335v4 Announce Type: replace-cross
摘要:我们介绍了异步图生成器(AGG),这是一种用于多通道时间序列的缺失值填充和预测的新型图注意力网络。AGG 不依赖于循环组件或对时空规律性的假设,而是通过可学习嵌入直接将测量值、时间戳和特定通道的特征编码到节点中。通过注意力机制,这些嵌入可以发现兴趣变量之间富有表现力的关系,这种关系以同质图的形式存在。经过训练后,AGG 通过条件注意力生成进行缺失值填补,即在给定时间戳和通道指定的情况下创建新节点。我们提出的 AGG 与文献中相关方法进行了比较,并从数据增强的角度分析了其性能。我们的实验表明,AGG 在基准数据集“北京空气质量”、“PhysioNet重症监护 2012”和“UCI 定位”上的时间序列填补、分类和预测任务中达到了最佳效果,超过了其他近期的基于注意力的网络。
arXiv:2207.14000v4 通知类型: replace-cross
摘要:将深度学习与符号逻辑推理相结合旨在充分利用两个领域各自的成功,并且已经引起了越来越多的关注。受 DeepLogic 的启发,一个端到端模型被训练用于在逻辑程序上进行推理,我们介绍了 IMA-GloVe-GA,这是一种用于多步自然语言表达推理的迭代神经推理网络。在我们的模型中,推理是基于具有门控注意力机制的 RNN 的迭代记忆神经网络进行的。我们在三个数据集上评估了 IMA-GloVe-GA:PARARULES、CONCEPTRULES V1 和 CONCEPTRULES V2。实验结果表明,带有门控注意力机制的 DeepLogic 的测试准确性高于 DeepLogic 及其他 RNN 基准模型。我们的模型在规则被打乱的情况下,比 RoBERTa-Large 在分布外泛化方面表现更好。此外,为了解决当前多步推理数据集中推理深度分布不平衡的问题,我们开发了 PARARULE-Plus,一个包含更多需要更深推理步骤的示例的大数据集。实验结果表明,添加 PARARULE-Plus 可以提高模型在需要更深推理步骤的示例上的性能。源代码和数据可在 https://github.com/Strong-AI-Lab/Multi-Step-Deductive-Reasoning-Over-Natural-Language 获取。
arXiv:2504.11543v2 Announce Type: replace
摘要:我们介绍了REAL,这是一个基准和框架,用于在真实世界网站的确定性模拟中进行多轮代理评估。REAL包括了电子商务、旅行、通讯和专业社交等领域广泛使用的11个网站的高保真、确定性复制品。我们还发布了一个基准,包含112项实用任务,这些任务与日常复杂的用户交互相似,要求准确的信息检索和状态改变的操作。所有交互都发生在完全受控的环境中,消除了安全风险,使代理能力和可靠性评估更加稳健和可重复。我们新的评估框架将基于程序检查的网站状态检查与基于LLM的评分表指导判断相结合,适用于基于任务的操作型任务。该框架支持开源和专有代理系统,通过灵活的评估套件,允许研究实验室在不进行修改的情况下测试代理系统。我们的实验结果表明,最前沿的语言模型在REAL上的成功率最多为41%,突显了自主网页导航和任务完成能力中的关键差距。该框架支持新任务的轻松集成、可重复评估以及可扩展的后训练数据生成,标志着在评估和提升代理能力方面迈出了重要一步。
arXiv:2504.09597v2 通知类型: 替换
摘要:大型语言模型(LLMs)已在众多任务中展现出非凡的能力,但对其内部机制及多种现象,如缩放定律、幻觉及相关行为的原理性解释仍然匮乏。在本文中,我们回顾了基于柯尔莫哥洛夫复杂性和香农信息理论的经典压缩与预测关系,以更深入地理解LLM的行为。通过利用柯尔莫哥洛夫结构函数,我们将LLM压缩视为两部分编码过程,并提供了一个详细的视角,解释了在增加模型和数据规模时,LLM如何获取和存储信息——从普遍的句法模式到逐渐稀有的知识元素。受这一理论视角和由Heaps定律和Zipf定律启发的自然假设的驱使,我们引入了一个简化且代表性的层次化数据生成框架,称为句法-知识模型。在贝叶斯框架下,我们展示了这种模型中预测和压缩如何自然导致LLM的多样化学习和缩放行为。特别是,我们的理论分析为数据和模型缩放定律、训练和微调期间的知识获取动态以及LLM中的事实知识幻觉提供了直观且原则性的解释。实验结果验证了我们的理论预测。
arXiv:2504.07521v2 通报类型:替换
摘要:现有的大多数情感分析侧重于识别产生了哪种情绪(例如,高兴、悲伤、愤怒),但忽视了更深层次的why。我们提出了情感解释(EI),注重情绪反应背后的原因——这些原因可能是显性的(例如,可观察的物体、人际互动)或隐性的(例如,文化背景、不在画面中的事件)。与传统的 emotion 识别不同,EI 任务需要推理触发因素而非仅仅贴标签。为了促进 EI 研究,我们提出了 EIBench,这是一个大规模基准,包括 1,615 个基本 EI 样本和 50 个多维度情感的复杂 EI 样本。每个示例都要求基于推理的解释,而不是简单的分类。我们进一步提出了粗到细自我提问(CFSA)注释管道,该管道通过迭代的问题-答案环节引导视觉-语言模型(VLLMs),以大规模生成高质量的标签。在四种实验设置下对开源和专有大型语言模型进行广泛评估,揭示了在更复杂的情景下普遍存在性能差距,突显了 EI 对丰富同理心、情境感知 AI 应用的潜在价值。我们的基准和方法在 https://github.com/Lum1104/EIBench 公开可用,为先进的多模态因果分析和下一代情感计算提供了基础。
arXiv:2504.03160v4 宣告类型:替换
摘要:配备了网络搜索能力的大语言模型(LLMs)在深入研究任务中展现了令人印象深刻的潜力。然而,当前的方法要么主要依赖于手工工程化的提示(提示工程法),其性能脆弱,要么采用在受控检索增强生成(RAG)环境中基于强化学习的方法(RAG法),这些方法难以捕捉现实世界交互的复杂性。在本文中,我们介绍了DeepResearcher,这是一个全面的框架,通过在具有真实网络搜索互动的现实环境中扩展强化学习(RL)来进行基于LLM的深度研究代理的端到端训练。与假设所有必要信息都存在于固定语料库中的RAG法不同,我们的方法训练代理能够导航开放网络的嘈杂、无结构和动态的特性。我们实现了一个专门的多代理架构,浏览代理从各种网页结构中提取相关信息,并克服了重大技术挑战。在开放域研究任务的广泛实验中,DeepResearcher在提示工程法基线上的表现提高了28.9分,在RAG法RL代理上的表现提高了7.2分。我们定性的分析揭示了端到端RL训练中出现的认知行为,包括制定计划的能力、从多个来源验证信息、进行反思以重新定向研究、以及在无法找到确定答案时保持诚实的能力。我们的结果显示,真实世界网络环境中的端到端训练不仅是实现细节,而是开发与实际应用相一致的强大研究能力的基本要求。我们已在https://github.com/GAIR-NLP/DeepResearcher发布DeepResearcher。
arXiv:2504.02269v2 Announce Type: replace
摘要:在过去十年中,人工智能(AI)和机器学习(ML)在工程领域中的应用获得了显著的流行,展示了它们在数据驱动环境中的潜力。然而,工程问题的复杂性和多样性常常需要开发特定领域的人工智能方法,这些方法在开发过程中往往受到缺乏系统方法、扩展性和鲁棒性的阻碍。为了解决这一问题,本文介绍了“ABCDE”作为工程人工智能的关键元素,并提出了一致、系统的人工智能生态系统框架,包括八个必需层级,以及属性、目标和应用,以指导特定工程需求的AI解决方案的开发和部署。此外,还分析了关键挑战,并指出了八个未来研究方向。通过提供全面的视角,本文旨在促进AI的战略实施,推动下一代工程AI解决方案的发展。