本文探讨了诱变性预测这一紧迫挑战,并提出了三种突破性的方法。首先,它展示了从分子图像中提取的二维散射系数相比于传统的分子描述符具有更优越的性能。其次,它提出了一种混合方法,该方法结合了几何图散射(GGS)、图同构网络(GIN)和机器学习模型,在诱变性预测中取得了显著成果。第三,它引入了一种新颖的图神经网络架构 MOLG3-SAGE,该架构将 GGS 节点特征集成到完全连接的图结构中,实现了卓越的预测精度。在 ZINC 数据集上的实验结果表明,该方法取得了显著的改进,突出了将二维和几何散射技术与图神经网络相结合的有效性。本研究阐明了 GNN 和 GGS 在诱变性预测中的潜力,对药物发现和化学安全评估具有广泛的意义。
我们提出了一种易于计算、与语言无关的基于信息论的度量方法PPLqa,用于以无监督的方式衡量生成式大型语言模型 (LLM) 响应的质量,无需真实标签或人工监督。该方法和度量标准使用户能够根据响应质量对生成式语言模型进行排序,从而为特定任务选择最佳模型。我们的单一指标采用一种方法来评估LLM,该方法包含但不显式基于连贯性和流畅性(写作质量)以及与查询的相关性和一致性(响应的适当性)。PPLqa 的性能与其他相关指标一样好,并且在长篇问答中表现更好。因此,PPLqa 使得能够绕过真实标签评估所需的冗长标注过程,并且它也与人工和LLM 排名高度相关。
作为通用人工智能 (AGI) 的一个重要方向,多模态大型语言模型 (MLLM) 越来越受到业界和学术界的关注。这类模型在预训练大型语言模型的基础上,进一步发展了令人印象深刻的多模态感知和推理能力,例如根据流程图编写代码或根据图像创作故事。在开发过程中,评估至关重要,因为它可以提供直观的反馈并指导模型改进。与仅偏向于图像分类等单一任务的传统训练-评估-测试范式不同,MLLM 的多功能性促使各种新的基准和评估方法的兴起。本文旨在对 MLLM 评估进行全面综述,讨论四个关键方面:1) 按评估能力划分的基准类型摘要,包括基础能力、模型自我分析和扩展应用;2) 基准构建的典型过程,包括数据收集、标注和注意事项;3) 由评判者、指标和工具包组成的系统评估方法;4) 下一代基准的展望。这项工作旨在帮助研究人员轻松掌握如何根据不同需求有效地评估 MLLM,并激发更好的评估方法,从而推动 MLLM 研究的进步。
本文描述了一种高效的方法,赋予回归模型对其数据的“好奇心”。在机器学习领域,我们用主动学习来表示这种好奇心框架,这意味着在半监督环境下自动选择需要查询标签的数据点。我们提出的方法基于计算“正则切线”向量,该向量可以在训练过程中(仅以恒定速度减慢)与模型的参数向量一起计算。然后,我们将此切线向量与模型在给定数据点处的损失梯度向量进行内积运算,以获得该点对模型复杂性影响的度量。只有一个与参数向量维度相同的正则切线向量。因此,在所提出的技术中,一旦训练完成,评估我们对潜在查询数据点的“好奇心”就可以像计算该点处的模型损失梯度一样快。新的向量仅使模型所需的存储量增加一倍。我们证明了我们的技术计算出的量是“影响函数”的一个例子,并且它衡量的是上调给定数据点所导致的模型复杂度变化的预期平方值。我们提出了一些利用该量在主动学习框架下为模型选择新训练数据的方法。
大型语言模型 (LLM) 在各种自然语言处理任务中展现出非凡的能力。然而,它们倾向于表现出谄媚行为——过度赞同或奉承用户——这对其可靠性和道德部署构成重大风险。本文对 LLM 中的谄媚行为进行了技术性综述,分析了其成因、影响和潜在的缓解策略。我们回顾了近期关于测量和量化谄媚倾向的研究,考察了谄媚行为与幻觉和偏差等其他挑战之间的关系,并评估了在保持模型性能的同时降低谄媚行为的有前景的技术。探讨的关键方法包括改进训练数据、新颖的微调方法、部署后控制机制和解码策略。我们还讨论了谄媚行为对人工智能一致性的更广泛影响,并为未来的研究提出了方向。我们的分析表明,减轻谄媚行为对于开发更强大、可靠和符合道德规范的语言模型至关重要。
理解人类出行行为对于许多应用至关重要,包括人群管理、基于位置的推荐以及疫情传播的估计。机器学习模型可以通过分析个人的历史访问模式来预测个人未来可能访问的兴趣点 (POI)。以往的研究通过学习 POI 分类器来解决这个问题,其中每个类别对应一个 POI。然而,这限制了它们预测训练数据中不存在的新 POI 的能力,例如新餐馆的开业。为了应对这一挑战,我们提出了一种模型,只要新 POI 的语境与用户的兴趣一致,就能预测训练数据之外的新 POI。与直接预测特定 POI 的现有方法不同,我们的模型首先预测潜在未来 POI 的语义上下文,然后将其与基于邻近性的先验概率分布相结合以确定确切的 POI。在真实世界访问数据上的实验结果表明,我们的模型优于不考虑语义上下文的基础方法,准确率提高了 17%。值得注意的是,随着时间的推移引入新的 POI,我们的模型仍然保持稳健,与现有方法相比,预测准确率下降率更低。
我们引入了ElastiFormer,这是一种后训练技术,可以将预训练的Transformer模型改造成具有可变推理时间计算的弹性模型。ElastiFormer引入了小型路由模块(额外可训练参数低至0.00006%),以根据输入动态选择预训练网络每一层要处理的网络参数和输入token子集。路由模块使用自蒸馏损失进行训练,以最大限度地减少预训练模型及其弹性模型输出之间的差异。由于ElastiFormer不对预训练Transformer模型的模态做出任何假设,因此它可以很容易地应用于所有模态,包括因果语言建模、图像建模以及视觉语言建模任务。我们证明,可以为Transformer层的不同组件节省20%到50%的计算量,通过添加通过相同蒸馏目标训练的非常低秩LoRA权重(秩1),可以进一步减少计算量。最后,通过比较在ImageNet不同子集上训练的路由,我们证明了ElastiFormer对训练域具有鲁棒性。
事件相机作为一种新兴的成像技术,相比传统的RGB相机具有能耗更低、帧率更高的优势。然而,可用事件数据量有限是一个重大挑战,阻碍了其更广泛的发展。为了缓解这个问题,我们提出了一种针对性的U型状态空间模型知识迁移(USKT)框架,用于事件到RGB的知识迁移。该框架生成与RGB帧兼容的输入,使事件数据能够有效地重用预训练的RGB模型,并在参数微调最少的情况下获得具有竞争力的性能。在USKT架构中,我们还提出了一种双向反向状态空间模型。与传统的双向扫描机制不同,所提出的双向反向状态空间模型(BiR-SSM)利用共享权重策略,在提高建模效率的同时节省计算资源。在有效性方面,将USKT与ResNet50作为主干网络相结合,分别在DVS128 Gesture、N-Caltech101和CIFAR-10-DVS数据集上将模型性能提高了0.95%、3.57%和2.9%,这突显了USKT的适应性和有效性。代码将在论文被接收后公开。
气道内播散(STAS)是肺癌的一种独特侵袭模式,对预后评估和手术决策至关重要。组织病理学是STAS检测的金标准,但传统方法主观、耗时且容易误诊,限制了大规模应用。我们提出了一种名为VERN的图像分析模型,该模型利用特征交互式孪生图编码器来预测肺癌组织病理学图像中的STAS。VERN通过特征共享和跳跃连接捕获空间拓扑特征,以增强模型训练。我们利用1546张组织病理学切片构建了一个大型单队列STAS肺癌数据集。VERN在内部验证中获得了0.9215的AUC,在冷冻和石蜡包埋的测试切片中分别获得了0.8275和0.8829的AUC,证明了其临床级别的性能。在单队列和三个外部数据集上进行验证后,VERN展现了强大的预测性能和泛化能力,并提供了一个开放平台(http://plr.20210706.xyz:5000/)以提高STAS诊断的效率和准确性。
在子群体偏移场景中,课程学习(CL)方法只会过早地将模型权重印刻上易于学习的虚假关联特征。据我们所知,目前最先进的子群体偏移方法都没有采用任何课程学习方法。为了克服这个问题,我们设计了一种CL方法,旨在在假设空间中从无偏的角度初始化模型权重,从而破坏在基于所有可用数据的最终优化过程中向有偏假设轻松收敛的过程。我们在此提出一种课程增强型群体分布鲁棒优化 (CeGDRO) 方法,该方法优先考虑最难的偏见确认样本和最容易的偏见冲突样本,利用 GroupDRO 来平衡初始难度差异。我们在最流行的子群体偏移数据集上对我们提出的方法进行了基准测试,结果表明,在所有场景下都优于最先进的结果,在 Waterbirds 数据集上提高了高达 6.2%。