arXiv 论文列表

提升低数据条件下三维结合亲和力模型的泛化能力

arXiv:2409.12995v1 公告类型: 交叉摘要: 预测蛋白质-配体结合亲和力是计算机辅助药物设计的关键部分。然而，在低数据情况下，通用且高效的全球结合亲和力模型仍然难以捉摸。尽管模型架构不断演进，当前的基准测试并不适合探究3D结合亲和力模型的通用性。此外，如GNN等3D全局架构的性能尚未达到预期。为了研究这些问题，我们引入了一种新颖的PDBBind数据集划分方法，最大限度地减少了训练集和测试集之间的相似性泄漏，从而允许对各种模型架构进行公平且直接的比较。在此低相似性划分上，我们证明，在低数据情况下，3D全局模型通常优于蛋白质特异性局部模型。我们还展示了GNN的性能得益于三个新颖的贡献：通过量子力学数据进行监督预训练，通过小分子扩散进行无监督预训练，以及在输入图中显式建模氢原子。我们相信，这项工作引入了有前景的新方法，有望解锁GNN架构在结合亲和力建模中的潜力。

发布时间: 9/23/2024

查看原文

性能与功耗：基于CARAML对加速器上AI工作负载的系统评估

机器学习（ML）技术的快速发展推动了专用硬件加速器的发展，旨在更高效地进行模型训练。本文介绍了CARAML基准测试套件，用于评估在NVIDIA、AMD和Graphcore等系统上，基于Transformer的大型语言模型和计算机视觉模型训练过程中的性能和能耗。CARAML提供了一个紧凑、自动化、可扩展且可重复的框架，用于评估各种新型硬件架构上的ML工作负载的性能和能耗。本文详细讨论了CARAML的设计与实现，以及一个名为jpwr的自定义功耗测量工具。

发布时间: 9/23/2024

查看原文

DiffEditor：通过语义增强和声学一致性提升语音编辑效果

arXiv:2409.12992v1 公告类型: 交叉摘要: 随着基于文本的语音编辑技术日益普及，对无限制自由文本编辑的需求不断增长。然而，现有的语音编辑技术在处理域外（OOD）文本时面临重大挑战，特别是在保持可理解性和声学一致性方面。本文介绍了一种名为DiffEditor的新型语音编辑模型，该模型通过语义增强和声学一致性来提高OOD文本场景中的性能。为了提高编辑后语音的可理解性，我们通过整合从预训练语言模型中提取的词嵌入来丰富音素嵌入的语义信息。此外，我们强调帧间平滑特性对于建模声学一致性至关重要，因此我们提出了一种一阶损失函数，以促进编辑边界处的平滑过渡，并增强编辑后语音的整体流畅性。实验结果表明，我们的模型在域内和域外文本场景中均达到了最先进的性能。

发布时间: 9/23/2024

查看原文

双曲脑表示法

arXiv:2409.12990v1 公告类型: 交叉摘要: 人工神经网络 (ANN) 受到人脑结构和功能的启发，彻底改变了人工智能 (AI) 领域。受大脑潜在几何学研究的启发，我们提出，增加在机器学习中对双曲几何的研究和应用将提高准确性，改善特征空间表示，并在一系列任务中实现更高效的模型。我们探讨了人脑的结构和功能，强调了大脑的层次结构与双曲几何之间的对应关系。通过研究大脑中复杂的神经元连接网络及其认知过程，我们展示了双曲几何在人类智能中的关键作用。实证证据表明，双曲神经网络在自然语言处理、计算机视觉和复杂网络分析等任务中优于欧几里得模型，需要的参数更少，且表现出更好的泛化能力。尽管双曲几何的应用尚处于初期阶段，但它有望改进机器学习模型，并推动该领域向通用人工智能 (AGI) 迈进。

发布时间: 9/23/2024

查看原文

我们能否仅使用指南而非示例来构建提示？

arXiv:2409.12979v1 公告类型: 交叉摘要: 目前，提示技术主要可分为两大类：1) 示例方法通过模仿给定示例中的步骤，隐式地启发模型回答问题，例如少样本思维链（few-shot CoT）。2) 指南方法通过遵循指南明确指导模型推理，这些指南包含简洁且具体的任务知识。示例方法在选择示例类型、示例数量和推理步骤设计方面容易遇到困难，因此产生了一个问题：我们能否仅使用指南而非示例来构建提示？为此，我们提出了FGT框架，该框架通过包含反馈、指南和树聚合代理的数据集自动学习任务特定的指南。首先，反馈代理被设计用于评估每个问答的正确与错误结果，以收集见解指导更有效的优化策略。其次，指南代理负责从每条反馈中推导出指南并将其存储在本地内存中。最后，树聚合代理通过树结构层次化地聚合所有指南，最终从全局视角获得所有不重复的指南。此外，我们引导模型生成中间过程以确保推理与指南一致。实验结果表明，我们的方法在多个任务中实现了卓越的性能，从而突显了在提示中使用指南的有效性。

发布时间: 9/23/2024

查看原文

基础模型时代在医学影像中的到来：大规模生成式人工智能在放射学中的临床价值范围综述

arXiv:2409.12973v1 公告类型: 交叉摘要: 由于放射科医生短缺而引发的社会问题日益严重，人工智能被视为潜在的解决方案。最近兴起的大规模生成式人工智能已从大型语言模型（LLMs）扩展到多模态模型，显示出颠覆整个医学影像流程的潜力。然而，目前缺乏对其发展现状和未来挑战的全面综述。本范围综述遵循PCC指南，系统地整理了现有关于大规模生成式人工智能应用临床价值的文献。通过在PubMed、EMbase、IEEE-Xplore和Google Scholar四个数据库中进行系统搜索，研究人员筛选出15项符合纳入/排除标准的研究进行综述。大多数研究集中在提高解读过程中特定部分的报告生成效率，或翻译报告以帮助患者理解，最新的研究则扩展到人工智能直接进行解读的应用。所有研究均由临床医生进行定量评估，其中大部分使用LLMs，仅有三项研究采用多模态模型。LLMs和多模态模型在特定领域均表现出色，但尚未在诊断性能上超越放射科医生。大多数研究使用GPT，仅有少数使用专门针对医学影像领域的模型。本研究揭示了大规模生成式人工智能在医学影像领域应用的现状和局限性，提供了基础数据，并预示着医学影像基础模型的时代即将到来，这可能在不久的将来从根本上改变临床实践。

发布时间: 9/23/2024

查看原文

MITHOS：支持学校专业社会情感互动的互动混合现实培训

arXiv:2409.12968v1 公告类型: 交叉摘要: 在充满挑战的冲突情境中，教师常常经历羞耻感和自我责备，这些感受与无能感相关，但可能表现为愤怒。感知到混合信号会破坏情感调节的发展条件，可能导致学生对自己的情绪感到困惑，并阻碍他们的情感调节。因此，能够建设性地调节情绪不仅有益于个体情绪体验，还能促进有效的人际情感调节，并影响情境的处理方式。MITHOS系统旨在通过课堂冲突中的现实情境学习机会，训练教师的冲突解决技能。在四个阶段中，MITHOS支持教师的社交情感自我意识、视角取向和积极关注。它提供：a) 一个安全的虚拟环境，用于训练自由的社会互动，并从互惠的学生代理反应中获得自然的社会反馈；b) 通过化身进行空间情境视角取向；c) 通过共同调节过程对情感体验进行个体虚拟反思指导；d) 对专业行为策略的专家反馈。本章介绍了这四个阶段及其在半自动Wizard-of-Oz（WoZ）系统中的实施。WoZ系统有助于收集数据，用于开发完全自动化的混合（机器学习和基于模型的）系统，并验证基础的心理学和冲突解决模型。我们展示了验证方法的结果，包括场景真实性，以及对外部化身相似性对自我意识前因的影响的行为相似性的系统测试。本章为进行以人为中心和可推广的XR跨学科研究提供了一种通用方法，并介绍了一个旨在支持该方法的系统。

发布时间: 9/23/2024

查看原文

OpenRANet：基于优化深度学习的联合子载波与功率分配神经化频谱接入

下一代无线接入网络（RAN），即开放式RAN，正准备为无线蜂窝网络（包括新兴的卫星-地面系统）引入AI原生接口，使得深度学习成为其运营的核心组成部分。本文针对开放式RAN中联合子载波和功率分配的非凸优化挑战，旨在在确保用户满足其传输数据速率要求的同时，最小化总功率消耗。我们提出了OpenRANet，一种基于优化的深度学习模型，该模型将机器学习技术与迭代优化算法相结合。首先，通过解耦、变量变换和松弛技术，将原始非凸问题转化为凸子问题。然后，利用标准干扰函数框架内的迭代方法高效求解这些子问题，从而推导出原始-对偶解。这些解作为凸优化层无缝集成到OpenRANet中，通过结合机器学习与凸分析，增强了约束遵守、解的准确性和计算效率，如数值实验所示。OpenRANet还为设计资源受限的AI原生无线优化策略奠定了基础，适用于更广泛的场景，如多小区系统、卫星-地面网络以及未来具有复杂功率消耗需求的开放式RAN部署。

发布时间: 9/23/2024

查看原文

DARDA: 领域意识实时动态神经网络适应

arXiv:2409.09753v1 适应类型：跨域摘要：在输入受到噪声/污染影响的情况下，测试时自适应（TTA）已成为缓解深度神经网络（DNNs）性能退化的一种实用解决方案。现有TTA方法持续适应DNN，由于缺乏监督导致的累积误差，这会引发资源消耗过多和性能下降的问题。为了解决这些问题，我们提出了领域感知实时动态适应（DARDA）。我们关键的方法是主动学习某些污染类型的部分潜在表示，每种类型都与一个专门用于正确分类受该污染影响的输入的子网络状态相关联。部署后，DARDA无需监督即可适应以前未见过的污染，通过以下步骤：（i）估计当前污染的潜在表示；（ii）选择与其相关联的污染在潜在空间中最接近当前污染的子网络；（iii）适应DNN状态，使其表示与当前污染一致。这样，DARDA更高效地利用资源，并能在不需要大量不同输入数据的情况下迅速适应由于不同污染引起的不同数据分布。通过在两个流行的移动边缘设备——树莓派和NVIDIA Jetson Nano上进行实验，我们展示了与现有技术相比，DARDA分别将能量消耗和平均缓存内存占用减少了1.74倍和2.64倍，同时在CIFAR-10、CIFAR-100和TinyImagenet上的性能分别提高了10.4%、5.7%和4.4%。

发布时间: 9/23/2024

查看原文

类皮肤科医生可解释人工智能提升黑色素瘤诊断准确性：眼动追踪研究

arXiv:2409.13476v1 公告类型: 新提交摘要: 人工智能(AI)系统显著提高了皮肤科医生对黑色素瘤的诊断准确性，而可解释AI(XAI)系统进一步增强了临床医生对AI驱动决策的信心和信任。尽管取得了这些进展，但仍迫切需要对皮肤科医生如何与AI和XAI工具互动进行客观评估。在本研究中，76名皮肤科医生参与了一项阅读研究，使用提供详细、领域特定解释的XAI系统诊断了16张黑色素瘤和痣的皮损图像。通过眼动追踪技术评估了他们的互动。将诊断性能与缺乏解释功能的标准AI系统进行了比较。我们的研究结果显示，与标准AI相比，XAI系统将平衡诊断准确性提高了2.8个百分点。此外，与AI/XAI系统的诊断分歧和复杂病变与认知负荷增加相关，表现为眼动注视次数增加。这些见解对临床实践、视觉任务AI工具的设计以及医学诊断中XAI的更广泛发展具有重要意义。

发布时间: 9/23/2024

查看原文