arXiv:2504.04462v1 类型: cross
摘要:大规模语言模型(LLMs)在情感分析方面取得了显著进展,但其固有的不确定性与变异性对实现可靠和一致的结果提出了关键挑战。本文系统地探讨了基于LLM的情感分析中的模型变异性问题(MVP),该问题表现为情感分类不一致、极化以及来自随机推断机制、指令敏感性和训练数据偏见引起的情感不确定性。我们分析了MVP的核心成因,并通过示例和案例研究突出其影响。此外,我们探讨了关键挑战和缓解策略,特别关注温度在输出随机性中的作用,并强调可解释性在提高透明度和用户信任方面的重要性。通过提供稳定、可再现性和可信性方面的结构性视角,本研究有助于开发更加可靠、可解释和鲁棒的情感分析模型,促使其在金融、医疗保健、政策制定等领域及其他高风险领域的部署。
arXiv:2504.04455v1 类别: cross
摘要: 准确预测不规则小天体周围的日食事件对于航天器导航、轨道确定和航天器系统管理至关重要。本文介绍了一种利用神经隐式表示的新方法,以高效且可靠地建模日食条件。我们提出了神经网络架构,可以高精度地捕捉小行星和彗星的复杂轮廓。在对四个已 characterized 的天体——贝努(Bennu)、伊托华(Itokawa)、67P/丘鲁库莫夫-杰梅辛科(67P/Churyumov-Gerasimenko)和爱神星(Eros)——进行测试后,我们的方法在准确度上与传统的光线追踪技术相当,但性能快了几个数量级。此外,我们开发了一种间接学习框架,可以直接从稀疏轨迹数据训练这些模型,使用神经常微分方程,从而无需先验准确形状模型的知识。这种方法允许连续细化日食预测,在新轨迹数据纳入时逐步减少误差并提高准确度。
arXiv:2504.04453v1 类型:交叉
摘要:解锁新一代生物技术和治疗创新所需的高亲和力抗体和识别分子的生成,需要克服传统蛋白质工程方法所固有的复杂性和资源密集性。近年来,基于GenAI的计算技术通常依赖于目标蛋白质的3D结构和特定结合位点来生成高亲和力的结合分子,如AlphaProteo和RFdiffusion模型所展示的。在这项工作中,我们探讨了使用蛋白质语言模型(pLMs)来生成高亲和力结合分子的方法。我们引入了Prot42,这是一种新型的蛋白质语言模型(pLMs),以大量未标记的蛋白质序列进行预训练。通过一种先进的自回归解码器架构,该架构受到自然语言处理领域突破性进展的启发,Prot42极大地扩展了基于语言的计算蛋白质设计能力。值得注意的是,我们的模型可以处理多达8,192个氨基酸的序列,大幅超过了标准限制,使得大分子和复杂多 domain 序列的精确建模成为可能。展示了强大的实际应用,Prot42在生成高亲和力蛋白质结合分子和序列特异性DNA结合蛋白方面表现出色。我们的创新模型现在是开源的,为科学界提供了一个高效的精确计算工具箱,以加速蛋白质工程。
arXiv:2504.04444v1 类型: cross
摘要:一个常见的假设是,MoE路由器主要通过语义特征来选择专家。然而,我们的研究通过证明位置标记信息也对路由决策起着至关重要的作用,挑战了这一观点。通过广泛的实证分析,我们提供了支持这一假设的证据,发展了一个对观察到的行为的 phenomenological 解释,并讨论了基于MoE的架构的实际意义。
arXiv:2504.04440v1 宣布类型:交叉学科
摘要:这篇参与CHI 2025研讨会“AI在环中的日常AR”工作坊的位置论文反思了是否作为研究领域的人机交互(HCI)需要定义负责任的XR,将其作为一个与负责任的人工智能并行的概念,并且结合使用,以应对大规模采用配备人工智能辅助AR眼镜和其他XR设备所带来的独特的脆弱性,这些设备可能会实现实时的人工智能驱动的人类感知增强。
arXiv:2504.04428v1 宣传类型: 交叉
摘要: 在本文中,我们提出了一种新颖的公式驱动监督学习(FDSL)框架,用于通过利用公式驱动方法参数合成声学信号来预先训练环境声音分析模型。具体而言,我们详细阐述了声音事件检测(SED)任务的流程并评估了其有效性。声音事件检测任务涉及估计声音事件的类型和时间,由于获取足够数量的准确标注训练数据的难度较大而特别具有挑战性。此外,众所周知,手动标注的标签经常包含噪声,并且受到注释者主观判断的显著影响。为了解决这些挑战,我们提出了一种新的预训练方法,该方法利用一个由数学公式生成的合成数据集Formula-SED,在每一步合成过程中,使用合成参数作为真实标签,从而消除标签噪声和偏差。我们通过在DCASE2023挑战任务4中使用的DESED数据集的结果证明,使用Formula-SED进行大规模预训练显著提高了模型的准确性并加速了训练。项目页面位于 https://yutoshibata07.github.io/Formula-SED/
arXiv:2504.04427v1 类型: cross
摘要: 在音频驱动的唇部合成中,生成与给定语音对齐的连续唇部运动图像是一项具有挑战性的任务。尽管先前的研究在同步性和视觉质量方面取得了进展,但唇部可懂度和视频流畅性仍然是一些持久性的挑战。本文提出了一种名为 FluentLip 的两阶段方法,结合了三种特色策略。为了提高唇部同步性和可懂度,我们整合了一个声学单元提取器和编码器,以生成音频和声学单元信息的融合,用于多模态学习。此外,我们使用光流一致性损失来确保图像帧之间的自然过渡。此外,在生成对抗网络(GANs)的训练过程中引入了一个扩散链,以提高稳定性和效率。我们通过广泛的实验评估了提出的 FluentLip 方法,并将其与五个最先进的(SOTA)方法在五个指标上进行比较,包括一个名为音素错误率(PER)的指标,用于评估唇形姿态的可懂度和视频流畅性。实验结果表明,我们的 FluentLip 方法具有很强的竞争力,在流畅性和自然度方面取得了显著提高。特别是,在弗雷彻- inception 距离(FID)上,它比这些 SOTA 方法高出约 16.3%,在 PER 上高出约 35.2%。
arXiv:2504.04423v1 Announce Type: cross
摘要:我们引入了UniToken,这是一种自回归生成模型,通过结合离散和连续表示来编码视觉输入,从而实现统一的视觉理解和图像生成任务的无缝集成。与依赖单向视觉表示的先前方法不同,我们统一的视觉编码框架捕捉到了高层次语义和低层次细节,提供了多维信息,使异构任务根据其固有的特性选择性地吸收领域特定的知识。通过深入的实验,我们揭示了开发同时具备视觉理解和图像生成能力的统一模型的关键原则。在一系列知名基准的广泛评估中,UniToken达到或超越了现有方法的性能。这些结果使UniToken成为未来在这个领域研究中的稳健基础。代码和模型可在https://github.com/SxJyJay/UniToken获取。
arXiv:2504.04419v1 Announce Type: cross
摘要:驾驶场景数据在智能车辆和自动驾驶的发展中发挥着越来越重要的作用。准确高效的场景数据搜索对于在线车辆决策和规划以及离线场景生成和模拟都至关重要,因为它能够利用场景经验来提高整体性能。特别是在大规模语言模型(LLMs)和检索增强生成(RAG)系统在自动驾驶中的应用中,提出了迫切的需求。在本文中,我们引入了Driving-RAG框架,以解决RAG系统中高效场景数据嵌入、搜索和应用的挑战。我们的嵌入模型在向量空间中对基本场景信息和场景距离度量进行对齐。结合典型的场景采样方法和分层导航的小世界结构,可以高效地执行场景向量搜索,以实现高效搜索而不牺牲准确性。此外,通过图知识进行的重组机制增强了与提示场景的相关性并增强LLM生成。我们在复杂的交互场景(如匝道和交叉口)的典型轨迹规划任务上表明了所提出框架的有效性,展示了其在RAG应用中的优势。
arXiv:2504.04405v1 传播类型: 交叉
摘要: 最近,生成推荐作为一种有前途的范式已经引起了显著的研究关注。基本框架包括一项项目分词器,它将每个项目表示为标识符代码序列以充当其标识符,并且一个生成推荐器,通过自回归生成目标项目标识符来预测下一个项目。但是,在现有的方法中,分词器和推荐器通常都是特定于领域的,这限制了它们在新领域的有效转移或适应能力。为了解决这个问题,我们提出了一种通用项目分词方法UTGRec,用于转移生成推荐。具体而言,我们设计了一种通用项目分词器,通过适应多模态大语言模型(MLLM)来编码丰富的项目语义。通过设计树状结构的码本,我们将内容表示离散化为相应的代码以进行项目分词。为了在多个领域有效学习通用项目分词器,我们在方法中引入了两种关键技术。对于原始内容重构,我们使用双重轻量级解码器从离散表示中重构项目文本和图像,以捕获内容嵌入的一般知识。对于协作知识集合法,我们假设共现项目相似,并通过共现对齐和重构来集成协作信号。最后,我们提出了一种联合学习框架,用于在多个领域预训练和适配转移生成推荐器。在四个公开数据集上的广泛实验表明,UTGRec 在与传统和生成推荐基线的比较中具有优越性。