arXiv 论文列表

作者: Iain Burge, Michel Barbeau, Joaquin Garcia-Alfaro

arXiv:2412.14639v2 后验解释类型：替换-交叉摘要：本文专注于开发高效的后验解释方法，用于量子AI算法。在经典背景下，合作博弈论中的夏普利值自然适用于后验解释，可以用于识别哪些因素在AI的决策过程中是重要的。一个有趣的问题是如何将夏普利值转化为量子设置，并且量子效应是否可以用来自加速其计算。我们提出了一种量子算法，能够在一定的置信区间内提取夏普利值。该方法能够在多种情况下，在多项式对数因子中比经典的蒙特卡洛方法更有效地性能上取得平方级别的优势。我们通过特定的投票游戏实验证明了该方法的有效性，并为一般的合作博弈提供了严格性能证明。

发布时间: 4/18/2025

查看原文

UMSPU: 具有互洽自我蒸馏和自适应增强分割器的通用多尺寸相位unwraping

作者: Lintong Du, Huazhen Liu, Yijia Zhang, ShuXin Liu, Yuan Qu, Zenghui Zhang, Jiamiao Yang

arXiv:2412.05584v2 宣布类型: 替换-交叉摘要：空间相位解缠是一种提取相位信息的关键技术，用于获得3D形态和其他特征。现代工业测量场景要求高精度、大图像尺寸和高速度。然而，传统的方法在抗噪性和处理速度方面存在困难。当前的深度学习方法受限于感受野大小和稀疏的语义信息，使得它们对于大规模图像无效。为了解决这个问题，我们提出了一个互互相教授（MSD）机制和自适应增强集成分割器，以构建一种通用的多尺寸相位解缠网络（UMSPU）。MSD进行分层注意力细化，并通过双向教授实现跨层协作学习，确保在不同图像尺寸上具有精细的语义表示。自适应增强集成分割器将具有不同感受野的弱分割器结合为一个强分割器，确保在空间频率上具有稳定的分割。实验结果表明，UMSPU克服了图像尺寸限制，在从256*256到2048*2048（增加了8倍）的不同图像尺寸下实现了高精度。此外，它在速度、鲁棒性和泛化方面也优于现有方法。其实用性在结构光成像和InSAR中得到了进一步验证。我们认为，UMSPU为相位解缠提供了一种通用解决方案，具有广泛的应用潜力，特别是在工业领域。

发布时间: 4/18/2025

查看原文

AMPS：带有多模态同义复述监督的ASR

作者: Abhishek Gupta, Amruta Parulekar, Sameep Chattopadhyay, Preethi Jyothi

arXiv:2411.18368v2 宣布类型: replace-cross 摘要：自发或对话式的多语言语音给最先进的自动语音识别（ASR）系统带来了许多挑战。在本文中，我们介绍了一种新的技术AMPS，该技术通过基于重述的监督来增强一个多语言多模态ASR系统，以提高多语言（包括印地语、马拉地语、马拉雅拉姆语、卡纳达语和尼亚卡语）的对话ASR性能。我们在训练多模态ASR模型时使用参考转录的重述作为额外的监督，并针对ASR性能较差的短语有选择地激活这种重述目标。使用AMPS与最先进的多模态模型SeamlessM4T结合，我们获得了高达5%的相对词错误率（WERs）的显著降低。我们使用客观和人工评估指标详细分析了我们的系统。

发布时间: 4/18/2025

查看原文

IdentifyMe：一个具有挑战性的长上下文提及解析基准测试用于LLMs

作者: Kawshik Manikantan, Makarand Tapaswi, Vineet Gandhi, Shubham Toshniwal

arXiv:2411.07466v2 宣告类型: replace-cross 摘要：最近对LLMs进行核心ference解析的评估显示，传统的输出格式和评价指标未能充分捕捉模型的指代理解能力。为解决这一问题，我们引入了IdentifyMe，这是一种新的提示理解基准，以多项选择题(MCQ)格式呈现，常用于LLM的评估。IdentifyMe包含长篇叙述，并采用启发式方法排除易于识别的提及，从而创建一个更具挑战性的任务。该基准还包括不同类型的提及及其相应实体的精选混合，允许对模型性能进行细致分析。我们在IdentifyMe上评估了闭源和开源LLM，并观察到最先进的亚10B开源模型与闭源模型之间存在显著性能差距（20-30%）。我们观察到，具有有限表层信息的代词提及通常比名词提及更难被模型解析。此外，我们发现当提及在嵌套结构中重叠时，LLM常常会混淆实体。得分最高的模型GPT-4o取得了81.9%的精度，这突显了最先进的LLM的强大指代能力，同时也表明仍有进一步改进的空间。

发布时间: 4/18/2025

查看原文

优化LLM推理以适应数据库系统：针对并发请求的成本意识调度

作者: Kyoungmin Kim, Kijae Hong, Caglar Gulcehre, Anastasia Ailamaki

arXiv:2411.07447v3 宣告类型: 替换-交叉摘要: LLMs 在数据库系统和数据库应用程序中越来越多地被用于更好地管理和决策，其中LLM推断需要大量的GPU成本。然而，现有的LLM推理系统相比于数据库系统来说速度较慢，这限制了LLM在数据库系统内部的应用扩展。本文首先分析了LLM推理性能，并重点关注在LLM推理中的数据管理问题。我们揭示了问题的根本原因是执行多个并发推理请求时缺乏足够的资源配置模型和优化策略。我们通过引入并发推理请求的成本模型和新的调度策略，适应经典的数据库多查询优化技术，从而优化并发请求对内存资源的使用，显著提高了性能。

发布时间: 4/18/2025

查看原文

使用蒙特卡洛树搜索预测和发布准确的不平衡价格

作者: Fabio Pavirani, Jonas Van Gompel, Seyed Soroush Karimi Madahi, Bert Claessens, Chris Develder

arXiv:2411.04011v2 宣告类型: 替换-交叉摘要：随着对可再生能源，尤其是太阳能和风能的依赖不断增加，由于其不可控的生产，这引入了挑战。这使得保持电网平衡变得复杂，促使西欧的一些输电系统运营商实施不平衡费率，以惩罚不可持续的电力偏差。这些费率创建了一个隐含的需求响应框架，以减轻电网的不稳定。然而，有几个挑战限制了积极的参与。例如，在比利时，不平衡价格只在每个15分钟结算期结束时计算，这因价格不确定性而增加了风险。这种风险由于不平衡价格的固有波动性而进一步放大，这会抑制参与。尽管输电系统运营商提供了基于分钟的价格预测，但系统不平衡的波动性使得获得准确的价格预测变得困难，需要高超的技术。此外，公布价格估计可能会促使参与者调整其时间表，这可能会进一步影响系统平衡和最终价格，增加额外的复杂性。为了应对这些挑战，我们提出了一种蒙特卡洛树搜索方法，该方法发布准确的不平衡价格，同时考虑潜在的响应行动。我们的方法使用神经网络预报器和由强化学习代理控制的虚拟电池集群来建模系统动态。与比利时当前的公布方法相比，我们的技术在理想条件下提高了20.4%的价格准确性，在更现实的场景中提高了12.8%。这项研究探讨了一个尚未开发但至关重要的问题，使本文成为分析更高级不平衡价格发布技术潜力的开创性工作。

发布时间: 4/18/2025

查看原文

EmoSphere++：情绪可控的零样本文本到语音转换通过对情绪适应的球形向量

作者: Deok-Hyeon Cho, Hyung-Seok Oh, Seung-Bin Kim, Seong-Whan Lee

arXiv:2411.02625v2 宣布类型: replace-cross 摘要：近年来，情感文本转语音（TTS）技术取得了显著进展；然而，由于情感本身固有的复杂性和可用的情感语音数据集及模型的局限性，仍然存在一些挑战。之前的研究所依赖的通常是有限的情感语音数据集，或者需要大量的手动注释，这限制了它们在不同说话者和情感风格上进行泛化的能力。在本文中，我们提出了EmoSphere++，这是一种情感可控的零样本TTS模型，可以控制情感风格和强度，以模拟自然的人类语音。我们引入了一种新颖的情感自适应球形向量，无需人类注释即可模型化情感风格和强度。此外，我们提出了一种多级风格编码器，可以确保对已见和未见说话者进行有效的泛化。我们还引入了额外的损失函数，以增强零样本场景下的情感转移表现。我们使用基于条件流动匹配的解码器，在 few 采样步骤内实现高质量和表达性的情感TTS。实验结果证明了所提出框架的有效性。

发布时间: 4/18/2025

查看原文

在使用多模态基础模型规划时知悉不确定性的地方：一个形式化框架

作者: Neel P. Bhatt, Yunhao Yang, Rohan Siva, Daniel Milan, Ufuk Topcu, Zhangyang Wang

arXiv:2411.01639v3 公告类型: 替换交叉摘要：多模态基础模型为通过处理感知输入来生成可执行计划以实现机器人的感知和规划提供了一个有希望的框架。然而，在感知（感官解释）和决策（计划生成）中处理不确定性仍然是确保任务可靠性的关键挑战。我们提出了一种全面的框架来分离、量化和减轻这两种形式的不确定性。我们首先提出了一种分离不确定性框架，将感知不确定性与视觉理解的局限性隔离，以及将决策不确定性与生成计划的鲁棒性联系起来。为了量化每种类型的不确定性，我们提出了适应感知和决策独特属性的方法：我们使用 conformal 预测校准感知不确定性，并引入基于形式方法的预测（FMDP）来量化决策不确定性，利用形式验证技术提供理论保证。在这一量化的基础上，我们实现了一种有针对性的干预机制：一个动态重新观察高不确定性的场景的过程，以提高视觉输入质量，并且一种自动精化程序，该程序在高确定性数据上微调模型，提高其满足任务规范的能力。在真实的和模拟的机器人任务中的实验验证表明，我们的不确定性分离框架将变异性最多减少了40%，并将任务成功率提高了5%，与基线相比。这些改进归因于两种干预措施的综合作用，并突出了不确定性分离的重要性，这促进了有针对性的干预措施，从而增强了自主系统的鲁棒性和可靠性。微调后的模型、代码和数据集可在 https://uncertainty-in-planning.github.io/ 获取。

发布时间: 4/18/2025

查看原文

通过霍勒尔散度进行多视图表示学习的不确定性量化

作者: Yan Zhang, Ming Li, Chun Li, Zhaoxia Liu, Ye Zhang, Fei Richard Yu

arXiv:2411.00826v2 宣告类型: 替换-交叉摘要：证据驱动的深度学习代表了一种蓬勃发展的不确定性估计范式，能够在几乎忽略额外计算开销的情况下提供可靠的预测。现有方法通常采用Kullback-Leibler散度来估计网络预测的不确定性，忽略了不同模态之间的领域差距。为了应对这一问题，本文提出了一种基于Hölder散度（HD）的新算法，以通过解决不完整或噪声数据带来的固有不确定性挑战来增强多视图学习的可靠性。一般来说，我们的方法通过并行网络分支提取多种模态的表示，然后利用HD估计预测不确定性。通过Dempster-Shafer理论，从不同模态中集成不确定性，从而生成一个综合结果，考虑到所有可用的表示。从数学上讲，HD证明了更好地衡量真实数据分布与模型预测分布之间的“距离”，并改善了多类别识别任务的性能。具体而言，我们的方法在所有评估基准上超越了现有的最先进的方法。我们进一步在不同的骨干网络上进行了广泛的实验，以验证我们优于的鲁棒性。研究表明，我们的方法成功地推动了相应的性能边界。最后，我们在更具挑战性的场景下进行了实验，即学习不完整或噪声数据，显示我们的方法对这种被污染的数据有很高的容忍度。

发布时间: 4/18/2025

查看原文

算术变换器可以在操作数长度和数量上进行长度泛化

作者: Hanseul Cho, Jaeyoung Cha, Srinadh Bhojanapalli, Chulhee Yun

arXiv:2410.15787v2 发布类型: replace-cross 摘要：变换器经常在长度泛化方面遇到困难，这意味着它们无法泛化到训练期间遇到的序列长度更长的序列。虽然算术任务常被用来研究长度泛化，但某些任务被认为特别困难，例如多操作数加法（需要在操作数的数量和长度方面进行泛化）和乘法（需要在操作数长度方面进行泛化）。在本文中，我们在两个任务上实现了大约2-3倍的长度泛化，这是算术变换器中首次实现此类泛化。我们设计了任务特定的记事板，使模型能够在每个预测步骤中专注于固定数量的标记，并应用不同的 \Position Coupling（Cho 等，2024；McLeish 等，2024）多级版本，以让变换器知道需要关注的位置。从理论角度来看，我们证明了一种使用我们方法的单层变换器可以解决多操作数加法问题，其操作数长度和操作数数量可以是嵌入维度的指数值。

发布时间: 4/18/2025

查看原文