arXiv 论文列表

作者: Fillipe dos Santos Silva, Gabriel Kenzo Kakimoto, Julio Cesar dos Reis, Marcelo S. Reis

arXiv:2410.03738v2 更新类型: replace-cross 摘要：聚类分析在各个领域和应用中发挥着重要作用，例如市场营销中的客户细分。这些应用场景通常涉及多模态数据，包括表格数据和文本数据，这使得表示隐藏模式以获取有意义的聚类变得具有挑战性。本文介绍了ERASMO框架，该框架旨在对预训练语言模型进行微调，以便处理文本编码的表格数据，并从微调模型中生成嵌入。ERASMO使用一个文本转换器将表格数据转换为文本格式，使语言模型能够更有效地处理和理解数据。此外，ERASMO通过随机特征序列打乱和数字语言化等技术生成丰富上下文和结构代表性的嵌入。使用多个数据集和基线方法进行了广泛的实验评估。我们的结果表明，ERASMO充分利用了每个表格数据集的特定上下文，从而生成更精确和细腻的嵌入以进行准确的聚类。这种方法通过捕获各种表格数据中的复杂关系模式来提高聚类性能。

发布时间: 2/5/2025

查看原文

基于拍卖的AI监管

作者: Marco Bornstein, Zora Che, Suhas Julapalli, Abdirisak Mohamed, Amrit Singh Bedi, Furong Huang

arXiv:2410.01871v2 宣布类型: replace-cross 摘要：在一个“快速推进和破坏一切”的时代，监管者在应对因失败的人工智能（AI）部署而留下的人工智能的安全性、偏差和法律方面的问题上行动迟缓。尽管针对最先进的AI模型的安全性、偏差和法律问题展开讨论是合理且必要的，但缺乏严格的现实可行的数学框架来监管AI。我们的论文应对了这一挑战，提出了一个拍卖机制的监管方法，该机制能够证明激励设备 (i) 部署符合要求的模型和 (ii) 参与监管过程。我们将AI监管模型化为一种全支付拍卖，其中企业提交模型以获得批准。监管者实施合规门槛，并进一步奖励优于其同行的高合规度模型。我们推导出了纳什均衡，表明理性的代理将提交超过规定合规门槛的模型。实证结果表明，与基准监管机制相比，我们的监管拍卖提升了20%的合规率和15%的参与率，并超越了仅仅设定最低合规标准的更简单框架。

发布时间: 2/5/2025

查看原文

从自然语言到SQL：基于LLM的文本转SQL系统综述

作者: Ali Mohammadjafari, Anthony S. Maida, Raju Gottumukkala

arXiv:2410.01066v2 更新类型: replace-cross 摘要: 当使用检索增强生成（RAG）时，LLM在将自然语言查询转换为结构化和正确的SQL方面的SOTA表现得到了极大提升。不同于之前的回顾，本次综述提供了基于LLM的文本到SQL系统的全面研究，从早期基于规则的方法到使用（RAG）系统的先进LLM方法。我们讨论了基准、评估方法和评估指标。此外，我们还研究了使用图RAG以提高这些系统中的上下文准确性和模式链接。最后，我们强调了计算效率、模型稳健性以及数据隐私等关键挑战，以改善基于LLM的文本到SQL系统的性能。

发布时间: 2/5/2025

查看原文

后验均值钳位流：朝着最小均方误差的 PHOTO-REALISTIC 图像恢复

作者: Guy Ohayon, Tomer Michaeli, Michael Elad

arXiv:2410.00418v3 宣告类型: replace-cross 摘要：现实照片级图像恢复算法通常通过失真度量（例如，PSNR、SSIM）和感知质量度量（例如，FID、NIQE）进行评估，目标是在不牺牲感知质量的情况下达到最低可能的失真。为了实现这一目标，当前的方法通常尝试从后验分布中采样，或者优化失真损失（例如，MSE）和感知质量损失（例如，GAN）的加权和。与以往的工作不同，本文特别关注在完美感知索引约束下的最小MSE的最优估计器，即重建图像的分布与地面真实图像的分布相同。最近的一个理论成果表明，可以通过将后验均值预测（MMSE估计）最优传输到地面真实图像的分布来构建这样的估计器。受这一成果的启发，我们引入了后验均值校正流（PMRF），这是一种简单而高效的算法，用于近似此最优估计器。具体而言，PMRF首先预测后验均值，然后使用一个近似所需最优传输映射的校正流模型将结果传输到高质量图像。我们探讨了PMRF的理论用途，并展示了在多种图像恢复任务中，它始终优于以往的方法。

发布时间: 2/5/2025

查看原文

InfantCryNet：一种数据驱动的婴儿哭声智能分析框架

作者: Mengze Hong, Chen Jason Zhang, Lingxiao Yang, Yuanfeng Song, Di Jiang

arXiv:2409.19689v2 宣告类型: 替换-交叉摘要：理解婴儿哭声的意义是年轻父母照顾新生儿时的一大挑战。背景噪音的存在和缺乏标注数据给开发能够检测哭声并分析其背后原因的系统带来了实际挑战。在这篇论文中，我们提出了一种新的数据驱动框架"InfantCryNet"，用于完成这些任务。为了解决数据稀缺的问题，我们利用预训练音频模型将先验知识融入到我们的模型中。我们提出了使用统计池化和多头注意力池化技术以更有效地提取特征。此外，我们应用了知识蒸馏和模型量化方法以提高模型效率并减少模型大小，从而更好地支持在移动设备上的工业部署。在真实数据集上的实验表明，提出的框架具有优越的表现，分类准确率比最先进的基线高出4.4%。模型压缩有效减少了模型大小7%，且在准确率下降8%的情况下最高可减少28%，提供了有关模型选择和系统设计的实用见解。

发布时间: 2/5/2025

查看原文

非扩张随机近似算法的渐近与有限样本分析（带马尔可夫噪声）

作者: Ethan Blaser, Shangtong Zhang

arXiv:2409.19546v4 宣布类型: 替换-交叉摘要：随机逼近是一类重要的算法，此前大量的分析主要集中于由压缩算子驱动的随机逼近，但在某些重要的强化学习设置中并不适用。本项工作转而研究仅由非扩张算子驱动的随机逼近。特别是，我们研究具有马尔可夫噪声的非扩张随机逼近，并提供了渐近和有限样本分析。分析的关键在于从泊松方程得出的噪声项的一些新颖界。作为应用，我们首次证明经典的表格平均奖励时移学习收敛到一条样本路径相关的固定点。

发布时间: 2/5/2025

查看原文

强化学习中的符号状态划分

作者: Mohsen Ghaffari, Mahsa Varshosaz, Einar Broch Johnsen, Andrzej W\k{a}sowski

arXiv:2409.16791v3 宣布类型: 替换-交叉摘要：表格强化学习方法无法直接作用于连续状态空间。解决这一问题的一种方法是划分状态空间。良好的划分能够促进学习过程中的泛化，并更有效地利用先前的经验。因此，学习过程会变得更快，产生的策略也更可靠。然而，划分引入了近似，特别是在状态组件之间存在非线性关系的情况下，这种近似尤为有害。理想的划分应该尽可能粗糙，同时能够捕捉给定问题的状态空间的关键结构。本工作通过符号执行从环境动力学中提取划分。我们展示了符号划分能提高状态空间覆盖度，特别是在环境行为方面，并允许在稀疏奖励的情况下强化学习表现得更好。我们按照精度、可扩展性、学习代理性能和学习策略的状态空间覆盖度来评估符号状态空间划分。

发布时间: 2/5/2025

查看原文

QMOS: 通过问题遮蔽损失和选项打乱提升电信领域的LLM

作者: Blessed Guda, Gabrial Zencha Ashungafac, Lawrence Francis, Carlee Joe-Wong

arXiv:2409.14175v2 通报类型: replace-cross 摘要：大规模语言模型（LLMs）在问答（QA）系统领域带来了重大进展。这些模型在各种学科中应对复杂查询方面表现卓越。然而，由于领域特定的词汇、复杂的科学技术概念以及对精确回答的要求，将LLMs应用于 Telecom等专业领域带来了额外的挑战。最近的一项工作中使用了GPT-3.5，在检索增强生成（RAG）框架中获得了与电信相关的问题的显著精度。尽管取得了这些进展，但像GPT-3.5这样的模型因其专有性质和高计算需求限制了其实用应用。本文介绍了QMOS，这是一种创新的方法，使用问题屏蔽损失和选项打乱技巧来增强LLMs在电信领域回答多项选择题的性能。我们的重点是使用开源、较小的语言模型（Phi-2 和 Falcon-7B）来增强改进的RAG框架。我们的多方面方法涉及对整个LLM-RAG流水线（包括微调、检索、提示工程和推理）的多项改进。我们的方法显著优于现有结果，Falcon-7B 的基线改进达到 24.70% 至 49.30%，Phi-2 的基线改进达到 42.07% 至 84.65%。

发布时间: 2/5/2025

查看原文

小提琴差分：通过音高偏移条件增强表达性小提琴合成

作者: Daewoong Kim, Hao-Wen Dong, Dasaem Jeong

arXiv:2409.12477v2 通知类型: replace-cross 摘要：建模基础频率（F0）的自然轮廓在音乐音频合成中起着关键作用。然而，在多声部音乐中转录和管理多个F0轮廓是具有挑战性的，且在多声部乐器合成中尚未探索明确的F0轮廓建模。本文介绍了ViolinDiff，一个基于扩散的两阶段合成框架。对于给定的小提琴MIDI文件，第一阶段估计F0轮廓作为音高弯曲信息，第二阶段生成包含这些表达细节的梅尔频谱图。定量指标和听感测试结果表明，所提出的模型生成的小提琴声音比未进行明确音高弯曲建模的模型更加真实。在线音频样本可在daewoung.github.io/ViolinDiff-Demo获取。

发布时间: 2/5/2025

查看原文

从挑战与 pitfalls 到建议与机遇：在医疗保健中实施联邦学习

作者: Ming Li, Pengcheng Xu, Junjie Hu, Zeyu Tang, Guang Yang

arXiv:2409.09727v2 宣告类型: replace-cross 摘要：联邦学习在确保数据隐私和安全的同时，为多个中心之间的大规模医疗健康研究和协作提供了巨大的潜力。尽管最近有多项研究建议或利用基于联邦学习的方法，但尚不清楚哪些方法具有临床实用性。这篇综述论文考虑并分析了截至2024年5月描述医疗健康中基于联邦学习方法的研究。经过彻底的审查，我们发现绝大多数研究由于其方法学缺陷和/或潜在偏见（包括但不限于隐私问题、泛化问题和通信成本）而不适用于临床使用。因此，联邦学习在医疗健康中的有效性受到显著影响。为了克服这些挑战，我们提供了可能实施的建议和有前景的机会，以解决这些问题并改善医疗健康中联邦学习模型开发的质量。

发布时间: 2/5/2025

查看原文