我们提出了 ORC-ManL,这是一种新的算法,它使用基于 Ollivier-Ricci 曲率和估计度量失真的标准来修剪最近邻图中的虚假边。我们的动机来自于流形学习:我们表明,当生成最近邻图的数据由来自低维流形的噪声样本组成时,穿过环境空间的捷径比沿着数据流形的边具有更负的 Ollivier-Ricci 曲率。我们证明了我们的方法优于其他修剪方法,并且它显着提高了许多使用最近邻图作为输入的下游几何数据分析任务的性能。具体来说,我们在流形学习、持久同源性、维数估计等方面进行了评估。我们还表明,ORC-ManL 可用于改进单细胞 RNA 测序数据的聚类和流形学习。最后,我们提供了支持我们理论发现的经验收敛实验。
许多机器学习公平性问题缓解方法已被开发出来。我们发现,仅仅使用线性混淆这种数据增强技术来缓解偏差,仍然可能保留数据集中标签中存在的偏差。本文的研究旨在通过提出一种新颖的预处理策略来解决这个问题,该策略可以利用现有的混淆方法和我们新的偏差缓解算法来改进增强样本标签的生成,这些标签是接近感知的。具体来说,我们提出了 ProxiMix,它保留了成对关系和邻近关系,以实现更公平的数据增强。我们对三个数据集、三个机器学习模型和不同的超参数设置进行了彻底的实验。我们的实验结果表明 ProxiMix 在预测公平性和补救公平性方面均有效。
本研究探讨了针对大型经济学研究论文标题的自然语言处理数据集的有效去重技术。我们探索了各种配对方法以及已建立的距离度量(莱文斯坦距离、余弦相似度)和 sBERT 模型用于语义评估。我们的发现表明,基于不同方法观察到的语义相似性,重复项的潜在发生率可能较低。为了更全面地评估,我们使用人工标注的真实数据集进行了进一步探索。结果支持从 NLP、基于 LLM 的距离度量得出的发现。
我们提出了一种新的神经网络架构,即在超球面上进行表示学习的归一化Transformer (nGPT)。在nGPT中,所有构成嵌入、MLP、注意力矩阵和隐藏状态的向量都进行单位范数归一化。令牌的输入流在超球面的表面上移动,每一层都朝着目标输出预测贡献一个位移。这些位移由MLP和注意力块定义,它们向量的分量也位于同一个超球面上。实验表明,nGPT学习速度快得多,将达到相同精度的训练步骤数量减少了4到20倍,具体取决于序列长度。
近年来,文本转语音 (TTS) 技术的进步使得语音克隆 (VC) 变得更加逼真、经济实惠且易于获取。这引发了这项技术潜在的滥用,例如乔·拜登的新罕布什尔州深度伪造自动电话。人们提出了多种方法来检测此类克隆。然而,这些方法是在相对干净的数据库上进行训练和评估的。最近,ASVspoof 5 挑战赛引入了一个新的众包数据库,该数据库包含各种声学条件,包括各种欺骗攻击和编解码器条件。本文是我们对 ASVspoof 5 挑战赛的投稿,旨在研究音频欺骗检测的性能,该检测是使用通过洗钱攻击进行数据增强训练的,并在 ASVSpoof 5 数据库上进行评估。结果表明,我们的系统在 A18、A19、A20、A26 和 A30 欺骗攻击以及 C08、C09 和 C10 的编解码器和压缩条件下表现最差。
推理系统的一个关键属性是能够对其输入数据做出明确的决策。对于当代人工智能系统而言,softmax 函数是明确行为的关键载体,它具有执行可微查询-键查找的能力。人们普遍认为,利用 softmax 的网络的预测能力源于“电路”,这些电路能够在许多不同的输入中始终如一地执行某些类型的计算。然而,为了使这些电路具有鲁棒性,它们需要很好地泛化到任意有效的输入。在本文中,我们揭穿了这种神话:即使对于像找到最大键这样简单的任务,任何学习到的电路都必须随着测试时项目数量的增长而分散。我们将此归因于 softmax 函数在稳健地逼近尖锐函数方面的基本局限性,从理论上证明了这种现象,并提出了自适应温度作为一种在推理时提高 softmax 尖锐度的临时技术。
大型语言模型 (LLM) 在许多自然语言处理任务中取代了传统方法。然而,在命名实体识别 (NER) 中,现有的基于 LLM 的方法...
游戏开发是一项高度技术性的实践,传统上需要编程技能。这对于想要成为开发者或希望将游戏作为其创意表达方式的一部分的人来说是一个进入门槛。虽然以前有一些专注于可访问性的游戏开发工具,但它们通常仍然需要编程,或者在可制作的游戏类型方面存在重大限制。在本文中,我们介绍了 Mechanic Maker,这是一种无需编程即可创建各种游戏机制的工具。它依赖于后端符号学习系统从示例中合成游戏机制。我们进行了一项用户研究,以评估该工具对具有各种编程和游戏开发经验的参与者的益处。我们的结果表明,参与者使用该工具的能力与编程能力无关。我们得出结论,像我们这样的工具可以帮助民主化游戏开发,使这种实践无论编程技能如何都变得触手可及。
差分隐私是形式化和可量化隐私的主流标准,已被用于影响数百万人的重大部署。许多用于查询发布和合成数据的差分隐私算法包含从机制测量到的其他查询的答案重建查询答案的步骤。重建是此类机制的重要子问题,用于节约隐私预算,最小化重建答案的误差,并允许扩展到高维数据集。在本文中,我们介绍了一种用于重建边缘查询答案的原则性且高效的后处理方法 ReM(残差到边缘)。我们的方法建立在最近关于高效边缘查询发布机制的工作基础上,该工作基于使用残差查询基进行测量,该基允许高效的伪逆运算,这是重建中使用的重要原语。扩展 GReM-LNN(具有局部非负性的高斯残差到边缘)在满足一致性和非负性的高斯噪声下重建边缘,这通常会减少重建答案的误差。我们通过将 ReM 和 GReM-LNN 应用于改进现有的私有查询回答机制(ResidualPlanner 和 MWEM)来证明其实用性。
自大型语言模型 (LLM) 出现以来,将自然语言查询转换为结构化的 SQL 命令变得越来越重要。与之前的综述不同,本综述对基于 LLM 的文本到 SQL 系统的演变进行了全面研究,从早期的基于规则的模型到先进的 LLM 方法,以及 LLM 如何影响该领域。我们讨论了基准、评估方法和评估指标。此外,我们独特地研究了知识图谱集成在这些系统中提高上下文准确性和模式链接的作用。当前的技术分为两类:语料库的上下文学习和微调,这最终导致了零样本、少样本学习以及数据增强等方法。最后,我们强调了计算效率、模型鲁棒性和数据隐私等关键挑战,并从其发展和改进的角度展望了基于 LLM 的文本到 SQL 系统未来的潜在领域。