arXiv 论文列表

作者: Wentao Cheng, Zhida Qin, Zexue Wu, Pengzhan Zhou, Tianyu Huang

arXiv:2504.05694v1 类型: cross 摘要: 大型语言模型（LLMs）因其卓越的全球知识能力而在推荐系统中引起了广泛关注。然而，现有的依赖欧几里得空间的方法很难捕捉文本和语义数据中固有的丰富层次信息，而这些信息对于捕捉用户偏好是必不可少的。双曲空间的几何性质为解决这一问题提供了有希望的解决方案。不过，将基于LLM的方法与双曲空间有效结合以提取和整合多样化的层次信息并非易事。为此，我们提出了一种模型无关的框架，名为HyperLLM，该框架从结构和语义两个方面提取和整合层次信息。从结构上看，HyperLLM 使用LLM 为每个项目生成具有层次关系的多级分类标签（父标签-子标签关系）。然后，通过对比学习，共同学习和对齐标签-项目和用户-项目交互，从而为模型提供清晰的层次信息。从语义上看，HyperLLM 引入了一种新颖的元优化策略，从语义嵌入中提取层次信息，并填补语义空间和协同空间之间的差距，以便无缝集成。广泛的实验显示，HyperLLM 显著优于基于双曲空间和LLM 的推荐系统，性能提高超过40%。此外，HyperLLM 不仅提高了推荐系统性能，还增强了训练稳定性，突显了层次信息在推荐系统中的关键作用。

发布时间: 4/9/2025

查看原文

STRIVE：一种带有迭代改进的思考与提高方法以提升问题质量估计

作者: Aniket Deroy, Subhankar Maity

arXiv:2504.05693v1 类型: cross 摘要：自动评估问题质量对于教育工作者至关重要，因为它可以节省时间、确保一致性并为改进教学材料提供即时反馈。我们提出了一种名为STRIVE（结构化思考和完善以提高验证问题估计）的新方法，利用一系列大型语言模型（LLMs）进行自动问题评估。该方法旨在提高问题质量评估的准确性和深度，最终支持多样化的学习者并提升教育实践。该方法通过生成多个基于所提供问题的优点和缺点的评估来自动估计问题质量，然后选择由LLM生成的最佳解决方案。然后通过与另一个LLM进行迭代的审查和响应，直到评估指标值收敛，从而改进该过程。这种复杂的评估问题质量的方法通过自动化问题质量评估任务来提高对问题质量的估计。相关性分数显示，使用此提议的方法有助于与基线方法相比提高与人类判断的相关性。误差分析表明，通过使用STRIVE，相关度和适宜性等指标相对于人类判断显著提高。

发布时间: 4/9/2025

查看原文

kNN-SVC：基于添加剂合成和连接平滑优化的鲁棒零样本唱歌声音转换

作者: Keren Shao, Ke Chen, Matthew Baas, Shlomo Dubnov

arXiv:2504.05686v1 Announce Type: cross 摘要：零样本歌唱语音转换(SVC)的稳健性至关重要。本文介绍了一种增强kNN-VC框架稳健性的两种新颖方法。首先，kNN-VC的核心表示WavLM缺乏对谐波的重点强调，导致声音平淡无奇且存在回声伪影。为了应对这一问题，我们利用WavLM、音高轮廓和声谱图之间的双射关系进行加法合成，将生成的新波形整合进模型中，以缓解这些问题。其次，kNN-VC忽视了连接平滑性，这是SVC中的一个关键感知因素。为了提高连接平滑性，我们提出了一种新的距离度量，该度量可以筛选出不适合的kNN候选者，并在推理时优化候选者的求和权重。尽管我们的技术是在kNN-VC框架上进行实现以方便操作的，但它们普遍适用于一般性的连接神经合成模型。实验结果验证了这些修改在实现稳健的SVC方面的有效性。演示：http://knnsvc.com 代码：https://github.com/SmoothKen/knn-svc

发布时间: 4/9/2025

查看原文

TARO：基于起始意识条件的时间步自适应表示对齐同步视频到音频合成

作者: Tri Ton, Ji Woo Hong, Chang D. Yoo

arXiv:2504.05684v1 类别: cross 摘要: 本文介绍了一种名为 Timestep-Adaptive Representation Alignment with Onset-Aware Conditioning (TARO) 的新颖框架，该框架用于高保真且时空一致的视频到音频合成。TARO 基于基于流的变换器构建，这些变换器提供了稳定训练和增强同步和音频质量的连续变换。TARO 引入了两项关键技术创新：(1) Timestep-Adaptive Representation Alignment (TRA)，它通过根据噪声调度调整对齐强度来动态对齐潜在表示，从而确保平滑演化和提高保真度；(2) Onset-Aware Conditioning (OAC)，它结合了起始线索，这些线索作为音频相关视觉时刻的尖锐事件驱动标记，以增强与动态视觉事件的同步。在 VGGSound 和 Landscape 数据集上的 extensive 实验表明，TARO 超过了先前的方法，实现了相对 53% 较低的 Frechet 距离 (FD)、29% 较低的 Frechet 音频距离 (FAD) 和 97.19% 的对齐精度，突显了其卓越的音频质量和同步精度。

发布时间: 4/9/2025

查看原文

面向更智能的招聘：零-shot 和少-shot 预训练大语言模型适合用于人力资源口语面试记录分析吗？

作者: Subhankar Maity, Aniket Deroy, Sudeshna Sarkar

arXiv:2504.05683v1 宣布类型: cross 摘要：本研究论文对知名预训练大型语言模型（LLMs），包括GPT-4 Turbo、GPT-3.5 Turbo、text-davinci-003、text-babbage-001、text-curie-001、text-ada-001、llama-2-7b-chat、llama-2-13b-chat 和 llama-2-70b-chat 在提供评分、识别错误、并为候选人提供反馈和改进建议方面的性能，进行了全面分析，并将其与专家的人力资源（HR）面试评估进行了比较。我们介绍了一个名为 HURIT（人力资源面试转录）的数据集，该数据集包含3,890份来自实际人力资源面试场景的HR面试转录。我们的研究发现表明，预训练LLMs，特别是在提供评分方面，GPT-4 Turbo和GPT-3.5 Turbo表现出色，并能够生成与专家人力资源评估相当的评价。尽管这些LLMs在提供与人力资源专家相当的评分方面表现出色，但在HR面试中，它们经常无法识别错误，并为候选人的表现改进提供具体可操作的建议。我们的研究结果表明，当前最新的预训练LLMs不完全适合自动部署于HR面试评估。相反，我们的研究建议采取人工介入的方法，包括人工检查不一致性和改进反馈质量，作为更为合适的战略。

发布时间: 4/9/2025

查看原文

Nes2Net：一种轻量级嵌套架构，用于基础模型驱动的语音防伪

作者: Tianchi Liu, Duc-Tuan Truong, Rohan Kumar Das, Kong Aik Lee, Haizhou Li

arXiv:2504.05657v1 宣称类型: cross 摘要：语音基础模型通过提供卓越的表示能力，显著推进了各种语音相关的任务。然而，它们的高维输出特征往往与下游任务模型所需的低维输入存在不匹配，这些下游任务模型通常需要较低维度的输入。一个常见的解决方案是应用降维（DR）层，但这种方法会增加参数开销，增加计算成本，并且可能会损失有价值的信息。为了解决这些问题，我们提出了一种名为Nested Res2Net（Nes2Net）的轻量级后端架构，该架构设计用于直接处理高维特征而不使用DR层。嵌套结构增强了多尺度特征提取，提高了特征交互，并保留了高维信息。我们首先在CtrSVDD数据集——一个唱歌语音深伪检测数据集上验证了Nes2Net，并在最新基准上报告了22%的性能提升和87%的后端计算成本降低。此外，在跨越四个不同数据集（ASVspoof 2021、ASVspoof 5、PartialSpoof和In-the-Wild）的广泛测试中，涵盖了完全造假语音、对抗性攻击、部分造假以及真实世界场景，Nes2Net的一致展现出超群的鲁棒性和泛化能力。代码包和预训练模型可在 https://github.com/Liu-Tianchi/Nes2Net 获取。

发布时间: 4/9/2025

查看原文

lattice: 学习高效压缩内存

作者: Mahdi Karami, Vahab Mirrokni

arXiv:2504.05646v1 类型: cross 摘要：注意机制革命性地改变了序列学习，但存在二次时间复杂度的缺陷。本文提出了一种新型的递归神经网络（RNN）机制——Lattice，它利用K-V矩阵固有的低秩结构高效地压缩缓存到固定数量的内存槽中，实现了次二次时间复杂度。我们将这种压缩形式化为一个在线优化问题，并基于单一步梯度下降推导出动态内存更新规则。这种递归具备状态和输入依赖的门控机制，提供了一个可解释的内存更新过程。核心创新在于正交更新：每个内存槽仅根据与当前状态正交的信息进行更新，从而仅整合新颖的、不冗余的数据，以最小化对之前存储信息的干扰。实验结果表明，在多种上下文长度下，Lattice 的困惑度优于所有基线模型，且随着上下文长度的增加，性能提高更为明显。

发布时间: 4/9/2025

查看原文

基于人工智能的系统性长期投资

作者: Vasant Dhar, Jo\~ao Sedoc

arXiv:2504.05639v1 交叉公告类型摘要：长期投资以前被认为是需要人类判断的。随着生成性人工智能（AI）系统的出现，自动化的系统性长期投资现在变得可行。本文介绍了一种名为DBOT的系统，其目标是像Aswath Damodaran这样的投资领域专家那样进行估值。Damodaran以发表了数千家公司的估值报告以及在其对该主题的各种著作中提供了大量的训练数据而独具特色。DBOT可以估值任何公众交易公司。DBOT还经过了回测，使其行为和性能可以接受科学探究。我们将DBOT与其分析性父母Damodaran进行比较，并强调将提升其当前能力到Damodaran水平所面临的研发挑战。最后，我们探讨了类似DBOT的AI代理对金融行业的潜在影响，特别是它们将如何影响估值中的人类分析师角色。

发布时间: 4/9/2025

查看原文

朝向公平性推理：通过推理导向的微调减轻语言模型中的偏见

作者: Sanchit Kabra, Akshita Jha, Chandan Reddy

arXiv:2504.05632v1 类型:交叉摘要:近年来，在大规模生成语言模型方面的进展表明，推理能力可以显著提升模型在各种任务中的性能。然而，推理对模型减轻刻板反应能力的影响仍然很大程度上未被探索。在这项工作中，我们探讨了模型的推理能力与其公平性之间的关键关系，并询问是否可以通过改进推理能力来减轻有害的刻板反应，尤其是由于浅薄或有缺陷的推理产生的刻板反应。我们对多个开源的LLM进行了全面评估，并发现具有更强推理能力的较大模型在现有公平性基准上的刻板偏见显著较低。基于这一见解，我们引入了ReGiFT——基于推理的微调方法，这是一种新颖的方法，可以从高级推理模型中提取结构化的推理踪迹，并将其注入缺乏此类能力的模型中。我们仅使用通用推理，并不需要任何特定公平性的监督来减轻偏见。值得注意的是，我们发现使用ReGiFT微调的模型不仅相对于没有推理能力的同类模型提高了公平性，还在公平性基准上的表现也优于高级推理模型。我们还分析了推理踪迹的正确性和长度的变化如何影响模型的公平性和整体性能。我们的研究结果强调，提高推理能力是一种无偏见的策略，可以有效减轻由于推理缺陷引起的刻板偏见。

发布时间: 4/9/2025

查看原文

技术报告：几何学视角分析与优化DP-SGD的扰动

作者: Jiawei Duan, Haibo Hu, Qingqing Ye, Xinyue Sun

arXiv:2504.05618v1 宣告类型: cross 摘要: 差分隐私(DP)已成为广泛机器学习任务中的一种主流隐私模型，特别是在DP-SGD亮相之后。然而，DP-SGD直接在训练迭代中扰动梯度，未能减轻噪音对梯度方向的负面影响。因此，DP-SGD通常效率较低。尽管提出了一些解决方案（例如，梯度裁剪以降低梯度敏感性，并放大隐私边界以节省隐私预算），以在隐私与模型效率之间进行权衡，但其效率低下的根本原因尚未揭开。在这项工作中，我们首先扩展了DP-SGD，并从理论上推导出DP噪音对训练过程的影响。我们的分析揭示出，从扰动梯度的角度来看，只有方向上的噪音对模型效率有显著影响，而幅度上的噪音可以通过优化技术（如精细调整梯度裁剪和学习率）减轻。此外，我们确认，当向梯度本身添加无偏噪音时，传统的DP会在方向上引入有偏的噪音。总体而言，DP-SGD的扰动实际上从几何学角度来看是次优的。受此启发，我们设计了一种在DP框架内的几何扰动策略GeoDP，分别扰动梯度的方向和幅度。通过直接减少方向上的噪音，GeoDP在保持相同DP保障的情况下减轻了DP噪音对模型效率的负面影响。在两个公开数据集（即MNIST和CIFAR-10）、一个合成数据集和三种常见模型（即逻辑回归、CNN和ResNet）上的广泛实验确认了我们策略的有效性和普适性。

发布时间: 4/9/2025

查看原文