arXiv:2502.08941v1 类型: cross
摘要: 本文分析了在“致命三角”场景下的多步时差(TD)-学习算法,该场景包括线性函数近似、离策学习和自助学习。特别地,我们证明随着采样时间窗\(n\)的充分增大,\(n\)步TD学习算法会收敛到一个解。本文分为两个部分。在第一部分中,我们全面研究了它们基于模型的确定性对应算法的基本性质,包括投影价值迭代、梯度下降算法,这些算法可以视为原型确定性算法,其分析对理解和开发其基于模型的自由强化学习对应算法起着关键作用。特别地,我们证明当\(n\)足够大时,这些算法会收敛到有意义的解。基于这些发现,在第二部分中,提出了两种\(n\)步TD学习算法并进行了分析,这些算法可以被视为基于模型的确定性算法的基于模型的自由强化学习对应算法。
arXiv:2502.08939v1 Announce Type: 切分类型
摘要:近期在神经音频编解码器方面的进展使得在语音生成任务中使用令牌化的音频表示成为可能,如文本转语音、文本转音频和文本转音乐生成。基于这种方法,我们提出了一种新的神经合成器 TokenSynth,它利用仅解码器的变压器从 MIDI 令牌和 CLAP(对比语言-音频预训练)嵌入生成所需的音频令牌,CLAP 嵌入包含了音色相关的信息。我们的模型在无需微调的情况下可以执行乐器克隆、文本到乐器合成以及文本引导的音色操纵。这种灵活性使得声音设计多样化和直观的音色控制成为可能。我们使用客观指标评估了合成音频的质量、合成音频与目标音频/文本的音色相似度以及合成精度(即其如何准确地遵循输入的 MIDI)。TokenSynth 显示了利用先进的神经音频编解码器和变压器创建强大且多功能的神经合成器的潜力。相关源代码、模型权重和音频演示可在以下网址获取:https://github.com/KyungsuKim42/tokensynth
arXiv:2502.08924v1 交叉发布类型: cross
摘要: 合成生成的数据在训练大型语言模型中扮演着越来越重要的角色。然而,虽然合成数据已被证明是有用的,但研究也表明,如果没有适当的编目,它会导致LLM(大型语言模型)在训练多次迭代后性能停滞不前,甚至“崩溃”。在本文中,我们正式提出这一问题,并开发了一个理论框架来研究为了确保LLM性能持续改善,需要多少编目。我们发现这些要求几乎是最低的。我们描述了一种训练程序,即使几乎所有非合成训练数据的质量都很差,该程序也能收敛到最优的LLM。我们的分析灵感源自于增强学习,这是一种经典机器学习技术,利用一个非常弱的学习算法来产生任意好的分类器。我们的训练程序包含了最近提出的许多关于在合成数据上训练LLM的方法,因此我们的分析揭示了它们成功的原因,并指出了未来改进的机会。我们进行了实验来验证我们的理论,并展示了动态集中在最具挑战性的示例上的标注资源(类似于增强学习中弱学习者的努力),能够提高性能。
arXiv:2502.08923v1 Announce Type: cross
摘要: 我们介绍了 CopySpec,一种旨在解决大型语言模型在生成与先前输出高度相似的响应时遇到的低效问题的创新技术。CopySpec 识别模型聊天历史中的重复序列,并推测相同的标记将会跟随,从而实现无缝复制,同时不牺牲输出质量或需要额外的 GPU 内存。为了评估该方法的有效性,我们在五种大型语言模型(LLM)和五种数据集中进行了实验:MT-Bench、CNN/DM、GSM-8K、HumanEval,以及我们在本文中新创建的数据集 MT-Redundant。MT-Redundant 将 MT-Bench 的第二轮转换为对第一轮答案变体的请求,模拟用户请求对先前响应进行修改的真实场景。我们的结果表明,显著的加速:在 CNN/DM 上高达 2.35 倍,在 MT-Redundant 选定类别的第二轮上高达 3.08 倍,在 GSM-8K 自我纠正任务的第三轮上高达 2.66 倍。此外,我们展示了 CopySpec 无缝集成到了预测性解码中,在 MT-Redundant 的所有八个类别中,与预测性解码相比,对 MT-Redundant 的第二轮平均提高了 49% 的速度。虽然即使带有预测性解码,随着上下文大小的增大,大型语言模型的推理也会变慢,但 CopySpec 利用扩展的上下文来加速推理,使得在上下文大小增加时其更快。我们的代码和数据集可在 https://github.com/RazvanDu/CopySpec 公开获得。
arXiv:2502.08920v1 类别: cross
摘要: 会话式AI聊天机器人在客户服务行业中越来越常见。尽管在情感发展方面取得了进步,但它们往往缺乏真实客户服务互动的真实感或服务提供商的专业能力。通过在30名参与者中比较情感敏感和非情感敏感的基于LLM的聊天机器人,我们旨在探讨聊天机器人的情感敏感性如何影响客户服务互动中感知的专业能力和总体客户满意度。此外,我们运用情感分析技术来分析和解释用户的输入情感内容。我们指出,即使问题解决率没有受到影响,情感敏感的聊天机器人在信任感和专业能力方面的感知也更高。我们讨论了情感敏感聊天机器人改进用户满意度的意义及其在支持服务中的潜在应用。
arXiv:2502.08916v1 交叉类型诊断
摘要:通过组织学全切片图像(WSI)诊断疾病是现代病理学的基础,但WSI的亿级像素规模和复杂性带来了挑战。经过训练的病理科专家通过导航WSI、寻找相关切片、做笔记并整理这些信息以生成最终的整体诊断来克服这一挑战。传统的AI方法,如实例学习和基于变压器的模型,无法实现这种整体、迭代、多尺度的诊断过程,限制了其在现实世界中的应用。我们提出了一种多模态、多代理框架PathFinder,该框架模仿了专家病理科医生的决策过程。PathFinder集成了四个AI代理——分诊代理、导航代理、描述代理和诊断代理,它们协同工作,导航WSI,收集证据,并提供以自然语言解释为基础的全面诊断。分诊代理将WSI分类为良性或有风险;如果是有风险的情况,导航代理和描述代理将迭代地关注重要区域,生成重要性地图和样本切片的描述性见解。最后,诊断代理综合这些发现来确定患者的诊断分类。我们的实验表明,PathFinder在皮肤黑色素瘤诊断上比最先进的方法高出8%,并通过自然语言描述诊断相关切片来提供内在的可解释性。病理学家的定性分析表明,描述代理的输出质量高,并与GPT-4o相当。PathFinder还是首个在这一具有挑战性的黑色素瘤分类任务中超越平均病理学家性能9%的AI系统,为病理学中高效、准确和可解释的人工智能辅助诊断设定了新纪录。数据、代码和模型可在https://pathfinder-dx.github.io/获得。
arXiv:2502.08914v1 命中类型: cross
摘要:文本到图像的扩散模型最近使得从文本提示生成视觉上引人注目且细节丰富的图像成为可能。然而,它们能否准确表现各种文化 nuance 方面仍是一个开放的问题。在我们的工作中,我们引入了 CultDiff 基准,评估最先进的扩散模型是否能够生成涵盖十个不同国家的文化特定图像。我们通过精细分析不同的相似性方面,展示了这些模型往往在建筑、服装和食品等方面未能生成文化符号,尤其是在欠代表的国家地区,这些模型与真实世界的参考图像相比,在文化相关性、描述准确性以及真实性方面存在显著差异。利用收集的人类评估,我们开发了一种基于神经网络的图像-图像相似性度量方法,即 CultDiff-S,用于预测真实图像与包含文化符号的生成图像的人类评判。我们的工作强调了需要更包容的生成人工智能系统和广泛文化范围内的公平数据集表示的必要性。
arXiv:2502.08909v1 类别:交叉学科
摘要:事实核查对于应对不断增长的虚假信息至关重要。传统的事实核查依赖于手工分析来验证声明,但这种方式速度慢且资源密集。本研究通过在多种标签方案(二分类、三分类、五分类)下使用大型语言模型(LLMs)建立了自动事实核查(AFC)的基线比较,并在传统的声明验证中引入了分析、裁决分类和说明的结构化设置,以提供对实际声明的全面说明。我们使用证据检索的受限网络搜索收集了17,856条从PolitiFact(2007-2024)获取的声明,对Llama-3的不同规模模型(3B、8B、70B)进行了评估。我们利用TIGERScore作为参考自由评估指标来评分说明。我们的结果显示,未经微调的大型LLMs在分类准确性和说明质量方面始终优于小型LLMs。我们发现,在单次场景下,小型LLMs的表现与大型上下文尺寸的微调小型语言模型(SLMs)相当,而大型LLMs则始终超越它们。证据整合在所有模型中都提高了性能,大型LLMs受益最大。区分细微标签仍然具有挑战性,强调了进一步探索标签方案和证据对齐的必要性。我们的研究结果证明了使用LLMs增强检索的事实核查的潜力。
arXiv:2502.08903v1 交叉公告类型
摘要:视觉-语言模型(VLMs)在场景理解和感知任务中取得了显著的成功,使机器人能够在动态环境中适应性地计划和执行动作。然而,大多数多模态大语言模型缺乏稳健的3D场景定位能力,限制了它们在精细机器人操作中的有效性。此外,低识别准确性、低效性、较差的迁移性和可靠性等挑战妨碍了它们在精密任务中的应用。为了解决这些限制,我们提出了一种新型框架,该框架通过将2D图像映射到点云中来集成一个2D提示合成模块,并结合一个小语言模型(SLM)来监督VLM输出。2D提示合成模块使VLMs能够自主提取精确的3D空间信息,无需人工干预,显著增强了3D场景理解。同时,SLM监督VLM输出,减轻幻觉现象,确保可靠的可执行机器人控制代码生成。该框架消除了在新环境中重新训练的需求,从而提高了成本效率和操作鲁棒性。实验结果表明,所提出的框架实现了96.0%的任务成功率(TSR),超过了其他方法。消融研究证明了2D提示合成模块和输出监督模块的关键作用(当这两个模块被移除时,TSR下降了67%)。这些发现验证了该框架在提高3D识别、任务规划和机器人任务执行方面的有效性。
arXiv:2502.08898v1 类型: cross
摘要:网络中的路由器使用简单的学习算法来找到将数据包传递到目标的最佳路径。这种简单、短视且分布式决策系统使得大型排队系统易于操作,但同时系统需要比所有流量集中协调所需的空间更多的容量。最近,Gaitonde 和 Tardos(EC 2020 和 JACM 2023)开始研究这类系统,将它们建模为一个无限重复的游戏,在这个游戏中,路由器竞争服务器,并且系统维护一种状态(每个队列持有数据包的数量),该状态源自之前轮次的结果。队列在每一步向其中一个服务器发送一个数据包,服务器尝试处理其中一个到达的数据包,模拟路由器。然而,他们的模型假设服务器完全没有任何缓冲区,所以队列必须重传所有未成功处理的数据包。他们表明,即使相对于集中协调所需的空间,服务器容量大幅增加,确保系统稳定也需要使用时间戳和优先级来处理较老的数据包。我们考虑了一个系统的两个重要变化,使得模型更加现实:首先,我们为每个服务器添加了一个非常小的缓冲区,允许它保留一个数据包以供以后处理(即使未能处理它);其次,我们不要求时间戳或较老数据包的优先级。我们的主要结果是,当队列在学习时,与集中协调所需的空间相比,只需小小的常数因子增加的服务器容量就足以保持系统的稳定,即便服务器在同时到达的数据包中随机选择。这项工作为越来越受到关注的带有跨轮次影响系统的自私学习影响的研究做出了贡献:当前轮次的结果会影响未来游戏的结果。