arXiv 论文列表

作者: Yuncheng Hua, Yujin Huang, Shuo Huang, Tao Feng, Lizhen Qu, Chris Bain, Richard Bassed, Gholamreza Haffari

arXiv:2406.15490v2 通告类型: replace-cross 摘要：本文在未监督领域自适应的背景下处理情绪-因果对提取的任务。这个问题具有挑战性，因为目标领域导致情绪的事件分布与源领域中的事件分布截然不同，尽管不同领域的情绪表达分布存在重叠。受因果发现的启发，我们提出了一种新颖的变分自编码器（VAE）框架内的深度潜在模型，不仅能捕获数据的潜在结构，还能利用情绪的易于转移的知识作为桥梁，连接不同领域事件的分布。为了促进领域间知识的转移，我们还提出了一种新颖的变分后验正则化技术，以分离情绪和事件的潜在表示，从而减轻源领域中事件引起的虚假相关性造成的损害。通过广泛的实验，我们证明了我们的模型在中文基准上的加权平均F1分数相对于最强大的基线提高了约11.05%，在英文基准上提高了约2.45%。我们已将源代码和生成的数据集公开发布在：https://github.com/tk1363704/CAREL-VAE。

发布时间: 2/18/2025

查看原文

DialSim：多轮对话系统对话理解的实时仿真评测工具

作者: Jiho Kim, Woosog Chay, Hyeonji Hwang, Daeun Kyung, Hyunseung Chung, Eunbyeol Cho, Yohan Jo, Edward Choi

arXiv:2406.13144v5 通知类型: 替换-交叉摘要: 近期大型语言模型（LLMs）的发展显著增强了对话系统的功能，使其适用于各个领域（例如教育）。尽管取得了进展，但这些系统的评估往往忽略了现实对话的复杂性，如实时互动、多方对话和扩展的上下文依赖性。为弥合这一差距，我们引入了DialSim，一个实时对话模拟器。在该模拟器中，对话系统被赋予来自热门电视剧中角色的角色，要求其使用过去的对话信息来回应突发问题，并区分已知信息和未知信息。DialSim的关键功能包括评估系统在合理时间内响应的能力，处理长期多方对话，以及使用LongDialQA，一个新型高质量的问题回答数据集，在随机提问下评估性能。我们使用DialSim的实验揭示了最新对话系统的优缺点，为未来对话式人工智能的进步提供了宝贵见解。DialSim可在https://dialsim.github.io/获取。

发布时间: 2/18/2025

查看原文

面向问题的视角和锚验证icodeOptimization

作者: Tong Ye, Tengfei Ma, Xuhong Zhang, Hang Yu, Jianwei Yin, Wenhai Wang

arXiv:2406.11935v2 宣告类型: replace-cross 摘要：大型语言模型（LLMs）在解决各种编程任务方面展现了 remarkable 的能力，例如代码生成。然而，它们在代码优化方面的潜力，特别是性能提升方面，仍然 largely 未被探索。本文研究了LLMs 在优化代码以达到最小执行时间方面的能力，弥补了当前研究中的一个关键缺口。最近提出的代码优化数据集基于同一程序员对同一问题进行迭代提交来构建程序优化对。然而，这种方法限制了LLMs 在局部性能改进方面的能力，忽略了全球算法创新。为了克服这一限制，我们从完全不同的视角出发，通过将优化对重构为问题导向的方法来解决问题。这使得可以整合来自多个解决同一问题的程序员的多种想法。实验结果表明，使LLMs 适应问题导向的优化对显著增强了它们的优化能力。此外，考虑到代码优化固有的权衡，我们引入了一种锚点验证机制，以减轻“优化税”。最终，我们的方法将优化比率和加速提高到了新的水平。

发布时间: 2/18/2025

查看原文

CELL你的模型：大型语言模型的对比解释

作者: Ronny Luss, Erik Miehling, Amit Dhurandhar

arXiv:2406.11785v3 公告类型: replace-cross 摘要：黑箱深度神经网络分类模型的出现引发了对其决策的解释需求。然而，在生成型AI（如大型语言模型LLMs）的情况下，并没有类别的预测可以进行解释。相反，可以通过询问LLM为什么会对给定的提示输出特定的回应来进行解释。在这篇论文中，我们通过提出一种仅需黑箱/查询访问的对比解释方法来回答这个问题。我们的解释表明，LLM对给定提示输出某个答复的原因是，如果稍微修改这个提示，LLM将会给出一个不同的回应，这个新的回应要么不如原来的回应理想，要么与原来的回应矛盾。关键洞察是，对比解释只需要一个有意义于用户的评分函数，而不需要一定是一种具体的实数值（例如类别标签）。为此，我们提供了一个新颖的预算算法，这是我们算法的主要贡献之一，该算法能够智能地根据这样的评分函数创建对比，同时遵守查询预算，这对于较长的上下文环境是必要的。我们展示了我们的方法在诸如开放式文本生成和聊天机器人对话等重要自然语言任务上的有效性。

发布时间: 2/18/2025

查看原文

揭晓源数据的力量：基于源数据的最小贝叶斯风险解码在神经机器翻译中的应用

作者: Boxuan Lyu, Hidetaka Kamigaito, Kotaro Funakoshi, Manabu Okumura

arXiv:2406.11632v4 通知类型: replace-cross 摘要：最大后验解码是神经机器翻译（NMT）中常用的一种方法，其目标是最大化估计后验概率。然而，高估计概率并不总是导致高质量的翻译结果。最小贝叶斯风险（MBR）解码（参见 Kumar, 2004）提供了一种替代方案，通过寻求具有最高预期效用的假设来实现这一目标。受Quality Estimation（QE）重排序启发（参见 Fernandes 等人, 2022），我们提出了一种基于源的MBR（sMBR）解码方法。该方法利用通过改写或反向翻译生成的“支持假设”和无参考的质量估计指标作为效用函数，这是首次单独使用源进行MBR解码的工作。实验表明，sMBR在性能上优于QE重排序和标准的MBR解码。我们的研究结果表明，sMBR是一种有前景的NMT解码方法。

发布时间: 2/18/2025

查看原文

DiTTo-TTS：适用于无需领域特定因素的可扩展文本到语音的扩散变换器

作者: Keon Lee, Dong Won Kim, Jaehyeon Kim, Seungjun Chung, Jaewoong Cho

arXiv:2406.11427v2 宣言类型: replace-cross 摘要：大规模潜在扩散模型（LDMs）在各种模态的内容生成方面表现出色，但在文本转语音（TTS）中对音素和时长的依赖限制了其在其他领域的可扩展性和访问性。尽管最近的研究在去除这些领域特定因素方面显示出潜力，但性能仍然不尽如人意。在此工作中，我们引入了DiTTo-TTS，这是一种基于扩散变换器（DiT）的TTS模型，以研究是否可以去除领域特定因素的同时实现TTS的最先进技术性能。通过严格的分析和经验探索，我们发现：（1）经过最少修改的DiT优于U-Net，（2）带有语音长度预测器的变长建模显著优于固定长度方法的结果，以及（3）如言语潜在表示中的语义对齐等条件是进一步改进的关键。通过扩大我们的训练数据到82,000小时，并将模型大小扩大到7.9亿个参数，我们实现了在自然性、清晰度和说话人相似性方面的优越或可比较的零样本性能，所有这些都不依赖于领域特定因素。语音样本可在https://ditto-tts.github.io 获取。

发布时间: 2/18/2025

查看原文

DP-MemArc：高效内存语言模型的差分隐私迁移学习

作者: Yanming Liu, Xinyue Peng, Yuwei Zhang, Xiaolan Ke, Songhang Deng, Jiannan Cao, Chen Ma, Mengchen Fu, Sheng Cheng, Xun Wang, Jianwei Yin, Tianyu Du, Xuhong Zhang

arXiv:2406.11087v4 宣告类型: replace-cross 摘要：大型语言模型在多种应用中多次展现出卓越的性能。然而，部署这些模型可能会无意中威胁用户隐私。训练过程中对内存的巨大需求在资源消耗方面构成了重大挑战。这种庞大的规模给内存资源带来了沉重的负担，提出了显著的实际关切。在本文中，我们引入了DP-MemArc，这是一种新颖的训练框架，旨在减少大型语言模型的内存成本，同时强调用户数据隐私的保护。DP-MemArc融合了侧网络或可逆网络设计，以支持各种差分隐私内存高效微调方案。我们的方法不仅实现了内存优化，还确保了稳健的隐私保护，使用户数据安全保密。广泛的实验证明，DP-MemArc有效提供了在不同任务场景下的差分隐私高效微调。

发布时间: 2/18/2025

查看原文

ExPLoRA：在域移位下适配视觉Transformer的参数高效扩展预训练

作者: Samar Khanna, Medhanie Irgau, David B. Lobell, Stefano Ermon

arXiv:2406.10973v3 宣称类型：替换交叉摘要：参数高效微调（PEFT）技术，如低秩适应（LoRA）能够仅使用原始可训练权重的很小一部分（0.1%-10%）有效地将大型预训练基础模型适配到下游任务。PEFT的一个未被充分探索的问题是如何在没有监督标签的情况下扩展预训练阶段；也就是说，在新领域中，我们能否利用高效的无监督预训练来适配预训练的基础模型？在本文中，我们提出了ExPLoRA，这是一种高效的技术，用于在领域转换下提高预训练视觉变换器（ViTs）的迁移学习性能。通过在大规模自然图像数据集（如DinoV2或MAE）上初始化ViT，并在其上继续进行无监督预训练目标的训练，ExPLoRA解冻1-2个预训练ViT块，并使用LoRA调整所有其他层。然后，我们仅使用LoRA对由此生成的模型进行微调，以用于监督学习的新领域。我们的实验结果在卫星图像上展示了最先进的成果，甚至超过了完全预训练和微调ViTs的方法。使用DinoV2训练目标，我们证明在下游任务的线性探测任务中，相比于之前已有的全微调方法，我们使用的参数数量不到10%，但最高可提高8%的顶级准确性。我们的消融实验证实了我们方法的有效性，优于其他基线，包括PEFT和其他更多的ViT块。源代码可在项目网站上获得：https://samar-khanna.github.io/ExPLoRA/

发布时间: 2/18/2025

查看原文

FairCoT：通过多模态大语言模型的链式思考推理增强文本到图像生成的公平性

作者: Zahraa Al Sahili, Ioannis Patras, Matthew Purver

arXiv:2406.09070v3 通知类型: 替换-交叉摘要：在文本到图像生成模型的领域中，训练数据集内在的偏见往往会在生成的内容中传播，这在社会敏感的情境中构成了重大的伦理挑战。我们引入了FairCoT，这是一个新颖的框架，通过多模态生成大语言模型内的链式思考（CoT）推理来增强图像生成模型的公平性。FairCoT 采用迭代的 CoT 精炼来系统地减轻偏见，并能实时动态调整文本提示，确保生成图像中多样化和公平的代表。通过整合迭代的推理过程，FairCoT 解决了零样本 CoT 在敏感情境中的局限性，平衡了创造力与伦理责任。在包括 DALLE 和各种 Stable Diffusion 变体在内的流行文本到图像系统中进行的实验评估表明，FairCoT 在不牺牲图像质量或语义保真度的情况下，显著提高了公平性和多样性。通过结合强大的推理、轻量级部署和对多个模型的可扩展性，FairCoT 代表了朝着更负责任和透明的 AI 驱动内容生成迈出的重要一步。

发布时间: 2/18/2025

查看原文

资源高效提示法for rehearsal-free 连续学习

作者: Sungho Jeon, Xinyue Ma, Kwang In Kim, Myeongjae Jeon

arXiv:2406.04772v3 宣告类型: replace-cross 摘要：近期无需复述的方法，在通过提示引导下，在漂移数据相关的持续学习（CL）方面表现出色，但缺乏资源效率，使得实际部署具有挑战性。本文中，我们引入了资源高效提示（Resource-Efficient Prompting，REP），该方法在保持准确率的前提下提高了基于提示的无需复述方法的计算和内存效率。我们的方法采用快速提示选择，利用精心配置的模型对输入数据进行细化，并引入了自适应令牌合并（AToM）和层丢弃（ALD）以实现高效的提示更新。AToM 和 ALD 在新任务学习过程中选择性地跳过数据和模型层，同时保留特定任务的特征。在多个图像分类数据集上的广泛实验表明，REP 在资源效率方面优于最新的基于 ViT 和 CNN 的方法。

发布时间: 2/18/2025

查看原文