LLM2D

arXiv 论文列表

作者: Luca Mouchel, Debjit Paul, Shaobo Cui, Robert West, Antoine Bosselut, Boi Faltings
arXiv:2408.03618v4 宣布类型: 替换-交叉 摘要:尽管大型语言模型(LLMs)在自然语言处理任务中表现出色,但它们仍然难以生成逻辑上的合理论据,从而导致传播虚假信息等潜在风险。为了解决这一问题,我们引入了FIPO,这是一种基于谬误信息的框架,通过利用偏好优化方法引导LLMs生成逻辑上的合理论据。FIPO 包括一个分类损失,用于捕捉谬误类型的细微信息。我们在论据数据集上的结果表明,我们的方法将谬误错误降低了高达17.5%。此外,我们的测评结果显示,我们方法生成的论据质量显著优于微调基线以及其他的偏好优化方法,如DPO。这些发现强调了确保模型对逻辑谬误有所认识对于有效论据生成的重要性。我们的代码可在 github.com/lucamouchel/Logical-Fallacies 获取。
发布时间: 5/6/2025
查看原文
作者: Mohammad Kohankhaki, Ahmad Ayad, Mahdi Barhoush, Anke Schmeink
arXiv:2407.15738v3 宣告类型:replace-cross 摘要:在资源受限的环境中进行分布式深度学习由于有效批量大小大和客户端数据非同分布,面临着可扩展性和泛化能力的挑战。我们引入了一种由服务器驱动的采样策略,通过动态调整客户端的批量大小来保持固定的全局批量大小。这将有效批量大小与参与设备的数量脱钩,并确保全局批量更好地反映整体数据分布。利用标准的集中性边界,我们建立了比现有方法更紧的偏差保证。基准数据集上的实验证明,所提出的方法可以提高模型准确性、训练效率和收敛稳定性,为在网络边缘进行学习提供一个可扩展的解决方案。
发布时间: 5/6/2025
查看原文
作者: Matthew T. Dearing, Yiheng Tao, Xingfu Wu, Zhiling Lan, Valerie Taylor
arXiv:2407.01638v2 公告类型: 替换-跨领域 摘要:本文解决了为专注于科学和工程的大型语言模型(LLM)提供新型训练数据来源的问题。特别是,一个关键挑战是如何获取成百万至上亿的并行科学代码。为了解决这一问题,我们提出了一种名为LASSI的自动化 pipeline 框架,旨在通过利用现有的闭源或开源 LLM 来在多种并行编程语言之间进行翻译。LASSI 包含自主增强功能,通过引导式提示回路进行调试和重构,将生成代码在编译和执行过程中遇到的错误反馈给 LLM。我们通过在 OpenMP 目标卸载和 CUDA 之间双向翻译现有的 GPU 基准测试来验证 LASSI。评估 LASSI 的结果表明,与不同应用代码相关的四个 LLM 在 OpenMP 到 CUDA 的翻译中有 80% 产生了预期输出,在 CUDA 到 OpenMP 的翻译中有 85% 产生了预期输出。此外,我们观察到 OpenMP 到 CUDA 的翻译中有约 78%,CUDA 到 OpenMP 的翻译中有 62%,在与原始基准测试代码相同语言的情况下执行速度比原始代码快 10% 以内。
发布时间: 5/6/2025
查看原文
作者: Georgios Kaissis, Stefan Kolek, Borja Balle, Jamie Hayes, Daniel Rueckert
arXiv:2406.08918v3 通告类型: replace-cross 摘要:在差分隐私(DP)机器学习中,差分隐私机制的隐私保证通常基于单一的$(\varepsilon, \delta)$-对进行报告和比较。这种做法忽略了即使在共享同一$(\varepsilon, \delta)$的情况下,差分隐私保证也可能在选择不同的机制时差异显著,并且可能会引入未被检测到的隐私漏洞。这一动机促使我们需要开发稳健且严谨的方法来在这种情况下比较差分隐私保证。在这里,我们引入了一种机制之间的$\Delta$-散度,它量化了选择一个机制而非另一个机制在$(\varepsilon, \delta)$、$f$-DP以及一种新提出的贝叶斯解释中的最坏情况下的额外隐私漏洞。此外,作为一种Blackwell定理的推广,它具有坚固的决策理论基础。通过应用实例,我们展示了我们的技术可以促进明智的决策,并揭示当前对隐私风险理解中的缺口,因为当前的DP-SGD实践往往会导致选择具有高额外隐私漏洞的机制。
发布时间: 5/6/2025
查看原文
作者: Lorenzo Chicchi, Lorenzo Buffoni, Diego Febbe, Lorenzo Giambagli, Raffaele Marino, Duccio Fanelli
arXiv:2406.01183v2 宣告类型: replace-cross 摘要: 在机器学习实践中,识别相关的输入特征往往是有用的,以便获得更紧凑的数据集,从而更有效地进行数值处理。另一方面,通过隔离按其相关程度排名的关键输入元素,可以帮助阐述决策过程。在这里,我们提出了一种新的方法来估计深度神经网络中输入组件的相对重要性。这通过对优化过程进行谱重构来实现。与输入节点相关的特征值实际上提供了衡量供应特征相关性的稳健代理。值得注意的是,谱特征的排名是自动进行的,作为网络训练的副产品,不需要额外的处理。该技术在同一时间和真实数据上均取得了成功挑战。
发布时间: 5/6/2025
查看原文
作者: Zaitian Wang, Pengfei Wang, Kunpeng Liu, Pengyang Wang, Yanjie Fu, Chang-Tien Lu, Charu C. Aggarwal, Jian Pei, Yuanchun Zhou
arXiv:2405.09591v3 更新类型: replace-cross 摘要: 数据增强是一种通过操作现有的数据样本生成高质量人工数据的技术。通过利用数据增强技术,AI 模型可以在涉及稀缺或不均衡数据集的任务中实现显著增强的应用性,从而大幅提高AI 模型的泛化能力。现有的文献综述仅集中于特定类型的单一模态数据,并从模态特定和操作中心的角度对这些方法进行分类,缺乏对多种模态数据增强方法的一致总结,限制了对现有数据样本如何服务于数据增强过程的理解。为了解决这一差距,我们提出了一个更为启发性的分类法,涵盖不同常见数据模态的数据增强技术。具体而言,从数据中心的角度出发,本文提出了一个不依赖于模态的数据增强分类法,通过研究数据样本之间固有的关系,包括单一样本、配对样本和群体样本的数据增强方法。此外,我们通过统一的归纳方法对五种数据模态中的数据增强方法进行了分类。
发布时间: 5/6/2025
查看原文
作者: Prashant Kodali, Anmol Goel, Likhith Asapu, Vamshi Krishna Bonagiri, Anirudh Govil, Monojit Choudhury, Ponnurangam Kumaraguru, Manish Shrivastava
arXiv:2405.05572v2 通告类型: replace-cross 摘要: 当前用于分析或生成代码混合句子的计算方法并未明确建模代码混合句子的“自然性”或“接受性”,而是依赖训练语料库来反映可接受的代码混合句子的分布。对代码混合文本的接受性的建模可以帮助区分自然的代码混合文本,并促进代码混合文本的高质量生成。为此,我们构建了Cline数据集,包含英语-印地语(en-hi)代码混合文本的人工接受性判断。Cline是此类数据集中规模最大的,包含16,642句句子,样本来源包括合成生成的代码混合文本和从在线社交媒体收集的样本。我们的分析表明,常用的代码混合度量标准,如CMI、切换点数量、突发性,尽管用于过滤/编目/比较代码混合语料库,但与人工接受性判断的相关性较低,突显了我们数据集的必要性。使用Cline进行的实验表明,仅使用代码混合度量标准作为特征训练的简单多层感知机(MLP)模型,被预训练多语言大语言模型(MLLM)微调后所超越。具体来说,在编码器模型中,XLM-Roberta和Bernice在不同配置下均优于IndicBERT。在编码器-解码器模型中,mBART优于mT5,但编码器-解码器模型无法超越仅编码器模型。仅解码器模型与其他MLLMs相比表现最佳,Llama 3.2 - 3B模型优于相似大小的Qwen和Phi模型。与ChatGPT的零样本和少量样本能力的比较显示,数据量更大的MLLMs微调后优于ChatGPT,提供了代码混合任务改进的空间。从英语-印地语到英语-泰米尔语接受性判断的零样本迁移优于随机基线。
发布时间: 5/6/2025
查看原文
作者: Anshuman Chhabra, Bo Li, Jian Chen, Prasant Mohapatra, Hongfu Liu
arXiv:2405.03869v5 宣告类型: replace-cross 摘要: 一种核心的数据为中心的机器学习挑战是识别对模型性能有害的训练样本。影响函数为此任务提供了一种突出的工具,并提供了一种评估训练数据对模型预测影响的稳健框架。尽管它们被广泛使用,但由于计算Hessian矩阵的逆向量涉及的高计算成本,它们在分析大型深度模型时受到限制。在这篇论文中,我们建立了通过影响函数识别有害训练样本与异常梯度检测之间的桥梁。这一转换不仅提供了一种直接且不依赖Hessian的方法,还提供了梯度在样本影响中作用的见解。通过系统的实证评估,我们首先在合成数据集上验证了我们提出的异常梯度分析方法的假设。然后,我们证明了它在检测视觉模型中的错标样本以及选择自然语言处理变换器模型的性能改进数据样本方面的有效性。我们还将其用于大型语言模型微调中的影响样本识别。
发布时间: 5/6/2025
查看原文
作者: Yupeng Cao, Zhi Chen, Prashant Kumar, Qingyun Pei, Yangyang Yu, Haohang Li, Fabrizio Dimino, Lorenzo Ausiello, K. P. Subbalakshmi, Papa Momar Ndiaye
arXiv:2404.07452v2 宣布类型: replace-cross 摘要:在金融领域集成人工智能(AI)技术,尤其是大型语言模型(LLMs),已经引起了越来越多的学术关注。尽管取得了一些进展,但现有研究主要集中在金融文本摘要、问答和股票价格运动预测(二分类)等任务上,而将LLMs应用于金融风险预测的研究尚未得到充分探索。为弥补这一不足,本文介绍了一种名为RiskLabs的新型框架,该框架利用LLMs来分析和预测金融风险。RiskLabs独特地整合了多种模态的金融数据,包括财报电话会议(ECCs)中的文本和语音信息、市场相关的时序数据以及背景新闻数据,以提高金融风险预测的准确性。实证结果表明,RiskLabs在预测市场波动性和方差方面表现出有效性。通过对比实验,我们考察了不同数据源对金融风险评估的贡献,并强调了LLMs在这一过程中的关键作用。我们还讨论了在金融风险预测中使用LLMs所面临的挑战,并探讨了将其与多模态数据结合使用的潜在可能性。
发布时间: 5/6/2025
查看原文
作者: Di Qiu, Yinda Zhang, Thabo Beeler, Vladimir Tankovich, Christian H\"ane, Sean Fanello, Christoph Rhemann, Sergio Orts Escolano
arXiv:2404.02225v2 通知类型: replace-cross 摘要: 我们提出了CHOSEN,一种简单灵活、稳健且有效的多视图深度细化框架。它可以应用于任何现有的多视图立体成像管道,并且具有较强的通用性,可以适应不同多视图捕获系统(如相机相对定位和透镜)的各种需求。给定一个初始深度估计,CHOSEN通过迭代重新采样和选择最佳假设,并根据捕获系统自动适应不同的度量或固有尺度。我们方法的关键在于在合适的求解空间中应用对比学习,并设计了有效的正负假设特征,使得正负假设可以得到有效区分。与许多基于深度学习的多视图立体成像管道相比,嵌入到一个简单的基线多视图立体成像管道中,CHOSEN在深度和法线准确性方面表现出色。
发布时间: 5/6/2025
查看原文