LLM2D

arXiv 论文列表

arXiv:2407.02208v2 宣告类型: replace-cross 摘要:网络爬取的大量平行数据中包含大量的噪声。作为噪声的主要来源,语义错位给训练机器翻译系统带来了挑战。本文中,我们首先介绍了一种通过语义相似性控制仿真的语义错位过程,这种方法与实际网络爬取语料库中的错位句子密切相关。在我们模拟的语义错位噪声设置下,我们定量分析了其对机器翻译的影响,并展示了广泛使用的预过滤器在噪声检测方面的有限效果。这突显了更细致处理难以检测的语义错位噪声的必要性。基于模型在标记级别上区分错位数据和干净数据的可靠性不断增强的观察,我们提出了自我校正的方法,该方法逐渐增加模型自我知识的信任度以纠正训练监督。全面的实验表明,我们的方法在存在模拟的语义错位噪声以及应用于实际网络爬取的嘈杂数据集时,均显著提高了不同翻译任务的翻译性能。
发布时间: 2/10/2025
查看原文
作者: Yonatan Sverdlov, Nadav Dym
arXiv:2407.02025v3 通知类型: 替换-交叉 摘要:受到化学和其他科学应用的启发,我们研究了消息传递神经网络在几何图上的表达能力,其中节点特征对应于三维位置。近期的工作表明,这类模型可以区分任意的非同构几何图,尽管它们可能无法区分一些罕见和复杂的实例。然而,这些结果假设是一个完全连接的图,其中每个节点都拥有所有其他节点的完全信息。相反,在实际应用中,通常每个节点只拥有其有限数量的最近邻节点的信息。 本文表明,在基础图连接的情况下,具有旋转不变特征的消息传递网络可以区分任意的非同构几何图。当仅允许不变中间特征时,对于代数全局刚性图,可以保证任意区分。我们引入了一个简单的架构 EGENNET,它实现了我们的理论保证,并在合成和化学基准测试中优于其他架构。我们的代码可在 https://github.com/yonatansverdlov/E-GenNet 获取。
发布时间: 2/10/2025
查看原文
作者: Nan Xu, Fei Wang, Sheng Zhang, Hoifung Poon, Muhao Chen
arXiv:2407.00902v3 宣告类型: replace-cross 摘要:受大型语言模型(LLMs)的上下文学习(ICL)能力的启发,当提供多个图像-文本对作为演示时,具备额外视觉模态的多模态LLMs也展示了类似的ICL能力。然而,关于多模态ICL背后的工作原理及其为何有效的工作却相对较少。我们对不同规模的模型在一系列新的关键任务上进行了系统的和原则上的多模态ICL评估。通过不同模态信息的扰动,我们展示了在多模态ICL中,模态在不同任务中的重要性是不同的。根据任务特定的模态影响,我们推荐以模态为导向的演示策略来增强ICL性能。我们还发现,即使模型在预训练数据中很少见到或与先验语义偏见相矛盾,它们也可能遵循多模态ICL的归纳偏差。我们的原则分析提供了一种全面理解多模态上下文学习中演示作用的方法,并为广泛的任务中有效提高多模态ICL提供了启示。
发布时间: 2/10/2025
查看原文
作者: Ryan Bahlous-Boldi, Li Ding, Lee Spector, Scott Niekum
arXiv:2406.15599v2 通告类型: 替换交叉 摘要:确保人工智能模型与人类价值观一致对于其安全性和功能至关重要。基于人类反馈的强化学习(RLHF)利用人类偏好来实现这种一致性。然而,当偏好来自于多样化的群体时,奖励的点估计可能会导致次优性能或特定群体的不公平。我们提出了帕累托最优偏好学习(POPL),它通过将分歧的群体偏好作为具有潜在权衡的目标来实现多元一致,目标是偏好数据集上的帕累托最优策略。POPL 使用列希凯斯选择,这是一种迭代过程,选择多样且帕累托最优的解决方案。我们的理论和实证评估表明,POPL 在学习奖励函数集和策略方面优于基线方法,能够有效满足不具有群体数量或成员标签的群体的需求。我们在无状态偏好学习、Minigrid RL 域、MetaWorld 机器人基准以及大型语言模型(LLM)微调中验证了 POPL 的性能。我们展示了 POPL 也可以作为优化特定群体公平性概念的技术的基础,确保安全和平等的人工智能模型一致性。
发布时间: 2/10/2025
查看原文
作者: Niels M\"undler, Mark Niklas M\"uller, Jingxuan He, Martin Vechev
arXiv:2406.12952v3 宣布类型: 替换交叉 摘要:严谨的软件测试对于开发和维护高质量代码至关重要,因此自动测试生成是提高软件质量和增强代码生成方法有效性的有前途的途径。然而,尽管使用大型语言模型(LLMs)进行代码生成是一个异常活跃的研究领域,但测试生成依然相对未被广泛探索。我们解决这一不足并研究基于代码代理的LLM的能力,将其用户问题转化为测试案例。为此,我们提出一个基于流行的GitHub仓库的新基准,包含真实世界的问题、真实错误修复和基准测试。我们发现,LLM们普遍在生成相关测试案例方面表现令人惊讶地好,设计用于代码修复的代码代理超过专门设计用于测试生成的系统的表现。此外,由于测试生成是与代码生成类似但更结构化的任务,它允许使用问题再现率和覆盖率变化进行更细致的分析,提供了一个双度量标准来分析用于代码修复的系统。最后,我们发现生成的测试案例是提出代码修复的有效筛选器,将SWE-Agent的精确度提高了一倍。我们在 https://github.com/logic-star-ai/SWT-Bench 释放所有数据和代码。
发布时间: 2/10/2025
查看原文
作者: Yulai Zhao, Masatoshi Uehara, Gabriele Scalia, Sunyuan Kung, Tommaso Biancalani, Sergey Levine, Ehsan Hajiramezanali
arXiv:2406.12120v2 宣告类型: 替换交叉 摘要:扩散模型是一种强大的生成模型,允许对生成样本的特征进行精确控制。虽然这些在大型数据集上训练的扩散模型已经取得了成功,但在下游微调过程中常常需要引入额外的控制。这些强大的模型被视为预训练的扩散模型。本文提出了一种基于强化学习(RL)的新方法,使用包含输入和标签的离线数据集来添加这些控制。我们将此任务形式化为一个RL问题,学习自离线数据集的分类器和相对于预训练模型的KL散度作为奖励函数。我们的方法$\textbf{CTRL}$(使用$\textbf{R}$奖$\textbf{L}$学习条件化预训练扩散模型)生成最大化上述奖励函数的软最优策略。我们正式证明,我们的方法在推断过程中使得能够在有额外控制的条件下进行采样。基于RL的方法相对于现有方法具有多项优势。与无分类器引导相比,它提高了采样效率,并且通过利用输入与附加控制之间的条件独立性,极大地简化了数据集的构建。此外,与分类器引导不同,它消除了需要从中间状态训练分类器以获得额外控制的需要。代码可在https://github.com/zhaoyl18/CTRL获取。
发布时间: 2/10/2025
查看原文
作者: David R Wessels, David M Knigge, Samuele Papa, Riccardo Valperga, Sharvaree Vadgama, Efstratios Gavves, Erik J Bekkers
arXiv:2406.05753v5 宣告类型: 替换-交叉 摘要:条件神经场(CNFs)现在正越来越多地被用作连续信号的表示,通过将每个数据样本与一个可以条件化共同基础神经场(NeF)以重建样本的潜在变量相关联来实现。然而,现有的CNF架构在使用这些潜在变量进行需要精细几何推理的任务(如分类和分割)时受到限制。我们认为这是由于CNFs的潜在空间中缺乏对几何信息(例如信号中的局部性或特征的方向)的显式建模。因此,我们提出了等变神经场(ENFs),这是一种新颖的CNF架构,使用几何信息指导的交叉注意力来基于几何变量(即特征的潜在点云)条件化NeF,从而使从潜在空间到场的解码具有等变性。我们展示了这种方法通过将场和潜在表示都与几何学联系起来并适应变换定律来赋予可引导性:如果场发生变化,潜在表示也会相应变化——反之亦然。至关重要的是,这种等变性关系确保潜在表示能够(1)忠实表示几何模式,从而在潜在空间中进行几何推理,以及(2)在相似局部模式上共享权重,从而有效地学习场数据集。我们通过包括分类、分割、预测、重建和生成建模在内的各种任务验证了这些主要属性,表明与非几何潜在空间的基线相比具有明显的改进。提交代码附在 https://github.com/Dafidofff/enf-jax。代码可参考干净和简洁的仓库 https://github.com/david-knigge/enf-min-jax。
发布时间: 2/10/2025
查看原文
作者: Zicheng Zhang, Haoning Wu, Chunyi Li, Yingjie Zhou, Wei Sun, Xiongkuo Min, Zijian Chen, Xiaohong Liu, Weisi Lin, Guangtao Zhai
arXiv:2406.03070v2 宣布类型: 替换交叉 摘要: 如何准确且高效地评估由人工智能生成的图像(AIGI)仍然是生成模型面临的一个关键挑战。鉴于进行用户研究所需的高度成本和大量时间投入,许多研究人员转向使用大规模多模态模型(LMMs)作为AIGI评估器,但这些评估器的精度和有效性仍然值得怀疑。此外,传统的基准测试通常主要使用自然捕获的内容而非AIGIs来测试LMMs的能力,这导致了AIGIs方面的明显差距。因此,本文介绍了A-Bench这一基准测试,旨在诊断LMMs是否擅长评估AIGIs。具体而言,A-Bench遵循两个关键原则:1) 强调高层语义理解和低层视觉质量感知,以应对AIGIs的复杂需求。2) 利用各种生成模型创建AIGIs,并使用各种LMMs进行评估,这确保了全面的验证范围。最终,本文从16种文本到图像模型中采样了2,864个AIGIs,每个AIGI都配有由人类专家标注的问题-答案,并在18种领先LMMs上进行了测试。我们希望A-Bench能够显著提高评估过程,并促进AIGIs的生成质量。基准测试可在https://github.com/Q-Future/A-Bench获取。
发布时间: 2/10/2025
查看原文
作者: Cong Lu, Shengran Hu, Jeff Clune
arXiv:2405.15143v4 通告类型: replace-cross 摘要:Go-Explore 是一系列设计用于解决存档已发现状态并反复返回以探索最有潜力的状态的问题的强大算法。这种方法在包括Atari游戏和机器人控制等众多挑战性问题中达到了超人般的性能,但需要手动设计启发式方法来引导探索(即,确定哪些状态要保存并从中探索,以及下一阶段要考虑的哪些动作),这在一般情况下耗时且不可行。为了解决这一问题,我们提出了Intelligent Go-Explore(IGE),该方法大大扩展了原始Go-Explore的范围,将其人工设计的启发式方法替换为由巨型预训练基础模型(FMs)捕获的智能和内化的有趣性概念。这赋予了IGE一种人性化的能力,能够本能地识别新状态的有趣性和潜力(例如,发现新的对象、位置或行为),即使在启发式难以定义的复杂环境中也是如此。此外,IGE 提供了识别和利用偶然发现的机会——在探索过程中遇到的有价值但非人为用户预期使它们变得有趣的状态。我们在多种需要搜索和探索的语言和视觉任务上评估了该算法。在这些任务中,IGE 显著超越了经典的强化学习和图搜索基准,并且在之前的FM代理如Reflexion完全失败的地方也取得了成功。总体而言,Intelligent Go-Explore 结合了FMs的强大优势和强大的Go-Explore算法的优势,开启了创建更一般且富有探索能力代理的新的研究领域。
发布时间: 2/10/2025
查看原文
作者: Joseph Cho, Mrudang Mathur, Cyril Zakka, Dhamanpreet Kaur, Matthew Leipzig, Alex Dalal, Aravind Krishnan, Eubee Koo, Karen Wai, Cindy S. Zhao, Rohan Shad, Robyn Fong, Ross Wightman, Akshay Chaudhari, William Hiesinger
arXiv:2405.09806v3 宣告类型: replace-cross 摘要:深度学习算法需要大量的数据以实现稳健的性能。然而,在医疗领域,由于患者隐私的顾虑,数据的可用性常常受到限制。合成数据为解决这些挑战提供了一种可能的解决方案。近年来,图像生成模型在医疗应用中得到了越来越多的应用,但这些模型通常仅针对单一的医疗专科和成像模态进行设计,从而限制了其更广泛的应用。为了解决这个问题,我们提出了MediSyn:一种文本引导的潜在扩散模型,能够从6个医疗专科和10种图像类型生成合成图像。合成图像通过专家临床医生的认证,以确保其与对应的文本提示相匹配。此外,合成图像与真实图像的直接比较表明,我们的模型能够生成新颖的图像,并且至关重要的是,可能保护患者隐私。最后,使用合成数据和真实数据混合训练的分类器在性能上与使用两倍真实数据训练的分类器相当。我们的发现强调了通用图像生成模型在加速医学领域算法研究和开发方面的巨大潜力。
发布时间: 2/10/2025
查看原文