LLM2D

arXiv 论文列表

作者: Jakub W\k{a}sala, Bart{\l}omiej Wrzalski, Kornelia Noculak, Yuliia Tarasenko, Oliwer Krupa, Jan Koco\'n, Grzegorz Chodak
arXiv:2505.02255v1 Announce Type: cross 摘要:本研究提出了一种通过扩散模型提高图像生成的成本-质量比的新方法。我们假设精简版(例如,FLUX.1-schnell)和基线版(例如,FLUX.1-dev)模型之间的差异是一致的,并且可以在类似于人物生成的专业领域内进行学习。我们生成了一个合成配对数据集,并训练了一个快速的图像到图像的转换头部。使用低质量和高質量的合成图像两组,我们的模型被训练成将一个精简版生成器(例如,FLUX.1-schnell)的输出优化到与基线生成器(如FLUX.1-dev)相当的水平,尽管FLUX.1-dev在计算强度方面更高。我们的结果显示,将一个大型生成模型的精简版本与我们的增强层结合的管线,与FLUX.1-dev相比,可以降低高达82%的计算成本,同时生成类似的逼真人物图像。本研究展示了在大规模图像生成中提高AI解决方案效率的潜力。
发布时间: 5/6/2025
查看原文
作者: Jingxiang Qu, Wenhan Gao, Jiaxing Zhang, Xufeng Liu, Hua Wei, Haibin Ling, Yi Liu
arXiv:2505.02247v1 Announce Type: cross 摘要:3D几何图神经网络(GNNs)已经成为了模拟分子数据的变革性工具。尽管这些模型具有很强的预测能力,但它们通常在可解释性方面存在局限,这引起了对需要可靠和透明洞见的科学应用的关注。虽然现有的方法主要集中在解释2D GNN中的分子亚结构,但向3D GNN的过渡引入了独特的挑战,如处理由截断半径创建的隐含密集边结构。为了解决这个问题,我们提出了一种新颖的解释方法,该方法专门设计用于3D GNNs,并将解释局部化到每个节点在3D空间中的邻域内。每个节点被分配一个影响力半径,定义了一个局部区域,在该区域内消息传递捕捉到对于模型预测至关重要的空间和结构交互。该方法利用了3D图固有的空间和几何特性。通过将子图约束在一个局部影响力半径内,这种方法不仅提高了可解释性,还与3D图应用中常见的物理和结构依赖性(如分子学习)相一致。
发布时间: 5/6/2025
查看原文
作者: Tianle Chen, Chaitanya Chakka, Deepti Ghadiyaram
arXiv:2505.02236v1 公告类型: cross 摘要: 当前的文本到图像生成模型在准确表示物体状态(例如,“没有瓶子的桌子”,“空的杯子”)方面面临困难。在这项工作中,我们首先设计了一个全自动的工作流程,生成高质量的合成数据,准确捕捉各种状态的物体。接下来,我们在此合成数据上微调了几种开源的文本到图像模型。我们通过量化生成图像与提示之间的对齐程度来评估微调模型的表现,并在公共GenAI-Bench数据集上实现了四款模型平均8%以上的绝对改善。我们还整理了一组200个特定关注常见物体在多种物理状态下的提示。我们在该数据集上展示了平均24%以上的基线显著改进。我们发布了所有评估提示和代码。
发布时间: 5/6/2025
查看原文
作者: Tanguy Herserant, Vincent Guigue
arXiv:2505.02235v1 类别: cross 摘要: 在自然语言处理中,评估文本摘要质量仍然是一个关键性的挑战。当前的方法在性能和可解释性之间面临折衷。我们提出了SEval-Ex框架,通过将摘要评估分解为原子语句,从而在高性能和解释性之间架起桥梁。SEval-Ex采用两阶段流水线:首先使用大语言模型(LLM)从文本源和摘要中提取原子语句,然后进行生成语句的匹配。与现有的只提供摘要级评分的方法不同,我们的方法通过原子语句级别的对齐生成其决策的详细证据。在SummEval基准上的实验表明,SEval-Ex在一致性方面达到了最先进的性能,相关性为0.580,超过了基于GPT-4的评估器(0.521),同时保持了可解释性。最后,我们的框架展示了对幻觉的鲁棒性。
发布时间: 5/6/2025
查看原文
arXiv:2505.02232v1 宣告类型: cross 摘 要: 构建响应输入提示的模型代表了机器学习中的一个变革性转变。这一范式在解决诸如杂乱环境中目标操作等机器人问题方面具有重要的潜力。在此项工作中,我们提出了一种组合可提示基础模型与强化学习(RL)的新方法,使得机器人能够以响应提示的方式执行灵巧操作任务。现有的方法难以将高层命令与精细的灵巧控制联系起来。我们通过一种记忆增强的学生-教师学习框架来填补这一空白。我们使用 Segment-Anything 2 (SAM 2) 模型作为感知骨干,从用户提示中推断出感兴趣的物体。尽管检测可能会有误差,但它们的时间序列提供了丰富的信息,供记忆增强模型进行隐式状态估计。我们的方法成功地学习了响应提示的策略,并在杂乱场景中拾取物体的演示中得到了验证。视频和代码可在 https://memory-student-teacher.github.io 获取。
发布时间: 5/6/2025
查看原文
arXiv:2505.02230v1 类型: cross 摘要: 生成型人工智能(GenAI)正在彻底改变教育和劳动力发展,深刻影响着学生的学习、参与和为未来所做的准备。GenAI的发展速度超过了统一政策和结构的发展,它预告了一个独特的时代,并催生了GenAI一代:这一代学生的学习越来越受到GenAI带来的机遇和挑战的影响,尤其是在社会广泛采纳GenAI的过程中。本研究通过一份简短的调查问卷(可选开放性问题)来探讨学生对GenAI的看法,重点关注他们的认知、准备和担忧。对超过250份响应的评估,其中超过40%提供了详细的定性反馈,揭示了一种核心的双重情绪:尽管大多数学生对GenAI表示出热情,但更广泛的比例表达了关于伦理、就业替代和教育结构适应性与高度变革性技术不匹配的一系列担忧。这些发现提供了对学生如何看待GenAI的潜在和风险的重要见解,以影响未来职业生涯的关键影响,并附有建议以指导教育机构如何应对由GenAI驱动的未来。
发布时间: 5/6/2025
查看原文
arXiv:2505.02228v1 宣布类型: cross 摘要:通过使智能体从专家演示中学习复杂行为, imitative learning (IL) 在机器人技术、自主驾驶和医疗保健等多个领域取得了显著的成功。然而,现有的 IL 方法在依赖于世界模型框架中的对抗性奖励或价值形式时,经常面临不稳定性挑战。在这项工作中,我们提出了一种新颖的在线模仿学习方法,通过基于随机网络蒸馏 (RND) 的奖励模型解决这些局限性,该模型用于密度估计。我们的奖励模型基于世界模型的潜在空间中专家分布和行为分布的联合估计。我们跨多种基准进行评估,包括 DMControl、Meta-World 和 ManiSkill2,展示了该方法在稳态性能方面的能力以及在运动和操作任务中达到专家级结果的能力。我们的方法在稳定性方面优于对抗性方法,同时保持专家级的表现。
发布时间: 5/6/2025
查看原文
arXiv:2505.02206v1 Announce Type: cross 摘要:基因组建模通常将基因序列视为一种语言,反映其结构化的动机和长程依赖性,类似于语言单元和组织原则,如单词和语法规则。最近的研究利用先进的神经网络,包括卷积模型、循环模型以及基于 Transformer 的模型,来捕捉基因序列的上下文信息,主要目标是获得有效的基因序列表示,从而增强对各种运行基因样本的理解。然而,这些方法往往直接将语言建模技术应用于基因序列,而没有充分考虑到其中固有的信息组织,即没有考虑不同粒度的单元如何贡献于表示。在本文中,我们提出了 DNAZEN,一种增强的基因组表示框架,旨在从基因序列的各种粒度中学习,包括小多聚体和由几个连续多聚体组合而成的 G-gram。具体来说,我们通过无监督的方法从大规模基因组语料库中提取 G-gram,并构建 G-gram 词汇表,该词汇表用于通过动态匹配从运行基因样本中提供 G-gram 用于 DNA 序列的学习过程。我们还提出了一种基于 Transformer 的 G-gram 编码器,并将匹配的 G-gram 送入其中,以计算其表示并将这些表示整合到负责编码小单元并维持学习和推理过程的基本单元编码器(E4BU)中。为了进一步增强学习过程,我们提出了整个 G-gram 掩码来训练 DNAZEN,其中模型更倾向于选择每个完整的 G-gram 进行掩码,而不是对基本单元执行的普通掩码机制。在基准数据集上的实验表明,DNAZEN 在各种下游任务上的有效性。
发布时间: 5/6/2025
查看原文
作者: Griffin Pitts, Viktoria Marcus, Sanaz Motamedi
arXiv:2505.02198v1 类型: cross 摘要:近年来,在教育领域使用配备人工智能(AI)的聊天机器人的现象增加,显示出支持教学和学习的潜力。然而,这些技术的采用引发了对其对学术诚信、学生独立解决问题能力以及潜在底层偏见影响的关注。为了更好地了解学生对这些工具的看法和体验,一项针对美国一所大型公立大学的调查进行了开展。通过对主题分析,研究人员识别并分类了262名本科生对教育中AI聊天机器人的 perceived benefits 和 risks 的回应。 结果讨论了学生识别出的多项益处,反馈和支持、教学能力以及信息访问成为最常见的引用。主要关切点包括对学术诚信的风险、信息准确性、批判性思维技能的丧失、可能的过度依赖以及伦理考虑,如数据隐私、系统偏见、环境影响以及保留教育中的人文元素。 虽然学生的观点与之前讨论的 AI 在教育中的益处和风险相符,但他们对区分人类制作和AI生成的工作表示了更高的担忧,尤其是在标记为AI生成的真实工作的情况下。为解决学生们的关切,机构可以建立明确的AI使用政策,并开发有关AI素养的课程。有了这些措施,教育实践者可以有效地开发和实施利用AI潜力的教育系统,如即时反馈和个人化学习支持。这种方法可以提高学生教育体验的质量,同时在利用AI的同时保护学习过程的完整性。
发布时间: 5/6/2025
查看原文
作者: Wenchuan Wang, Mengqi Huang, Yijing Tu, Zhendong Mao
arXiv:2505.02192v1 宣告类型: cross 摘要: 针对身份和动作连贯性的预训练大规模模型进行定制化的文本到视频生成 recently 获得了广泛关注。现有工作通常遵循孤立定制的范式,其中主体身份或动作动态是单独定制的。然而,这种范式完全忽略了身份和动作之间固有的相互约束和协同依赖性,导致在整个生成过程中产生身份-动作冲突,系统地降低了生成质量。为了解决这一问题,我们引入了 DualReal,这是一个新颖的框架,采用自适应联合训练来协作构建维度之间的依赖关系。具体而言,DualReal 由两个单元组成:(1) 双适应机制动态选择训练阶段(即身份或动作),由冻结的维度先验引导当前信息,并采用正则化策略避免知识泄露;(2) 阶段调配控制器利用去噪阶段和扩散变换器的深度来根据不同维度的自适应粒度进行引导,在各个阶段避免冲突,最终实现身份和动作模式的无损融合。我们构建了一个比现有方法更为全面的基准。实验结果显示,DualReal 在平均上将 CLIP-I 和 DINO-I 指标提高了 21.7% 和 31.8%,并且在几乎所有动作质量指标上取得了最佳性能。
发布时间: 5/6/2025
查看原文