LLM2D

arXiv 论文列表

作者: Helem Salinas, Rafael Brahm, Greg Olmschenk, Richard K. Barry, Karim Pichara, Stela Ishitani Silva, Vladimir Araujo
arXiv:2502.07542v1 Announce Type: 国际交叉 摘要: 恒星掩食系外行星巡天卫星(TESS)正在巡测大部分天空,生成了大量需要深入分析的光谱时序数据,以识别系外行星 transit 信号。自动化学习方法已被成功应用于识别 transit 信号。然而,大多数现有方法侧重于 transit 候选者的分类和验证,而鲜有研究探索新的候选搜索技术。为搜索新的系外行星 transit 候选者,我们提出了一种方法,无需折相或假设 transit 信号的周期性(例如,在多 transits 光曲线中观察到的)。为此,我们实现了一个受 Transformer 启发的新神经网络,可以直接处理完整的帧图像(Full Frame Image, FFI)光曲线以检测系外行星 transit。Transformer 本最初是为了自然语言处理而开发的,最近在捕捉长距离依赖方面取得了显著的成功,与之前专注于序列数据的方法相比表现更好。这种能力使我们能够使用多头自注意力直接从完整的光曲线中识别系外行星 transit 信号,结合背景和质心时序,无需事先的 transit 参数。该网络被训练以学习 transit 信号的特点,如深度形状,这有助于将行星 transit 与其他变异性源区分开来。我们的模型成功地从TESS 区域1-26 中识别了214个新的系外行星系统候选者,包括122个多 transit 光曲线系统、88个单 transit 和4个多行星系统,半径 > 0.27 $R_{\mathrm{Jupiter}}$,证明了它能够检测各种周期性的 transit。
发布时间: 2/12/2025
查看原文
作者: Sixiao Zheng, Zimian Peng, Yanpeng Zhou, Yi Zhu, Hang Xu, Xiangru Huang, Yanwei Fu
arXiv:2502.07531v1 宣言类型: cross 摘要:近期的图像到视频生成方法在控制一个或两个视觉元素(例如相机轨迹或对象运动)方面已经取得了成功。然而,由于数据和网络效用的限制,这些方法无法同时控制多个视觉元素。在这篇论文中,我们介绍了一种名为VidCRAFT3的新颖框架,该框架能够同时控制相机运动、对象运动和光照方向。为了更好地分离每个视觉元素的控制,我们提出了空间三重注意力变换器,该变换器以对称的方式整合了光照方向、文本和图像。由于大多数真实世界的视频数据集缺乏光照标注,我们构建了一个高质量的合成视频数据集,即VideoLightingDirection (VLD) 数据集。该数据集包含了光照方向标注和多样外观的对象,使得VidCRAFT3能够有效地处理强烈的光透过和反射效果。此外,我们提出了一个三阶段训练策略,该策略消除了同时使用相机运动、对象运动和光照方向标注的训练数据的需求。针对基准数据集进行的广泛实验表明,VidCRAFT3在生成高质量视频内容方面非常有效,在控制粒度和视觉一致性方面优于现有最先进的方法。所有代码和数据将公开提供。项目页面: https://sixiaozheng.github.io/VidCRAFT3/。
发布时间: 2/12/2025
查看原文
作者: Daniel Palenicek, Florian Vogt, Jan Peters
arXiv:2502.07523v1 标题:跨模态强化学习类型:交叉 摘要:强化学习已经取得了显著的里程碑,但在现实世界应用中,采样效率仍然是一个瓶颈。最近,CrossQ在低更新与数据比(UTD比)为1的情况下展示了最先进的采样效率。在本工作中,我们研究了更高UTD比情况下的CrossQ的扩展行为。我们发现在训练动态中存在挑战,这些挑战在更高UTD比的情况下被放大。为了解决这些问题,我们将权重规范化集成到CrossQ框架中,这一解决方案已被证明可以稳定训练,防止潜在的可塑性丧失,并保持有效的学习率不变。我们提出的方法可靠地在增加的UTD比下扩展,能够在DeepMind控制套件和Myosuite基准测试中的25个具有挑战性的连续控制任务上实现竞争力的表现,特别是复杂的狗和人形环境。这项工作消除了需要大幅干预(如网络重置)的需求,并提供了一条简单而稳健的途径,用于提高模型自由强化学习中的采样效率和可扩展性。
发布时间: 2/12/2025
查看原文
arXiv:2502.07516v1 交叉领域公告类型:交叉 摘要:生成模型,特别是文本到图像(T2I)扩散模型,对于医学图像分析起着关键作用。然而,这些模型容易记住训练数据,对患者隐私构成了重大风险。合成胸部X光图像是医学图像分析中最常见的应用之一,MIMIC-CXR数据集是执行此任务的主要数据仓库。本研究采取数据驱动的方法,提出首次系统地尝试识别MIMIC-CXR中最能导致训练数据记忆的提示和文本令牌。我们的分析揭示了一个意想不到的结果:包含去识别程序痕迹的提示是最容易记忆的,其中去识别标记贡献最大。此外,我们还发现现有的推理时记忆减轻策略无效,无法充分减少模型对记忆文本令牌的依赖,突显了在使用MIMIC-CXR进行合成胸部X光图像生成时存在的更广泛问题。针对这一问题,我们提出了增强隐私并改善生成模型在医学影像中可靠性的可操作策略。最后,我们的结果为未来使用MIMIC-CXR数据集开发和基准测试合成胸部X光图像生成的记忆减轻技术奠定了基础。
发布时间: 2/12/2025
查看原文
arXiv:2502.07479v1 Announce Type: 交叉 摘要:WebChecker 是 Epsilon Validation Language (EVL) 的一个插件,设计用于利用 Bootstrap 等框架验证静态和动态 HTML 页面。通过运用可配置的 EVL 约束,WebChecker 强制执行治理 HTML 和 CSS 框架的隐式规则。通过将其应用于广泛采用的 HTML、CSS 和 JavaScript 框架 Bootstrap,展示了该插件的有效性。WebChecker 包含一套用于评估基于 Bootstrap 的网页的 EVL 约束。为了验证我们的主张,我提供了一个示例,展示了两种有效强制执行隐式规则的解决方案。
发布时间: 2/12/2025
查看原文
作者: Gianluca Galletti, Fabian Paischer, Paul Setinek, William Hornsby, Lorenzo Zanisi, Naomi Carey, Stanislas Pamela, Johannes Brandstetter
arXiv:2502.07469v1 Announce Type: cross 摘要:核聚合作为可靠和可持续能源生产的关键在于发挥着重要作用。实现商业上可行的聚变能的一个主要障碍是对等离子体湍流的理解,湍流可以显著破坏等离子体约束。湍流建模对于设计下一代反应器级别的装置和当前实验机器的性能等离子体情景至关重要。支撑湍流建模的非线性陀螺动力学方程随着时间演化5维分布函数。数值求解这个方程非常昂贵,单次运行收敛可能需要数周时间,使其在迭代优化和控制研究中难以实现。在这项工作中,我们提出了一种训练5维陀螺动力学模拟的神经代理的方法。我们的方法将层次视觉变压器扩展到五维,并在绝热电子近似下的5维分布函数上进行训练。我们证明,我们的模型可以比数值代码快两个数量级的速度进行单步预测,并准确推断出下游的物理量,如热通量时间轨迹和静电势。我们的工作为通过核聚变加速商业能源生产的等离子体湍流模拟神经代理奠定了道路。
发布时间: 2/12/2025
查看原文
作者: Li Mao, Wei Du, Shuo Wen, Qi Li, Tong Zhang, Wei Zhong
arXiv:2502.07465v1 宣传类型: 综合 摘要:本研究使用深度学习模型预测特定日期的城市分区犯罪数量,有助于警察加强监控、收集情报并主动防止犯罪。我们将犯罪数量预测形式化为时空序列挑战,其中输入数据和预测目标均为时空序列。为了提高犯罪预测的准确性,我们引入了一种结合卷积神经网络(CNN)和长短期记忆(LSTM)网络的新模型。我们进行了一项比较分析,以评估各种数据序列(包括原始数据和分组数据)对四种深度学习预测模型预测误差的影响。直接将原始犯罪数据输入预测模型会导致高预测误差,使模型不适合实际应用。研究结果表明,当犯罪数据被分为10组或5组时,提出的CNN-LSTM模型能够达到最佳性能。数据分组可以提升预测模型的性能,但定义不良的间隔可能会降低地图的详细程度。与分5组相比,分10组的间隔能够在保持数据特征的同时,在预测建模效果上超越原始数据。
发布时间: 2/12/2025
查看原文
作者: Abhinaba Roy, Renhang Liu, Tongyu Lu, Dorien Herremans
arXiv:2502.07461v1 交叉公告类型 摘要:我们介绍了一个名为JamendoMaxCaps的大型音乐-描述数据集,该数据集包含来自知名Jamendo平台的超过200,000条免费许可的乐器曲目。此数据集包含由最先进的描述模型生成的描述,并附有补充的元数据信息。我们还介绍了一个检索系统,该系统利用音乐特征和元数据来识别相似的歌曲,然后使用局部大型语言模型(LLLM)填充缺失的元数据。这种方法使研究人员能够在音乐-语言理解任务中提供更全面和有信息量的数据集。我们通过五种不同的测量方法对其进行了定量验证。通过将JamendoMaxCaps数据集公开,我们提供了一个高质量的资源,以促进音乐-语言理解任务如音乐检索、多模态表示学习和生成音乐模型的研究。
发布时间: 2/12/2025
查看原文
作者: Erfan Moosavi Monazzah, Vahid Rahimzadeh, Yadollah Yaghoobzadeh, Azadeh Shakery, Mohammad Taher Pilehvar
arXiv:2502.07459v1 宣告类型: cross 摘要: 大型语言模型主要反映了西方文化,这主要是由于以英语为中心的训练数据的主导地位。这种不平衡带来了重大挑战,因为LLMs在具有不同背景的环境中越来越被使用,而这些环境中缺乏对其在非英语语言,包括波斯语方面的文化适应性的充分评估。为了解决这一差距,我们引入了PerCul,这是一个精心构建的数据集,旨在评估LLMs对波斯文化的敏感性。PerCul包含基于故事的多项选择题,这些题目捕捉到了文化上微妙的场景。与现有的基准测试不同,PerCul经过本地波斯语注释者的筛选,以确保真实性和防止使用翻译作为捷径。我们评估了几个最先进的多语言和波斯语专用的LLMs,为跨文化NLP评估的未来研究奠定了基础。我们的实验表明,在最佳闭源模型与非专业基线之间存在11.3%的差距,而在使用最佳开源权重模型时,这一差距增加到21.3%。您可以从这里访问数据集:https://huggingface.co/datasets/teias-ai/percul
发布时间: 2/12/2025
查看原文
作者: Viacheslav Vasilev, Julia Agafonova, Nikolai Gerasimenko, Alexander Kapitanov, Polina Mikhailova, Evelina Mironova, Denis Dimitrov
arXiv:2502.07455v1 Announce Type: cross 摘要:文本到图像生成模型在全球用户中越来越受欢迎。然而,这些模型中很多都强烈偏向英语文化,忽视了或错误地表现了其他语言群体、国家和民族的独特特征。缺乏文化意识会降低生成质量,并可能导致无意识的侮辱,以及偏见的扩散。与自然语言处理领域相比,计算机视觉中的文化意识研究还不那么广泛。在本文中,我们力求缩小这一差距。我们提出了一个RusCode基准,用于评估包含俄罗斯文化代码要素的文本到图像生成的质量。为此,我们列出了19个最佳代表俄罗斯视觉文化特征的类别。我们的最终数据集包括1250个用俄文和英文翻译的文本提示。这些提示涵盖了广泛的主题,包括艺术中的复杂概念、流行文化、民间传统、著名人物的名字、自然对象、科学成就等。我们展示了使用流行生成模型对俄罗斯视觉概念表示进行并排比较的人类评估结果。
发布时间: 2/12/2025
查看原文