LLM2D

arXiv 论文列表

作者: Aiala Ros\'a, Santiago G\'ongora, Juan Pablo Filevich, Ignacio Sastre, Laura Musto, Brian Carpenter, Luis Chiruzzo
arXiv:2504.20251v1 类型:cross 摘要:我们提出了一种生成面向外语教学(如英语教学)的教育活动平台。不同的活动——游戏和语言练习题——都强烈基于自然语言处理技术。该平台提供了直接玩预设游戏的可能性,这些游戏来自半自动创建然后手动筛选的资源。此外,该平台还可以根据教师输入的文本自动生成更复杂的游戏或练习题,在使用前提供生成内容的审核和编辑阶段。为了增加平台活动的多样性,我们目前正在实验图像和文本生成。为了整合它们并提高已集成的其他神经工具的性能,我们正在努力将平台迁移到一个更强大的服务器上。在本文中,我们描述了平台的开发以及面向最终用户的部署情况,讨论了我们面临的所有挑战及其解决方案,并详细阐述了我们的未来工作计划。
发布时间: 4/30/2025
查看原文
作者: Yuan Xia, Akanksha Atrey, Fadoua Khmaissia, Kedar S. Namjoshi
arXiv:2504.20213v1 逻辑推理类型:跨领域 摘要:本文研究了大型语言模型(LLM)的逻辑推理能力。为了选择一个概念上简单但技术上复杂的任务,我们选择了构建布尔逻辑证明这一任务。训练好的LLM接受一组假设和一个目标作为输入,并生成一个形式上从假设推导出目标的证明。错误的证明通过自动证明检查器被检测出来。一个关键的训练障碍是现实中证明资料的稀缺性。我们提出了一种高效且随机化的合成有效证明的方法,并介绍了模板转换这一数据增强技术,以增强模型处理复杂逻辑表达式的能力。中央评估问题是LLM是否确实学会了推理。我们提出了一些测试来测量黑箱LLM的推理能力。通过这些测试,实验表明,对于具有简短证明的断言,LLM显示出强大的推理能力,但随着证明复杂性的增加而下降。值得注意的是,模板转换即使对于较小的模型也能提高准确性,这表明其在不同模型规模上的有效性。
发布时间: 4/30/2025
查看原文
作者: Juntian Zhang, Chuanqi cheng, Yuhan Liu, Wei Liu, Jian Luan, Rui Yan
arXiv:2504.20199v1 类型: cross 摘要:视觉语言模型(VLMs)在单图像任务中取得了显著的成功。然而,在现实世界场景中通常涉及复杂的多图像输入,这导致模型在处理复杂视觉特征中分散的关键信息时出现明显的性能下降。为了解决这一问题,我们提出了一种新的范式——焦点为中心的视觉链(Focus-Centric Visual Chain),该范式旨在增强VLMs在多图像场景中的感知、理解和推理能力。为了促进这一范式的实现,我们提出了焦点为中心的数据合成方法,这是一种可扩展的自下而上的方法,用于合成具有详细推理路径的高质量数据。通过这种方法,我们构建了VISC-150K数据集,这是一个大规模的数据集,其中包含了以焦点为中心的视觉链形式的推理数据,专门设计用于多图像任务。在七个不同的多图像基准测试上的实验结果表明,我们的方法在两个不同的模型架构中分别实现了3.16%和2.24%的平均性能提升,而不影响通用的视觉语言能力。我们的研究代表了向更具鲁棒性和能力的视觉语言系统迈进的重要一步,这些系统能够处理复杂的视觉场景。
发布时间: 4/30/2025
查看原文
arXiv:2504.20197v1 宣告类型:交叉 摘要:将深度神经网络学习到的表示分解为可解释的特征,可以大大增强其安全性和可靠性。为了更好地理解这些特征,我们采用几何视角,将它们视为一种用于映射嵌入数据分布的学习坐标系。我们以随机晶格为通用数据分布模型,并使用渗流理论分析其性质。学习到的特征被分类为上下文特征、组件特征和表面特征。该模型在近期的机制可解释性研究成果中具有定性一致性,并为未来的研究指明了方向。
发布时间: 4/30/2025
查看原文
作者: Daye Nam, Ahmed Omran, Ambar Murillo, Saksham Thakur, Abner Araujo, Marcel Blistein, Alexander Fr\"ommgen, Vincent Hellendoorn, Satish Chandra
arXiv:2504.20196v1 宣传类型:交叉 摘要:大规模语言模型(LLMs)正在迅速改变软件工程领域,代码助手嵌入到集成开发环境(IDE)中变得越来越普遍。虽然研究主要集中在改善这些工具和理解开发人员的感知上,但在了解开发人员实际上在日常工作中如何使用这些工具以及他们在哪些方面遇到困难方面还存在关键缺口。本文通过多阶段研究部分填补了这一缺口,该研究调查了开发人员与一个由LLM支持的代码编辑和转换功能Transform Code在广泛用于Google的IDE中的互动。首先,我们分析了该功能使用的遥测日志,发现频繁重新提示可能是开发人员使用Transform Code遇到困难的一个指标。其次,我们对不满意请求进行了定性分析,识别出开发人员提示中经常缺失的五类重要信息。最后,基于这些发现,我们提出了一个工具AutoPrompter,该工具通过从周围代码上下文推断缺失信息来自动生成更好的提示,我们的测试集中编辑正确率提高了27%。
发布时间: 4/30/2025
查看原文
作者: Weihao Sun, Heeseung Bang, Andreas A. Malikopoulos
arXiv:2504.20187v1 宣布类型: 交叉 摘要: 在本文中,我们提出了一种注意遵守性的强化学习(RL)方法,旨在在一个半自主驾驶环境中寻求最优变道建议,以提高单辆车辆的行驶效率。该问题被建模为马尔可夫决策过程,并通过一种注意遵守性的深层Q网络进行解决,该网络考虑了人类驾驶员对建议行动的部分遵守性。该方法在CARLA的驾驶环境中,在现实场景下进行了评估。
发布时间: 4/30/2025
查看原文
arXiv:2504.20183v1 交叉公告类型 摘要:大型语言模型(LLMs)在自动化算法发现(AAD)中的应用,特别是用于优化启发式方法,是一个正在兴起的研究领域。这一兴起促使人们需要制定稳健的标准基准测试实践,以严格评估LLM驱动的AAD方法及其生成算法的能力和局限性,尤其是考虑到它们设计过程的不透明性以及现有基准存在的问题。为了解决这一需求,我们引入了BLADE(LLM驱动的自动化设计和演化标准基准套件),这是一个模块化和可扩展的框架,专门设计用于在连续的黑盒优化背景下基准测试LLM驱动的AAD方法。BLADE集成了各种基准问题的集合(包括MA-BBOB和SBOX-COST等),以及其他实例生成器和文本描述,旨在进行能力导向的测试,如泛化、专业化和信息利用。它提供了灵活的实验设置选项、标准化的日志记录以确保可重复性和公平比较、集成分析AAD过程的方法(例如代码进化图和各种可视化方法),并通过与IOHanalyser和IOHexplainer等现有工具的集成来促进与人类设计的基线的比较。BLADE提供了一种“开箱即用”的解决方案,以系统地评估LLM驱动的AAD方法。该框架通过探索突变提示策略和功能专业化等两种不同的使用案例来展示其应用。
发布时间: 4/30/2025
查看原文
作者: Jingjing Wang, Dan Zhang, Joshua Luo, Yin Yang, Feng Luo
arXiv:2504.20179v1 类型: cross 摘要:基于常微分方程(ODE)的生成模型已经在许多应用中 emerged 作为一种强大的方法,用于产生高质量的样本。然而,基于 ODE 的方法要么受到数值求解器离散化误差的影响,当仅使用少量 NFE 时限制了样本的质量,要么难以解决训练不稳定性问题。在本文中,我们提出了 Integration Flow,它直接学习 ODE 基本轨迹路径的积分,而无需求解 ODE 函数。此外,Integration Flow 明确地将目标状态 \(\mathbf{x}_0\) 作为锚点状态纳入反向时间动态的引导中。据我们所知,Integration Flow 是第一个具有统一结构来估计基于 ODE 的生成模型的模型,同时也是第一个没有重新流的情况下显示出 1-Rectified Flow 精确直线性的模型。通过理论分析和实证评估,我们表明当将 Integration Flows 应用于现有的基于 ODE 的模型时,如扩散模型、未重新流的Rectified Flows 和 PFGM++,可以实现改进的效果。特别是,在 CIFAR10 上,对于 Variance Exploding (VE) 扩散模型,Integration Flow 的 FID 为 2.86;对于未重新流的Rectified flow,FID 为 3.36;对于 PFGM++,FID 为 2.91;在 ImageNet 上,对于 VE 扩散模型,FID 为 4.09;对于未重新流的Rectified flow,FID 为 4.35;对于 PFGM++,FID 为 4.15。
发布时间: 4/30/2025
查看原文
作者: Erik Jahn, Karthik Karnik, Leonard J. Schulman
arXiv:2504.20172v1 类别: cross 摘要: 在本文中,我们分析了因果识别算法在具有潜变量混杂因素的因果时间序列图中的适用性。由于这些图扩展到无限多个时间步骤,决定任意时间间隔的因果效应是否可识别似乎需要在无界大小的图段上进行计算。即使对于决定时间上接近的变量的干预效应的可识别性,也不知道需要考虑多少个过去的时间步骤。我们给出了第一个仅依赖于每时间步变量数和任何直接或潜变量因果效应的最大时间滞后数的此类限制。更一般地说,我们证明了将因果识别算法应用于时间序列图的恒定大小片段足以决定因果效应的可识别性,即使是在无界时间区间内也是如此。
发布时间: 4/30/2025
查看原文
作者: Nishant Subramani, Jason Eisner, Justin Svegliato, Benjamin Van Durme, Yu Su, Sam Thomson
arXiv:2504.20168v1 类型: cross 摘要: 在世界中行动的工具使用代理既需要有用也需要安全。校准良好的模型置信度可用于衡量潜在行动的风险与回报之间的权衡,但先前的研究显示许多模型的置信度校准较差。受探索模型内部机制的可解释性文献启发,我们提出了一种新的模型内部置信度估算器(MICE)类,以更好地评估调用工具时的置信度。MICE 首先使用 logitLens 解码语言模型的每个中间层,然后计算每层生成内容与最终输出之间的相似性分数。这些特征被输入一个学习的概率分类器,以评估解码输出的置信度。在使用 Llama3 模型的模拟试错(STE)工具调用数据集上,我们发现 MICE 在平滑化预期校准误差上优于或匹配了基线。使用 MICE 置信度来决定是否调用工具在新的预期工具调用效用度量上显著优于强基线。进一步的实验证明,MICE 是样本高效的,可以泛化到未见过的API,并在风险水平变化的场景中提高了工具调用效用。我们的代码是开源的,可在 https://github.com/microsoft/mice_for_cats 获取。
发布时间: 4/30/2025
查看原文