LLM2D

arXiv 论文列表

作者: Jon Saad-Falcon, Adrian Gamarra Lafuente, Shlok Natarajan, Nahum Maru, Hristo Todorov, Etash Guha, E. Kelly Buchanan, Mayee Chen, Neel Guha, Christopher R\'e, Azalia Mirhoseini
推理时技术正在成为提高大型语言模型 (LLM) 能力的有效工具。然而,对于开发将推理时技术与一个或多个 LLM 相结合的系统的最佳实践,人们仍然缺乏了解,面临的挑战包括:(1) 有效地分配推理计算预算,(2) 理解不同推理时技术组合之间的相互作用及其对下游性能的影响,以及 (3) 在模型选择、推理时技术及其组合的大空间中有效地搜索。为了解决这些挑战,我们引入了 Archon,一个用于设计推理时架构的自动化框架。Archon 定义了一个可扩展的设计空间,涵盖了生成集成、多重采样、排序、融合、批评、验证和单元测试等方法。然后,它将选择和组合 LLM 和推理时技术的难题转化为超参数优化目标。为了优化这个目标,我们引入了自动推理时架构搜索 (ITAS) 算法。给定目标基准、推理计算预算和可用的 LLM,ITAS 输出优化的架构。我们在各种指令遵循和推理基准上评估了 Archon 架构,包括 MT-Bench、Arena-Hard-Auto、AlpacaEval 2.0、MixEval、MixEval Hard、MATH 和 CodeContests。我们表明,Archon 自动设计的推理时架构在这些基准上优于 GPT-4o 和 Claude 3.5 Sonnet 等强大模型,使用所有来源模型和开源模型分别平均提高了 15.1 和 11.2 个百分点。我们在 Github 上公开发布了我们的代码和数据集:https://github.com/ScalingIntelligence/Archon。
发布时间: 10/1/2024
查看原文
作者: Bingkun Yao, Ning Wang, Jie Zhou, Xi Wang, Hong Gao, Zhe Jiang, Nan Guan
在硬件设计验证过程中,Verilog 代码的错误定位是一个至关重要的且耗时的任务。自大型语言模型 (LLM) 出现以来,它们展现出强大的编程能力。然而,目前还没有工作考虑将 LLM 用于 Verilog 代码的错误定位。本文介绍了 Location-is-Key,这是一个开源的 LLM 解决方案,用于定位 Verilog 代码片段中的功能性错误。LiK 在 RTLLM 基础上,在我们的测试数据集上实现了 93.3% 的 pass@1 定位准确率,超过了 GPT-4 的 77.9%,与 Claude-3.5 的 90.8% 相当。此外,LiK 获得的错误位置显著提高了 GPT-3.5 的错误修复效率(功能性 pass@1 从 40.39% 提升至 58.92%),突出了错误定位在基于 LLM 的 Verilog 调试中的重要性。与现有方法相比,LiK 只需要设计规范和错误代码片段,不需要测试平台、断言或任何其他 EDA 工具。这项研究证明了使用 LLM 进行 Verilog 错误定位的可行性,从而为自动 Verilog 代码调试提供了一个新的方向。
发布时间: 10/1/2024
查看原文
求解偏微分方程 (PDE) 是许多科学和工程发现中一个重要且必不可少的组成部分。深度学习赋能的常见方法之一是物理信息神经网络 (PINN)。最近,提出了一种新型的基本神经网络模型——Kolmogorov-Arnold 网络 (KAN),作为多层感知器 (MLP) 的替代方案,并拥有可训练的激活函数。为了提高 KAN 在拟合精度方面的表现,有人建议对 KAN 进行修改,称为 ReLU-KAN,使用“ReLU 平方”作为其激活函数的基础。在本研究中,我们提出了另一种激活函数的基础,即高阶 ReLU (HR),它比 KAN 中使用的激活函数基础(即 B 样条)更简单;允许高效的 KAN 矩阵运算;并拥有平滑且非零的高阶导数,这对物理信息神经网络至关重要。我们将这种以高阶 ReLU (HR) 作为其激活函数的 KAN 称为 HRKAN。我们在两个著名的代表性 PDE 上进行了详细的实验,即线性泊松方程和具有粘度的非线性 Burgers 方程,结果表明我们提出的高阶 ReLU-KAN (HRKAN) 在 KAN、ReLU-KAN 和 HRKAN 中实现了最高的拟合精度和训练鲁棒性,以及最短的训练时间。用于复制我们实验的代码可在 https://github.com/kelvinhkcs/HRKAN 获取。
发布时间: 10/1/2024
查看原文
作者: Marcus Kessel, Colin Atkinson
生成式人工智能 (GAI) 在提高软件工程生产力方面具有巨大潜力,但其不可靠的输出,尤其是在代码合成方面,带来了重大挑战。对 GAI 生成的工件进行广泛的验证和确认 (V&V) 可能会削弱潜在的生产力提升。本文提出了一种通过利用 GAI 生成多个版本的代码和测试来减轻这些风险的方法,从而促进版本间比较分析。这种“差分 GAI” (D-GAI) 方法不依赖于单个测试或代码模块的质量,而是通过版本多样性来促进更可靠的质量评估。我们介绍了大型软件天文台 (LASSO),这是一个支持 D-GAI 的平台,它可以执行和分析大量代码版本和测试集。我们讨论了 LASSO 如何实现对 GAI 生成的工件的严格评估,并提出了它在软件开发和 GAI 研究中的应用。
发布时间: 10/1/2024
查看原文
作者: Xiyana Figuera, Soogeun Park, Hyemin Ahn
我们提出了 $\text{MR.HuBo}$(利用人体先验进行动作重定向),这是一种经济高效且便捷的方法,用于收集高质量的上半身配对 $\langle \text{机器人,人类} \rangle$ 姿势数据,这对数据驱动动作重定向方法至关重要。与现有的将人类动作捕捉姿势转换为机器人姿势来收集 $\langle \text{机器人,人类} \rangle$ 姿势数据的方法不同,我们的方法反其道而行之。我们首先对不同的随机机器人姿势进行采样,然后将它们转换为人类姿势。然而,由于随机机器人姿势会导致极端且不可行的姿势,我们提出了一种额外的技术,通过利用从大量人类姿势数据中训练的人体先验来筛选出极端姿势。我们的数据收集方法适用于任何类人机器人,只要设计或优化系统的超参数,包括尺寸缩放因子和用于采样的关节角度范围。除了这种数据收集方法之外,我们还提出了一个两阶段动作重定向神经网络,它可以通过对大量配对数据进行监督学习来进行训练。与通过无监督学习训练的其他基于学习的方法相比,我们发现使用大量高质量配对数据训练的深度神经网络取得了显著的性能。我们的实验还表明,我们的数据过滤方法比使用原始噪声数据训练模型产生了更好的重定向结果。我们的代码和视频结果可在 https://sites.google.com/view/mr-hubo/ 上获取。
发布时间: 10/1/2024
查看原文
作者: Youngsun Lim, Hojun Choi, Pin-Yu Chen, Hyunjung Shim
尽管文本到图像 (TTI) 生成模型取得了令人印象深刻的成功,但现有研究忽略了这些模型是否准确传达事实信息的问题。本文重点关注图像幻觉问题,即生成模型创建的图像无法忠实地描绘事实内容。为了解决这个问题,我们引入了 I-HallA(通过问答进行图像幻觉评估),这是一种新颖的自动化评估指标,通过视觉问答 (VQA) 测量生成图像的事实性。我们还为该目的引入了 I-HallA v1.0,这是一个精心策划的基准数据集。作为此过程的一部分,我们开发了一条管道,使用多个基于 GPT-4 Omni 的代理生成高质量的问答对,并通过人工判断来确保准确性。我们的评估协议通过测试现有文本到图像模型的图像是否能正确回答这些问题来衡量图像幻觉。I-HallA v1.0 数据集包含跨九个类别的 1.2K 个不同的图像文本对,其中包含 1,000 个经过严格策划的问题,涵盖各种组成挑战。我们使用 I-HallA 评估了五种文本到图像模型,结果表明这些最先进的模型通常无法准确传达事实信息。此外,我们通过证明与人工判断之间存在很强的斯皮尔曼相关性 (rho=0.95) 来验证我们指标的可靠性。我们相信我们的基准数据集和指标可以作为开发事实准确的文本到图像生成模型的基础。
发布时间: 10/1/2024
查看原文
作者: Faiza Bouamra, Mohamed Sayah, Labib Sadek Terrissa, Noureddine Zerhouni
在材料物理学中,表征技术对于获取材料数据至关重要,这些数据涵盖了物理性质以及结构、电子、磁性、光学、介电和光谱特性。然而,对于许多材料来说,确保数据的可用性和安全访问并非易事,也并非完全有保障。此外,建模和仿真技术的使用需要大量的理论知识,并且与高昂的计算时间和复杂程度相关联。因此,使用不同的技术同时分析多个样品的材料,对于工程师和研究人员来说仍然是一个巨大的挑战。值得注意的是,虽然存在风险,但 X 射线衍射是一种公认且广泛使用的表征技术,它收集晶体 1d、2d 或 3d 材料的结构性质数据。本文提出了一种用于门控循环单元 (GRU) 模型的智能 GRU,用于预测二氧化锡 SnO$_2$(110) 薄膜的结构特征或性质。实际上,薄膜样品是通过实验精心制作和管理的,收集的数据字典随后被用于生成一个用于二氧化锡 SnO$_2$(110) 薄膜结构性质表征的 AI - 人工智能 - GRU 模型。
发布时间: 10/1/2024
查看原文
作者: Dingjie Song, Wenjun Wang, Shunian Chen, Xidong Wang, Michael Guan, Benyou Wang
多模态大型语言模型 (MLLMs) 的快速发展已在各个领域取得了非凡的成就。然而,这种进步伴随着模型资源消耗的大幅增加。为了解决这一紧迫问题,我们提出了一种新的方法,即使用 CLIP 度量进行令牌缩减 (TRIM),旨在提高 MLLMs 的效率,而不会牺牲其性能。TRIM 从人类在视觉问答 (VQA) 任务中的注意力模式中汲取灵感,为图像令牌的选择和缩减提供了全新的视角。TRIM 方法已在 12 个数据集上进行了广泛测试,结果表明在保持一致性能水平的同时,计算开销显着降低。这项研究标志着高效 MLLM 开发的重大进展,促进了高性能模型的更大可及性和可持续性。
发布时间: 10/1/2024
查看原文
作者: Shengchao Liu, Divin Yan, Weitao Du, Weiyang Liu, Zhuoxinran Li, Hongyu Guo, Christian Borgs, Jennifer Chayes, Anima Anandkumar
人工智能模型在基于结构的药物设计中展现出巨大潜力,能够生成具有高结合亲和力的配体。然而,现有的模型往往忽略了一个至关重要的物理约束:原子必须保持最小的成对距离,以避免分离违反,这种现象受吸引力和排斥力平衡的支配。为了减轻这种分离违反,我们提出了 NucleusDiff。它通过对原子核及其周围电子云之间的相互作用进行建模,并通过对核和流形之间的距离约束进行建模。我们使用 CrossDocked2020 数据集和 COVID-19 治疗靶点对 NucleusDiff 进行了定量评估,结果表明 NucleusDiff 将违反率降低了高达 100.00%,并将结合亲和力提高了高达 22.16%,超过了基于结构的药物设计的最先进模型。我们还通过流形采样进行了定性分析,直观地证实了 NucleusDiff 在减少分离违反和提高结合亲和力方面的有效性。
发布时间: 10/1/2024
查看原文
作者: Mohammad Nomaan Qureshi, Sparsh Garg, Francisco Yandun, David Held, George Kantor, Abhisesh Silwal
Sim2Real迁移,特别是对于依赖RGB图像的操控策略而言,仍然是机器人领域的一项重大挑战,因为合成数据和真实世界视觉数据之间存在着显著的领域差异。本文提出了一种名为SplatSim的新框架,该框架利用高斯splatting作为主要的渲染原语,以减少基于RGB的操控策略的Sim2Real差距。通过在模拟器中用高斯splatting替换传统的网格表示,SplatSim可以生成高度逼真的合成数据,同时保持模拟的可扩展性和成本效益。我们通过在SplatSim中训练操控策略并在真实世界中以零样本方式部署它们来证明我们框架的有效性,实现了86.25%的平均成功率,而使用真实世界数据训练的策略的平均成功率为97.5%。视频可在我们的项目页面找到:https://splatsim.github.io。
发布时间: 10/1/2024
查看原文