LLM2D

arXiv 论文列表

arXiv:2409.15186v1 公告类型: 交叉 摘要: Verilog代码中的错误定位是硬件设计验证过程中一项关键且耗时的任务。自引入以来,大型语言模型(LLMs)展示了其强大的编程能力。然而,目前尚未有研究考虑使用LLMs进行Verilog代码中的错误定位。本文介绍了Location-is-Key,一种开源的LLM解决方案,用于定位Verilog代码片段中的功能错误。LiK在基于RTLLM的测试数据集上实现了高达93.3%的定位准确率,超过了GPT-4的77.9%,并与Claude-3.5的90.8%相当。此外,LiK获得的错误定位显著提高了GPT-3.5的错误修复效率(功能通过率从40.39%提升至58.92%),突显了错误定位在基于LLM的Verilog调试中的重要性。与现有方法相比,LiK仅需要设计规范和错误代码片段,无需测试平台、断言或其他EDA工具。本研究展示了使用LLMs进行Verilog错误定位的可行性,从而为自动Verilog代码调试提供了新的方向。
发布时间: 9/24/2024
查看原文
本研究探讨了利用各种互联网数据源从一组模板机器人行为中进行选择以执行技能的实用性。从互联网数据源学习涉及工具使用的接触丰富的技能通常具有挑战性,因为这些数据缺乏物理信息,如接触的存在、位置、区域和力。先前的工作通常使用互联网数据和基于这些数据训练的基础模型来生成低级机器人行为。我们假设这些数据和模型可能更适合从一组基本机器人行为中进行选择,以执行这些接触丰富的技能。我们探索了三种模板选择方法:查询大型语言模型,将机器人执行的视频与使用先前工作中常见的预训练视频编码器特征检索到的人类视频进行比较,以及使用基于互联网数据训练的光流编码器特征进行相同的比较。我们的结果显示,尽管缺乏视觉信息,大型语言模型作为模板选择器的能力出乎意料地强,光流编码显著优于使用更多数据训练的视频编码器,并且在各种形式的互联网数据之间存在重要的协同效应。通过利用这些协同效应,我们创建了一个使用多种互联网数据形式的模板选择器,在一组涉及工具使用的16种不同烹饪技能上实现了79%的成功率。
发布时间: 9/24/2024
查看原文
arXiv:2409.15159v1 公告类型: 交叉 摘要: 基于模拟训练的视觉数据驱动布料神经控制器与实际操作之间的保真度差距,阻碍了从模拟到物理试验的可靠部署。实际操作中的抓取错误,如误抓取和多层抓取,降低了其性能;此外,一些由合成材料制成的布料也倾向于粘附在常用的Franka Emika Panda原装夹具上。不同的方法采用了各种策略来解决这些问题,进一步复杂化了最先进方法在实际环境中的比较。我们提出了DeepCloth-ROB$^2_{\text{QS}}$P&P,结合模拟到现实转移策略Towel-Sim2Real和布料抓取协议,以考虑并减轻这些抓取错误,从而在布料成型中稳健地部署准静态的拾取和放置神经控制器,并展示了其在不同深度学习方法、布料背景和机器人平台上的通用性。我们的方法首次允许我们在真实环境中比较多个神经控制器,为布料操作社区提供了宝贵的见解。
发布时间: 9/24/2024
查看原文
arXiv:2409.15155v1 公告类型: 交叉 摘要: 在头颈部癌症的放射治疗计划中,通常使用患者的计算机断层扫描(CT)图像。然而,在头颈部癌症患者中,使用千伏特(kVCT)管电压生成的标准CT图像质量因金属植入物(如牙科填充物)引起的条纹伪影而严重下降。一些放射治疗设备提供获取兆伏特CT(MVCT)的可能性,用于每日患者设置验证,由于使用的高能X射线,MVCT扫描几乎完全不受伪影影响,更适合放射治疗计划。在本研究中,我们利用kVCT扫描的优势与MVCT扫描(无伪影)的优势。我们提出了一种基于深度学习的方法,能够从获取的kVCT图像生成无伪影的MVCT图像。结果提供了无伪影的MVCT图像,并增强了软组织对比度,利用kVCT技术获取的有价值信息进行精确的治疗校准。我们提出的方法采用UNet启发模型,并与对抗学习和变换器网络进行比较。这种首次且独特的方法取得了显著成功,在整个患者体积中的PSNR为30.02 dB,在仅受伪影影响的区域中为27.47 dB。值得注意的是,PSNR计算排除了背景,仅集中在感兴趣区域。
发布时间: 9/24/2024
查看原文
大型语言模型(LLMs)的出现显著影响了软件开发活动的各个方面。尽管它们带来了诸多好处,但LLMs也带来了显著的风险,包括可能生成有害内容以及被恶意开发者滥用以创建恶意代码。先前的多项研究主要集中在LLMs抵抗生成违反人类伦理标准的有害内容(如偏见或冒犯性内容)的能力上。然而,目前尚无研究评估LLMs抵抗生成恶意代码的能力。为了填补这一空白,我们提出了RMCBench,这是首个包含473个提示的基准,旨在评估LLMs抵抗生成恶意代码的能力。该基准采用两种场景:文本到代码场景,即LLMs根据描述生成代码;代码到代码场景,即LLMs翻译或完成现有恶意代码。基于RMCBench,我们对11个代表性LLMs进行了实证研究,以评估它们抵抗生成恶意代码的能力。我们的研究结果表明,当前的LLMs在抵抗生成恶意代码方面能力有限,文本到代码场景中的平均拒绝率为40.36%,代码到代码场景中的平均拒绝率为11.52%。RMCBench中所有LLMs的平均拒绝率仅为28.71%;ChatGPT-4的拒绝率仅为35.73%。我们还分析了影响LLMs抵抗生成恶意代码能力的因素,并为开发者提供了增强模型鲁棒性的启示。
发布时间: 9/24/2024
查看原文
利用大型语言模型(LLMs)强大的推理能力,基于LLM的机器人任务规划方法近期取得了显著成果。然而,这些方法主要集中在单一或多个同质机器人在简单任务上的应用。实际上,复杂的长期任务通常需要多个异质机器人之间的协作,尤其是在动作空间更为复杂的情况下,这使得这些任务更具挑战性。为此,我们提出了COHERENT,一种新颖的基于LLM的任务规划框架,用于异质多机器人系统的协作,包括四旋翼飞行器、机器狗和机械臂。具体而言,我们设计了一种提案-执行-反馈-调整(PEFA)机制,用于分解和分配各机器人的动作。其中,一个集中的任务分配者提出任务规划提案,将复杂任务分解为子任务,并分配给机器人执行者。每个机器人执行者选择可行的动作来执行分配的子任务,并向任务分配者报告自我反思反馈以进行计划调整。PEFA循环进行,直到任务完成。此外,我们创建了一个包含100个复杂长期任务的异质多机器人任务规划基准。实验结果表明,我们的工作在成功率和执行效率方面显著优于以往的方法。实验视频、代码和基准已在https://github.com/MrKeee/COHERENT发布。
发布时间: 9/24/2024
查看原文
我们利用机器学习优化LSM-树结构,旨在降低处理各种读/写操作的成本。我们提出了一种名为Camal的新方法,其特点如下:(1)机器学习辅助:Camal是首次尝试将主动学习应用于基于LSM-树的键值存储调优。学习过程与传统成本模型相结合,以改进训练过程;(2)解耦主动学习:基于严格的分析,Camal采用基于每个参数解耦调优的主动学习范式,进一步加速学习过程;(3)易于外推:Camal采用有效的机制,随着数据规模的增加逐步更新模型;(4)动态模式:Camal能够在动态变化的工作负载下在线调优LSM-树;(5)显著的系统改进:通过将Camal集成到完整系统RocksDB中,系统性能平均提升28%,最高可达8倍,相较于最先进的RocksDB设计。
发布时间: 9/24/2024
查看原文
我们提出了统一的BRAVO挑战,以在现实扰动和未知分布外(OOD)场景下评估语义分割模型的可靠性。我们定义了两种可靠性类别:(1)语义可靠性,反映模型在面对各种扰动时的准确性和校准情况;(2)OOD可靠性,衡量模型在训练期间未知的对象类别检测能力。该挑战吸引了近100个来自国际知名研究机构的团队提交作品。结果揭示了大规模预训练和最小化架构设计在开发稳健可靠的语义分割模型中的重要性。
发布时间: 9/24/2024
查看原文
利用空中计算进行模型聚合是应对联邦边缘学习中通信瓶颈的有效方法。通过利用多接入信道的叠加特性,这种方法促进了通信和计算的集成设计,从而在降低实施成本的同时增强了系统隐私。然而,无线信道中的固有电磁干扰通常表现出重尾分布,导致全局聚合梯度中出现异常强的噪声,这会显著降低训练性能。为了解决这一问题,我们提出了一种新的梯度裁剪方法,称为中值锚定裁剪(Median Anchored Clipping, MAC),以对抗重尾噪声的有害影响。我们还推导了在MAC下模拟空中联邦学习的模型训练收敛率的解析表达式,定量展示了MAC对训练性能的影响。广泛的实验结果表明,所提出的MAC算法有效地减轻了重尾噪声的影响,从而显著增强了系统的鲁棒性。
发布时间: 9/24/2024
查看原文
arXiv:2409.15097v1 公告类型: 交叉 摘要: 变压器在各种应用中被广泛使用,其中许多应用产生了稀疏或部分填充的注意力矩阵。例如,设计用于减少注意力二次复杂性的注意力掩码、序列打包技术以及最近在MEDUSA中用于快速验证的树掩码等创新。尽管这些矩阵具有固有的稀疏性,但最先进的算法Flash Attention仍然以二次复杂性处理它们,仿佛它们是密集的。在本文中,我们引入了\textbf{二进制块掩码},这是一种高效的修改,通过使其具有掩码感知能力来增强Flash Attention。我们进一步提出了两种优化:一种针对具有连续非零模式的掩码,另一种针对极度稀疏的掩码。我们在从现实场景中得出的注意力掩码上的实验表明,运行时间提高了多达9倍。该实现将公开发布,以促进进一步的研究和应用。
发布时间: 9/24/2024
查看原文