LLM2D

arXiv 论文列表

作者: Shuyang Hou, Zhangxiao Shen, Anqi Zhao, Jianyuan Liang, Zhipeng Gui, Xuefeng Guan, Rui Li, Huayi Wu
地球科学领域对时空数据和建模任务的需求日益增长,使得地理空间代码生成技术成为提高生产力的关键因素。尽管大型语言模型 (LLM) 在代码生成任务中展现出潜力,但由于缺乏领域特定知识和代码语料库,它们在地理空间代码生成中常常遇到拒绝生成代码或出现幻觉等问题。为了应对这些挑战,本文提出并开源了 GeoCode-PT 和 GeoCode-SFT 语料库,以及 GeoCode-Eval 评估数据集。此外,我们利用 QLoRA 和 LoRA 进行预训练和微调,推出了 GeoCode-GPT-7B,这是第一个专注于地理空间代码生成的 LLM,它基于 Code Llama-7B 微调而来。此外,我们建立了一个全面的地理空间代码评估框架,该框架结合了选项匹配、专家验证和提示工程评分,并使用 GeoCode-Eval 数据集系统地评估了 GeoCode-GPT-7B。实验结果表明,GeoCode-GPT 在多项选择准确率上比其他模型高出 9.1% 到 32.1%,在代码总结能力上高出 1.7% 到 25.4%,在代码生成能力上高出 1.2% 到 25.1%。本文为提高大型语言模型在地理空间代码生成中的性能提供了一种解决方案和实证验证,扩展了特定领域模型应用的边界,并为释放其在地理空间代码生成中的潜力提供了宝贵的见解。
发布时间: 10/23/2024
查看原文
作者: Anne-Maria Laukkanen, Sudarsana Reddy Kadiri, Shrikanth Narayanan, Paavo Alku
目标:多项研究报道,女性说话者中社会性摩擦音的发生率有所增加。以往对社会性摩擦音的研究,是将语音的感知评估与传统的声学参数(如谐波噪声比和倒谱峰值突出度)结合起来进行的。在本研究中,我们使用机器学习 (ML) 自动区分社会性摩擦音含量低和高的语音。方法:首先,由两位语音专家对90位芬兰语女性说话者产生的连续语音样本中的摩擦音含量进行感知评估。根据他们的评估,将语音样本分为两类(摩擦音含量低与高)。利用语音信号及其摩擦音标签,训练了七种不同的机器学习模型。每种模型都使用了三种频谱表示作为特征。结果:结果表明,以下两种系统获得了最佳性能(准确率为71.1%):使用梅尔谱图特征的Adaboost分类器和使用梅尔频率倒谱系数特征的决策树分类器。结论:社会性摩擦音的研究在社会语言学和发声学研究中越来越受到关注。传统的摩擦音含量人工感知评估费时费力,因此机器学习技术可以用来辅助研究社会性摩擦音的研究人员。本研究中报告的分类系统可以被认为是未来基于机器学习的社会性摩擦音研究的基准。
发布时间: 10/23/2024
查看原文
作者: Antoine Gorceix, Bastien Le Chenadec, Ahmad Rammal, Nelson Vadori, Manuela Veloso
本文研究大型语言模型学习特定数学规则(如分配律或化简方程)的能力。我们对它们泛化这些规则以及在文字题中重用这些规则的能力进行了实证分析。为此,我们提供了一种严格的方法来构建包含此类规则的合成数据,并在这种数据上对大型语言模型进行微调。我们的实验表明,我们的模型可以在一定程度上学习和泛化这些规则,并适当地在文字题的背景下重用它们。
发布时间: 10/23/2024
查看原文
作者: Itay Nakash, George Kour, Guy Uziel, Ateret Anaby-Tavor
随着大型语言模型(LLM)的进步,基于LLM的自主代理的开发越来越普遍。因此,理解这些代理的安全漏洞已成为一项关键任务。我们研究了如何使用一种我们称之为“登堂入室”攻击的简单有效方法来利用ReAct代理。我们的实验表明,由无害且无关的请求(例如基本计算)引发的间接提示注入攻击,可以显著增加代理执行后续恶意操作的可能性。我们的结果表明,一旦ReAct代理的思考包含特定的工具或操作,则在后续步骤中执行此工具的可能性会显著增加,因为代理很少重新评估其操作。因此,即使是随机的、无害的请求,也可以建立一个“立足点”,允许攻击者将恶意指令嵌入到代理的思维过程中,使其更容易受到有害指令的影响。为了减轻这种漏洞,我们建议实施一个简单的反射机制,提示代理在执行过程中重新评估其操作的安全性,这有助于降低此类攻击的成功率。
发布时间: 10/23/2024
查看原文
作者: Junyeong Maeng, Kwanseok Oh, Wonsik Jung, Heung-Il Suk
脑龄转换旨在将参考脑图像转换为合成图像,这些合成图像准确地反映目标年龄组的特定年龄特征。这项任务的主要目标是仅修改参考图像中与年龄相关的属性,同时保留所有其他与年龄无关的属性。然而,由于骨干编码器提取的特征中各种图像属性的固有纠缠,导致图像生成过程中同时发生改变,因此实现这一目标面临着巨大的挑战。为了应对这一挑战,我们提出了一种新颖的架构,该架构采用解耦表示学习进行身份保留的脑龄转换,称为 IdenBAT。这种方法有助于图像特征的分解,确保保留个体特征,同时选择性地转换与年龄相关的特征以匹配目标年龄组的特征。通过在 2D 和全尺寸 3D 脑数据集上进行的综合实验,我们的方法能够熟练地将输入图像转换为目标年龄,同时准确地保留个体特征。此外,我们的方法在性能保真度方面优于现有的最先进技术。
发布时间: 10/23/2024
查看原文
作者: Bryan R. Christ, Zack Gottesman, Jonathan Kropko, Thomas Hartvigsen
大型语言模型 (LLM) 中的数学推理是一个高度活跃的研究领域,因为它体现了人工智能的标志性特征。然而,很少有研究探索数学推理是如何编码在 LLM 参数中的,以及它是否是一项可以在模型中分离的技能。这样做可以实现有针对性的干预,以提高数学性能而不会改变非数学行为,并促进对模型如何编码数学推理的理解。我们介绍了 Math Neurosurgery (MathNeuro),这是一种仅使用前向传播来分离 LLM 中特定于数学的参数的方法。MathNeuro 基于现有工作,使用权重和激活来计算参数重要性,但通过去除对一般语言任务很重要的参数来分离特定于数学的参数。修剪 MathNeuro 识别的参数会删除 LLM 的数学推理能力,而不会破坏其一般语言能力。将这些参数按一个小的常数进行缩放,可以将预训练或指令微调的 LLM 在 GSM8K 上的性能提高 4-17%,同时保持非数学行为不变。MathNeuro 也是数据高效的:当使用单个样本识别特定于数学的参数时,其大部分有效性仍然存在。MathNeuro 突出了未来干预特定于数学的参数的潜力。
发布时间: 10/23/2024
查看原文
作者: Tomoyuki Kagaya, Yuxuan Lou, Thong Jing Yuan, Subramanian Lakshmi, Jayashree Karlekar, Sugiri Pranata, Natsuki Murakami, Akira Kinose, Koki Oguri, Felix Wick, Yang You
近年来,大型语言模型(LLM)展现出强大的推理能力,使其在各种决策过程中作为智能体的应用备受关注。LLM智能体在机器人操作中的应用尤其引人注目。最近的研究表明,LLM可以为机器人生成文本规划或控制代码,从而提供强大的灵活性和交互能力。然而,这些方法在灵活性和跨不同环境的适用性方面仍然面临挑战,限制了它们自主适应的能力。当前的方法通常分为两类:一类依赖于特定环境的策略训练,这限制了其可迁移性;另一类基于固定提示生成代码动作,这导致在面对新环境时性能下降。这些限制严重制约了机器人操作中智能体的泛化能力。为了解决这些限制,我们提出了一种新方法,称为EnvBridge。这种方法涉及将成功的机器人控制代码从源环境保留并转移到目标环境。EnvBridge通过利用多个环境中的见解,增强了智能体在不同环境中的适应性和性能。值得注意的是,我们的方法减轻了环境约束,为机器人操作任务提供了更灵活和更通用的解决方案。我们使用机器人操作基准测试(RLBench、MetaWorld和CALVIN)验证了我们方法的有效性。我们的实验表明,LLM智能体可以成功地利用多种知识来源来解决复杂的任务。因此,我们的方法显著增强了机器人操作智能体在跨不同环境进行规划时的适应性和鲁棒性。
发布时间: 10/23/2024
查看原文
胶囊网络在学习具有视角不变性的部分-整体关系方面优于卷积神经网络,这归功于其多维胶囊。人们曾认为增加胶囊网络中胶囊层的数量会提高模型性能。然而,最近的研究发现,由于较深层胶囊中激活值消失的问题,胶囊网络缺乏可扩展性。本文深入研究了深层胶囊网络中激活值消失的问题。为了分析这个问题并了解增加胶囊维度如何促进更深层网络,本文构建并评估了具有不同胶囊数量、胶囊维度和中间层的各种胶囊网络模型。与传统的模型剪枝(减少模型参数数量并加快模型训练)不同,本研究使用剪枝来减轻较深胶囊层中激活值的消失。此外,以不同的剪枝比例对主干网络和胶囊层进行剪枝,以减少非活动胶囊的数量,并实现比未剪枝模型更高的模型精度。
发布时间: 10/23/2024
查看原文
作者: Lukas Hughes-Noehrer, Leda Channer, Gabriel Strain, Gregory Yates, Richard Body, Caroline Jay
目的:调查临床医生对当前ECG自动解读和新型人工智能技术的态度,以及他们对计算机辅助解读的看法。材料和方法:我们对英国的临床医生进行了一系列访谈。我们的研究:(i) 探讨人工智能,特别是未来“类人”计算方法,促进ECG解读和支持临床决策的潜力;(ii) 征求他们对人工智能算法的可解释性和可信度重要性的意见。结果:我们对来自23位临床医生的访谈记录进行了归纳主题分析,并确定了以下主题:(i) 对现有系统的缺乏信任;(ii) 对未来人工智能应用及其要求的积极态度;(iii) 算法的准确性和可解释性之间的关系;(iv) 关于教育、可能的熟练程度下降以及人工智能对临床能力的影响的意见。讨论:临床医生不信任目前的计算机化方法,但欢迎未来的“人工智能”技术。当临床医生相信未来人工智能解读的准确性时,他们就不那么担心其可解释性。他们还更喜欢以视觉方式展示算法结果的ECG解读。虽然临床医生并不担心失业,但他们担心熟练程度下降以及需要对员工进行负责任地使用人工智能的教育。结论:临床医生对人工智能在临床决策中的未来应用持积极态度。准确性是采用的关键因素,并且更倾向于可视化而不是目前的计算机化方法。这被视为一种培训和技能提升的潜在手段,与自动化可能被认为带来的熟练程度下降形成对比。
发布时间: 10/23/2024
查看原文
作者: Dmytro Zabolotnii, Yar Muhammad, Naveed Muhammad
行人运动预测是基于模块的自动驾驶管线中的关键部分,它确保安全、准确和及时地感知人类代理未来轨迹的可能性。自动驾驶汽车可以使用此信息来防止任何可能的意外,并为乘客和行人创造舒适愉悦的驾驶体验。机器人、计算机视觉、智能交通系统等领域的作者对这一主题进行了大量的研究。然而,一个相对未被探索的角度是将最先进的解决方案集成到现有的自动驾驶系统中,并在现实条件下而不是在经过清理的数据集上对其进行评估。我们分析了具有公开源码解决方案的精选出版物,并提供了通过将其集成到现有的自动驾驶框架Autoware Mini中并在爱沙尼亚塔尔图的自然城市环境中进行实验而获得的视角,以确定传统运动预测指标的价值。这一视角对于任何寻求现有最先进的行人运动预测问题的真实世界性能的潜在自动驾驶或机器人工程师都应该是有价值的。包含访问数据集说明的代码可在https://github.com/dmytrozabolotnii/autoware_mini获取。
发布时间: 10/23/2024
查看原文