LLM2D

arXiv 论文列表

作者: Ishan Kavathekar, Raghav Donakanti, Ponnurangam Kumaraguru, Karthik Vaidhyanathan
arXiv:2504.19277v1 宣告类型:新 摘要:函数调用是一项复杂的任务,广泛应用于信息检索、软件工程和自动化等领域。例如,查询从纽约到伦敦的最短航班的时间为1月15日,需要识别正确的参数以生成准确的函数调用。大语言模型(LLMs)可以自动化这个过程,但在资源受限的环境中是计算成本高昂且不切实际的。相比之下,小型语言模型(SLMs)可以高效运行,提供更快的响应时间和较低的计算需求,使它们成为边缘设备上函数调用的潜在候选者。在这项探索性实证研究中,我们评估了SLMs在不同领域生成函数调用的有效性,使用零样本、少量样本和微调方法,同时进行了提示注入实验,以促进未来应用,并提供了微调模型以利于未来的应用。此外,我们通过多种指标分析了模型的响应,涵盖了函数调用生成的各个方面。此外,我们还在边缘设备上进行了实验,评估了它们在延迟和内存使用方面的性能,提供了关于其实用性的有用见解。我们的研究结果表明,虽然SLMs从零样本到少量样本有所改善,并且在微调时表现最佳,但它们在遵守给定输出格式方面面临显著挑战。提示注入实验进一步表明,这些模型通常具有鲁棒性,仅表现出轻微的性能下降。虽然SLMs在函数调用生成任务上显示出潜力,但我们的结果也指出了需要进一步改进以实现实时功能的领域。
发布时间: 4/29/2025
查看原文
作者: Chad Coleman, W. Russell Neuman, Ali Dasdan, Safinah Ali, Manan Shah
arXiv:2504.19255v1 宣告类型: 新 摘要:随着大型语言模型(LLMs)在重大决策情境中的部署越来越多,系统评估其道德推理能力变得至关重要。本文介绍了Priorities in Reasoning and Intrinsic Moral Evaluation(PRIME)框架——一个针对基础伦理维度进行全面分析的方法论,包括结果论-义务论推理、道德基础理论以及科尔伯格的发展阶段。我们通过结合直接提问和对已确立伦理困境的回应分析,将这一框架应用于六种领先的大语言模型。我们的分析揭示了显著的收敛模式:所有评估的模型都强调了关爱/伤害和公平/欺诈的基础,同时在权威、忠诚和圣洁维度上的权重较低。通过详细审查置信度指标、回应犹豫模式以及推理一致性,我们确证当代大语言模型(1)产生明确的道德判断,(2)在道德决策方面显示出可喜的跨模型一致性,(3)总体上与实证确立的人类道德偏好相符。这项研究提供了一种可扩展且可扩展的方法论,以实现道德基准测试,同时强调当前AI道德推理架构的既具前景的功能和系统性限制——这些见解对于负责任的发展这些系统并使其在社会中扮演越来越重要的角色至关重要。
发布时间: 4/29/2025
查看原文
作者: Pedro A. Moreno-S\'anchez, Javier Del Ser, Mark van Gils, Jussi Hernesniemi
arXiv:2504.19179v1 宣告类型: 新 摘要: 人工智能(AI)在医疗保健领域的变革潜力巨大,尤其在疾病诊断、预后和患者护理方面。随着数字医疗数据(如影像、组学、生物信号和电子健康记录)的不断增加可用性以及计算技术的进步,AI模型已接近专家级水平。然而,由于超出技术性能之外的挑战,如道德关切、监管障碍和缺乏信任,广泛的临床应用仍受到限制。为应对这些挑战,AI系统必须与可信人工智能(Trustworthy AI,TAI)的原则相一致,这些原则强调人类代理和监督、算法稳健性、隐私和数据管理、透明度、偏见和歧视规避以及问责制。然而,医疗保健流程的复杂性(如筛查、诊断、预后和治疗)以及参与各方(临床医生、患者、提供者、监管机构)的多样性,使得将TAI原则融入其中变得复杂。为了弥合TAI理论与实用实施之间的差距,本文提出了一种设计框架,以支持开发者将TAI原则嵌入到医疗AI系统中。因此,针对各种医疗健康过程中识别出的每一个利益相关者,我们提出了一套无疾病特异性的要求,这些医疗AI系统应当将其纳入以遵循TAI原则。此外,我们探讨了在实践中应用这些原则时可能遇到的挑战和权衡。为了充实讨论,我们聚焦于心血管疾病领域,这是一个高发病率且活跃的AI创新领域,并展示了TAI原则在该领域的应用情况及其持续存在的关键障碍。
发布时间: 4/29/2025
查看原文
arXiv:2504.19148v1 宣告类型: 新 摘要:本文提出了一种自适应动态属性和规则(ADAR)框架,旨在应对神经模糊推理系统中高维数据带来的挑战。通过结合双重权重机制——分别对属性和规则赋予自适应的重要性,并结合自动增长和剪枝策略,ADAR能够在不牺牲性能或可解释性的情况下,自适应地简化复杂的模糊模型。在四个不同的数据集——Auto MPG(7个变量)、北京PM2.5(10个变量)、波士顿房价(13个变量)和家电能耗(27个变量)上进行的实验评估表明,基于ADAR的模型在均方根误差(RMSE)上始终低于最先进的基线方法。例如,在北京PM2.5数据集上,ADAR-SOFENN在9条规则的情况下获得了56.87的RMSE,超过了传统的ANFIS [12]和SOFENN [16]模型。同样,在高维家电能耗数据集上,ADAR-ANFIS达到了83.25的RMSE,超过了传统的模糊逻辑方法以及专注于可解释性的方法如APLR。消融研究进一步表明,结合规则级别和属性级别的权重分配显著减少了模型的重叠,同时保留了重要特征,从而增强了可解释性。这些结果突显了ADAR在动态平衡规则复杂性和特征重要性方面的有效性,为可扩展、高精度和透明的神经模糊系统铺平了道路,适用于各种实际场景。
发布时间: 4/29/2025
查看原文
作者: Bowei Wang, Jiaran Gao, Yelai Feng, Renzhi Chen, Shanshan Li, Lei Wang
arXiv:2504.19144v1 宣告类型: 新 摘要:对专用领域架构(DSA)日益增长的需求推动了敏捷硬件开发方法(AHDM)的发展。类似 Chisel 的硬件构造语言(HCL)提供了高层抽象功能,使其成为基于 HCL 的 AHDM 的理想语言。尽管大型语言模型(LLMs)在代码生成任务方面表现出色,但在处理 Chisel 生成时仍面临挑战,特别是在语法正确性和设计变异性方面。最近的推理模型通过测试时的比例扩大技术显著提高了代码生成能力。然而,我们发现未经领域适应的推理模型无法为 Chisel 代码生成任务带来实质性的益处。本文提出了一种名为 ChiseLLM 的解决方案,该方案包括数据处理和转换、提示引导推理追踪合成以及领域适应模型训练。我们从公开的 RTL 代码资源中构建了高质量的数据集,并通过提示增强方法指导模型采用结构化思考模式。实验表明,与基线模型相比,我们的 ChiseLLM-7B 和 ChiseLLM-32B 模型分别提高了 18.85% 和 26.32% 的语法正确性,同时相较于基线推理模型,设计变异性能力提高了 47.58%。我们的数据集和模型已公开,为基于 HCL 的 AHDM 提供了高性能、成本效益高的模型,为未来的研究提供了有效的基线。GitHub 仓库:https://github.com/observerw/ChiseLLM
发布时间: 4/29/2025
查看原文
arXiv:2504.19027v1 宣布类型: 新 摘要:可解释的人工智能(XAI)在医疗保健、金融和法律等决策关键领域变得越来越重要。反事实(CF)解释是XAI中的一个关键方法,通过建议对输入特征进行最小修改以导致不同的模型结果,为用户提供可操作的洞察。尽管取得了显著的进步,现有的CF生成方法往往难以平衡接近性、多样性和稳健性,限制了它们的实际应用。一个广泛采用的框架DiCE强调多样性但缺乏稳健性,使得CF解释对扰动和领域约束敏感。为了解决这些挑战,我们引入了DiCE-Extended,这是一个增强的CF解释框架,通过整合多目标优化技术来提高稳健性同时保持解释性。我们的方法引入了一个新的基于Dice-Sorensen系数的稳健性度量,确保在输入微小变化下具有稳定性。此外,我们使用加权损失组件(lambda_p,lambda_d,lambda_r)细化CF生成,以平衡接近性、多样性和稳健性。我们在多个基准数据集(COMPAS、Lending Club、German Credit、Adult Income)和多个机器学习后端(Scikit-learn、PyTorch、TensorFlow)上实证验证了DiCE-Extended。结果表明,与标准生成的DiCE解释相比,DiCE-Extended生成的CF具有更高的有效性、稳定性和与决策边界的对齐性。我们的研究结果突显了DiCE-Extended在生成更可靠和可解释的CF方面的潜力,适用于高危应用。未来的工作将探索自适应优化技术和领域特定约束,以进一步增强现实场景中的CF生成。
发布时间: 4/29/2025
查看原文
arXiv:2504.19023v1 宣称类型: 新 摘要: 语义推理旨在从现有知识中推断新知识,OWL本体作为一种标准化框架用于组织信息。语义推理中的一个关键挑战是验证本体的一致性。然而,最先进的推理器计算成本高昂,其效率随着本体规模的增长而降低。虽然古典机器学习模型已经在一致性检查方面进行了探索,但它们难以捕捉本体中的复杂关系。大规模语言模型(LLMs)在简单的推理任务上显示出有希望的结果,但在结构化推理方面表现不佳。最近引入的图语言模型(GLM)提供了一种同时处理图结构数据和文本的方法。本文提出了一种名为GLaMoR(用于推理的图语言模型)的推理管道,该管道将OWL本体转换为图结构数据,并适应GLM架构用于一致性检查。我们使用NCBO BioPortal存储库中的本体对GLaMoR进行了评估,将它们转换为适合模型输入的三元组。结果显示,GLM超越了所有基线模型,在准确率方面达到了95%,比古典推理器快20倍。 代码可访问地址: https://github.com/JustinMuecke/GLaMoR
发布时间: 4/29/2025
查看原文
作者: Alireza Ghafarollahi, Markus J. Buehler
arXiv:2504.19017v1 宣告类型: 新 摘要:人工智能(AI)的进步承诺了自主发现的可能性,然而大多数系统仍然会重新利用其训练数据中的潜藏知识。我们提出了 Sparks,一种多模态多代理 AI 模型,它可以执行从假说生成、实验设计到迭代改进的整个发现周期,以开发出可泛化的原理并生成报告,完全无需人类干预。在应用于蛋白质科学时,Sparks 揭示了两个之前未知的现象:(i) 一种长度依赖的机械交叉现象,其中展旋倾向的肽段在超过约 80 个残基时,其解旋力超过 α-螺旋肽段,建立了新的肽力学设计原理;(ii) 一条链长/二级结构稳定图谱,揭示了出乎意料稳定的 β-折叠丰富结构以及 α/β 折叠混合结构中的“矛盾区”,其变异性较高。这些发现源自完全自我导向的推理循环,这些循环结合了生成性序列设计、高精度结构预测以及物理感知属性模型,并通过成对的生成-反思代理强制自纠错和可再现性。关键结果是,Sparks 可以独立进行严格的科学研究并识别出之前未知的科学原理。
发布时间: 4/29/2025
查看原文
作者: Devesh Pant, Dibyendu Talukder, Deepak Kumar, Rachit Pandey, Aaditeshwar Seth, Chetan Arora
arXiv:2504.18948v1 宣告类型: 新型 摘要: 开发项目的设计、监督和评估可能涉及关于项目活动的基于现场的数据收集。尽管如此,通过数字设备进行数据收集可能由于诸如现场工作者无法负担智能手机和平板电脑、或者他们缺乏培训和能力提升等原因而不可行。在某些情况下,基于纸张的数据收集被认为更为合适,通过OCR(光学字符识别)和OMR(光学标记识别)技术可以自动数字化这些纸张表单。我们提供了一个大规模的手写数字数据集,以及使用这些数据构建的有效于现实世界环境中的深度学习模型和方法。我们在一个使用IVR(互动语音响应)系统为印度北部农村妇女自助小组成员提供健康和营养意识信息的项目中部署了这些工具。大量的妇女使用纸质表格收集电话号码,这些号码通过我们开发的OCR工具进行数字化,并被用以推送接近400万次电话呼叫。数据、模型和代码已公开发布到开源领域。
发布时间: 4/29/2025
查看原文
作者: Zuhong Lin, Daoyuan Ren, Kai Ran, Sun Jing, Xiaotiang Huang, Haiyang He, Pengxu Pan, Xiaohang Zhang, Ying Fang, Tianying Wang, Minli Wu, Zhanglin Li, Xiaochuan Zhang, Haipu Li, Jingjing Yao
arXiv:2504.18880v1 公告类型: 新 摘要: 金属有机框架 (MOFs) 的合成条件挖掘是材料科学中的一个重要研究方向。然而,在众多可能性中识别特定 MOFs 的精确合成条件是一项巨大的挑战。大型语言模型 (LLMs) 为解决这一问题提供了一种有 promising 的解决方案。我们利用 LLMs 的能力,特别是 gpt-4o-mini,作为核心代理,整合了各种 MOF 相关代理,包括合成、属性和化学信息代理。这一整合最终促使开发出 MOFh6,一种 LLM 工具,旨在简化 MOF 合成过程。MOFh6 允许用户以多种格式进行查询,如提交科学文献,或询问特定的 MOF 代码或结构属性。该工具分析这些查询,提供最优的合成条件,并生成用于密度泛函理论预建模的模型文件。我们认为 MOFh6 将提高所有研究人员在 MOF 合成上的效率。
发布时间: 4/29/2025
查看原文