LLM2D

arXiv 论文列表

作者: Zeina Aldallal, Sara Chrouf, Khalil Hennara, Mohamed Motaism Hamed, Muhammad Hreden, Safwan AlModhayan
arXiv:2504.21635v1 交叉公告类型:跨领域 摘要:阿拉伯语标音仍然是自然语言处理中的一个持久性挑战,由于语言的形态丰富性。在本文中,我们介绍了Sadeed,一种基于从Kuwait 1.5B Hennara等人[2025]改编而来的仅解码器语言模型的新型方法。这是一个紧凑型模型,最初是在多样化的阿拉伯语语料库上进行训练的。Sadeed在精心策划和高质量的标音数据集上进行了微调,这些数据集是通过严格的清洗和规范化管道构建的。尽管使用了有限的计算资源,但Sadeed在与专有大型语言模型相比时仍能达到竞争力的结果,并且在相似领域的传统模型上表现更佳。此外,我们还强调了当前阿拉伯语标音基准测试实践中的关键限制。为了解决这些问题,我们引入了SadeedDiac-25,这是一种新的基准测试,旨在促进跨不同文体和复杂程度的更公平和更全面的评估。Sadeed和SadeedDiac-25共同为推进阿拉伯语自然语言处理应用程序,包括机器翻译、文本转语音和语言学习工具,提供了强大的基础。
发布时间: 5/1/2025
查看原文
arXiv:2504.21634v1 类别: cross 摘要:AI系统的公正性审计可以识别和量化偏差。然而,使用真实数据的传统审计会引发安全和隐私问题。审计人员会成为敏感信息的保管人,并成为网络攻击的目标,这会给他们带来安全风险。即使没有直接的数据泄露,数据分析也可能无意中暴露机密信息,从而引发隐私风险。为了解决这些问题,我们提出了一种框架,利用差异隐私合成数据来审计AI系统的公正性。通过应用隐私保护机制,该方法生成的合成数据在统计特性上与原始数据集相似,同时保证隐私。该方法平衡了严格的公正性审计目标和强大隐私保护的需求。通过对Adult、COMPAS和糖尿病等真实数据集进行实验,我们比较了合成数据和真实数据的公正性指标。通过分析这些指标之间的契合度和差异性,我们评估了合成数据保护真实数据公平性属性的能力。我们的结果证明了该框架能够实现有意义的公平性评估,同时保护敏感信息,证明了其在关键和敏感领域的适用性。
发布时间: 5/1/2025
查看原文
arXiv:2504.21605v1 交叉类型:cross 摘要:大型语言模型(LLMs)越来越多地作为知识接口使用,但在存在冲突信息的情况下系统地评估其可靠性仍然具有挑战性。我们提出了一种基于RDF的框架,以评估多语言LLM的质量,重点关注知识冲突。我们的方法在德语和英语中捕捉模型在四种不同的上下文条件下(完整信息、不完整信息、冲突信息和无上下文信息)的响应。这种结构化的表示方式使我们能够全面分析知识泄露——即模型优先选择训练数据而不是提供的上下文的错误检测,以及多语言一致性。我们通过一个消防安全领域实验展示了该框架,揭示了上下文优先级和语言特定性能的关键模式,并证明了我们使用的词汇表足以表达在28个问题研究中遇到的所有评估方面。
发布时间: 5/1/2025
查看原文
作者: Huihui Guo, Huilong Pi, Yunchuan Qin, Zhuo Tang, Kenli Li
arXiv:2504.21596v1 通知类型: 交叉 摘要:随着人工智能的迅猛发展,人们对能够协助人类日常任务并执行复杂操作的智能化机器人需求日益增长。这类机器人不仅需要具备任务规划能力,还必须在执行任务时具有稳定性和鲁棒性。本文我们提出了一种闭环任务规划与执行系统LLM-PAS,该系统由预训练的大规模语言模型(LLM)辅助。虽然LLM-PAS在任务和运动规划方面采用了类似传统规划器的方法进行长期任务规划,但它也特别强调任务执行阶段。通过将部分约束检查过程从规划阶段转移到执行阶段,LLM-PAS允许在执行过程中探索约束空间,并在执行过程中提供更准确的环境异常反馈。大规模语言模型的推理能力使其能够处理稳健执行器无法解决的异常情况。为进一步增强系统在重新规划期间协助规划器的能力,我们提出了First Look Prompting(FLP)方法,该方法诱导LLM生成有效的PDDL目标。通过对比提示实验和系统实验,我们展示了LLM-PAS在执行任务过程中处理异常情况的有效性和鲁棒性。
发布时间: 5/1/2025
查看原文
arXiv:2504.21589v1 宣告类型: cross 摘要:本文介绍了我们为SemEval-2025任务5:LLMs4Subjects开发的系统:基于LLM的自动化主题标签化系统,适用于国家技术图书馆的开放访问目录。我们的系统依赖于用不同程度地标注的记录示例来提示一组LLM,并要求这些LLM为新的记录建议类似的关键词。这种少量示例的提示技术与一系列后续处理步骤相结合,这些步骤将生成的关键词映射到目标词汇表,将获得的主题术语聚合到一个综合投票中,并最终根据其与记录的相关性对其进行排序。我们的系统在所有主题赛道的定量排名中位列第四,但在由主题索引专家进行的定性排名中获得了最佳结果。
发布时间: 5/1/2025
查看原文
作者: Robin Ferede, Till Blaha, Erin Lucassen, Christophe De Wagter, Guido C. H. E. de Croon
arXiv:2504.21586v1 交叉类型公告 摘要:在高速四旋翼飞行器竞速中,找到一个能在不同平台上通用的控制器依然是一个挑战。本文提出了第一个能在物理上不同的四旋翼飞行器之间泛化的神经网络控制器。我们展示了通过领域随机化训练的单一网络能够稳健地控制不同类型的四旋翼飞行器。该网络仅依赖当前状态直接计算电机命令。通过在两种显著不同的飞行器(3英寸和5英寸竞赛四旋翼飞行器)上进行的实际测试,验证了这一通用控制器的有效性。我们还对比了这个通用控制器与专门针对3英寸和5英寸无人机训练的控制器的表现,使用它们的识别模型参数,并在不同的领域随机化程度(0%,10%,20%,30%)下进行测试。虽然通用控制器的速度略低于微调后的模型,但它在不同平台上的适应性更出色。我们的结果显示,没有任何随机化失败了从仿真到现实的转换,而增加随机化提高了稳健性但降低了速度。尽管存在这种权衡,我们的研究结果突显了领域随机化在控制器泛化方面的潜力,为适应任何平台的通用AI控制器铺平了道路。
发布时间: 5/1/2025
查看原文
作者: Yingzhuo Jiang, Wenjun Huang, Rongdun Lin, Chenyang Miao, Tianfu Sun, Yunduan Cui
arXiv:2504.21585v1 Announce Type: 横向 摘要:本文解决使用模型增强型强化学习学习多目标灵巧手操作任务的挑战。我们提出了目标条件化概率模型预测控制(GC-PMPC),通过设计概率神经网络组件来描述高维灵巧手动力学,并引入异步模型预测控制策略以满足现实世界灵巧手系统所需的控制频率要求。在四种使用随机生成目标的Shadow Hand操作场景中进行广泛评估,表明GC-PMPC在与最先进的基线相比时表现出色。它成功地驱动了具有12个主动自由度和5个触觉传感器的缆索驱动灵巧手DexHand 021,在大约80分钟的互动时间内学会将立方体骰子操作到三个目标姿态,展示了在低成本灵巧手平台上卓越的学习效率和控制性能。
发布时间: 5/1/2025
查看原文
作者: Qirui Mi, Mengyue Yang, Xiangning Yu, Zhiyu Zhao, Cheng Deng, Bo An, Haifeng Zhang, Xu Chen, Jun Wang
arXiv:2504.21582v1 类型: cross 摘要:集体决策模拟不仅涉及单个行为的聚合,还源自个体之间的动态交互。虽然大型语言模型(LLMs)在社会模拟中展现出潜力,但现有方法往往与真实世界数据存在偏差。为解决这一问题,我们提出了一种平均场大型语言模型(MF-LLM)框架,该框架明确地建模了微观层面决策与宏观层面群体之间的反馈循环。MF-LLM 交替使用两种模型:一种策略模型,根据个人状态和群体层面的信息生成个体行为;一种平均场模型,根据最新的个体决策更新人群分布。这两种模型共同产生模拟集体决策演化轨迹的滚动模拟。为更好地匹配真实世界数据,我们引入了一种基于信息瓶颈原则的 LLM 微调方法——IB-Tune,该方法在最大化人群分布与未来行为的相关性的同时,最小化与历史数据的冗余性。我们在一个真实世界的社交数据集上评估了 MF-LLM,结果显示,与非平均场基线相比,它将 KL 散度降低 47%,并能够实现准确的趋势预测和干预规划。该框架在七个领域和四种 LLM 的基础上进行了泛化,为高保真社会模拟提供了一个可扩展的基础。
发布时间: 5/1/2025
查看原文
作者: David Fern\'andez Narro, Pablo Ferri, Juan M. Garc\'ia-G\'omez, Carlos S\'aez
arXiv:2504.21565v1 类型: cross 摘要:部署在生产环境中的人工智能(AI)模型经常面临在非稳态环境下保持其性能的挑战。这一问题在医疗场景中尤为突出,因为时间序列数据集的变化现象普遍存在。这些变化发生在训练数据的分布与部署过程中随时间遇到的数据分布不同之时。此外,由于数据访问限制,实时获取新的标注数据以连续重新训练AI通常是不可行的。为了解决这些挑战,我们提出了一种主动自适应AI方法,即pro-adaptive方法,我们通过建模AI参数的时间轨迹,允许我们短期预测参数值。为此,我们使用多项式样条基,在可扩展的功能数据分析框架内进行。我们使用逻辑回归模型对先验概率、协变量和概念变化进行验证。这一验证是在2020年至2024年间发生各种变化的受控模拟数据集和来自墨西哥的公开可用的COVID-19真实世界数据集上进行的。结果表明,与不同时间距离从现在训练的基线稳定模型相比,这种方法在对抗变化时提高了AI的性能,无需更新训练数据。这项工作为面对动态非稳态环境下的主动自适应AI研究奠定了基础,同时也与健康领域的弹性和数据保护兼容。
发布时间: 5/1/2025
查看原文
作者: Henry John Krumb, Anirban Mukhopadhyay
arXiv:2504.21562v1 宣告类型: 交叉 摘要:无线胶囊内镜是一种非侵入性的成像方法,可以对整个消化道进行检查,并且是传统内镜的一种无痛替代方法。它会产生大量视频数据,需要大量审查时间,吞服胶囊后的定位是一个挑战。出血检测和深度估计等技术有助于病灶定位,但深度学习模型通常太大,无法直接在胶囊上运行。对出血分割和深度估计进行训练的神经细胞自动机(NCA)是在胶囊内镜图像上训练的。对于单目深度估计,我们通过将基础模型的输出视为伪ground truth,将大型基础模型精简为精瘦的NCA架构。然后,我们将训练好的NCA移植到ESP32微控制器上,使硬件如胶囊相机的图像处理变得高效。NCA比其他便携式分割模型更准确(Dice),同时所需的内存参数少于其他小型模型的100倍以上。NCA深度估计的视觉结果看起来令人信服,在某些情况下甚至比伪ground truth更真实、详细。在ESP32-S3上的运行时优化显著加速了平均推理速度,超过3倍。通过多种算法调整和精简,有可能将NCA模型封装进适合无线胶囊内镜的微控制器中。这是首次能够在微型设备上实现可靠的出血分割和深度估计的工作,为结合视觉里程计进行胶囊精确定位铺平了道路。
发布时间: 5/1/2025
查看原文