LLM2D

arXiv 论文列表

arXiv:2504.16042v1 宣布类型: 新 摘要: 在本文中,我们通过最小修改治理系统的矩阵来解决最大-最小模糊关系方程系统的不一致性,以实现系统的一致性。我们的方法产生了如下一致系统的矩阵:这些一致系统的右侧向量与不一致系统的右侧向量相同,而每个一致系统中矩阵的系数是通过精确且最小地修改必须更正以实现一致性的原矩阵的条目来获得的,而其他条目保持不变。 为了获得一个与考虑的不一致系统紧密逼近的一致系统,我们研究了不一致系统矩阵与使用与不一致系统相同的右侧向量的一致系统矩阵集之间的距离(以L1、L2或L∞范数为标准)。我们展示了我们的方法允许我们直接计算出使用与不一致系统相同的右侧向量的一致系统矩阵,这些矩阵与不一致系统的矩阵在L∞范数方面的距离最小(当使用L1范数或L2范数时,计算成本更高)。我们还给出了计算此最小L∞距离的明确解析公式。最后,我们将我们的结果应用于最小-最大模糊关系方程系统,并提出了一些潜在的应用。
发布时间: 4/23/2025
查看原文
作者: Nikhil Khandalkar, Pavan Yadav, Krishna Shinde, Lokesh B. Ramegowda, Rajarshi Das
arXiv:2504.15903v1 宣布类型: 新 摘要: 近期大型语言模型(LLMs)的进步引发了对其结构推理能力的兴趣,尤其是在涉及抽象和模式识别的任务中。抽象和推理语料库(ARC)基准在评估这些能力方面发挥着关键作用,通过测试AI模型在处理新颖问题时的泛化能力。虽然GPT-4o在零噪声条件下表现出色,成功解决了所有ARC任务,但其他模型如DeepSeek R1和LLaMA 3.2却未能解决任何问题,这表明它们在超越简单模式匹配进行推理方面的局限性。为探索这一差距,我们在不同的噪声水平和温度设置下系统地评估了这些模型。我们的结果表明,无论模型架构如何,引入噪声都会一致性地损害模型性能。这种下降强调了一个共同的脆弱点:尽管当前的LLM显示出抽象推理的迹象,但它们对输入扰动仍然非常敏感。这种脆弱性引起了人们对它们在实际应用中的适用性的担忧,因为在实际应用中噪声和不确定性是很常见的。通过比较不同模型架构在这些挑战下的响应,我们提供了有关现代LLM推理任务中结构弱点的见解。这项工作强调了开发更具鲁棒性和适应性的AI系统的需求,这些系统能够处理现实世界场景中固有的模糊性和变异性。我们的发现旨在引导未来的研究朝着提高模型泛化能力、鲁棒性和与人类认知灵活性对齐的方向发展。
发布时间: 4/23/2025
查看原文
作者: Xiang Liu, Hau Chan, Minming Li, Xianlong Zeng, Chenchen Fu, Weiwei Wu
arXiv:2504.15847v1 宣布类型: 新 摘要: 联邦学习(FL)是一种有前途的方法,允许请求者(例如,服务器)从工人(例如,客户端)处获得本地训练模型。由于工人通常不愿意无偿提供训练服务/模型,因此在FL中设计了许多激励机制,通过提供请求者的货币奖励来激励参与。然而,现有研究忽视了现实世界FL场景中的两个关键方面。首先,工人可能具有固有的不兼容特性(例如,通信通道和数据源),这可能导致FL效率下降(例如,通信效率低下和较差的模型泛化能力)。其次,请求者有预算限制,这限制了他们可以聘请从事任务的工人类别。在本文中,我们研究了多个有预算限制的请求者寻求来自私人训练成本不兼容工人的训练服务的FL场景。我们考虑了两种设置:协作预算设置,在该设置下,请求者合作汇集他们的预算以提高整体效用,以及非协作预算设置,在该设置下,每个请求者在其预算范围内最大化自己的效用。为了应对由于工人不兼容性引起的效率下降,我们为此两种设置开发了新的兼容性感知激励机制,CARE-CO和CARE-NO,以获取真实的私人成本,确定为请求者和他们选择的工人及其奖励,并满足请求者的预算约束。我们的机制保证个别理性、真实性、预算可行性以及近似性能。我们使用真实数据集进行了广泛实验,结果表明,所提出的机制相比现有基线显著表现出色。
发布时间: 4/23/2025
查看原文
作者: Modhurita Mitra, Martine G. de Vos, Nicola Cortinovis, Dawa Ometto
arXiv:2504.15829v1 通知类型: 新 摘要:自2022年推出ChatGPT以来,生成式AI引起了巨大的兴趣。然而,人们担心生成式AI的输出在准确性和一致性方面存在隐患。我们对这项新技术在研究数据处理中的应用进行了探索性研究。我们识别出了一些传统基于规则或机器学习方法难以应用于的任务,然后使用生成式AI执行这些任务。 我们展示了在三个涉及复杂数据处理任务的科研项目中使用生成式AI模型Claude 3 Opus的可能性: 1) 信息提取:从植物园发布的种子清单(种子目录)中提取植物物种名称。 2) 自然语言理解:从欧盟卫生技术评估组织发布的文档中提取特定数据点(药品名称、健康指示名称、相对有效性、成本效益等)。 3) 文本分类:为众筹网站Kickstarter上的项目分配行业代码。 我们分享了从这些用例中学到的经验教训:如何判断生成式AI是否是给定数据处理任务的合适工具,以及如果是的话,如何最大程度地提高结果的准确性和一致性。
发布时间: 4/23/2025
查看原文
作者: Raquel Fernandez-Peralta, Javier Fumanal-Idocin, Javier Andreu-Perez
arXiv:2504.15791v1 宣告类型: 新 摘要: 规则驱动系统是解释性人工智能的一种非常受欢迎的形式,特别是在模糊社区,模糊规则广泛用于控制和分类问题。然而,模糊规则驱动分类器在模糊社区之外难以获得更大的影响力,因为有时用户并不了解模糊概念,或者在某些情况下难以解释模糊划分。在本文中,我们提出了一种将模糊规则驱动分类器转换为清晰规则驱动分类器的方法。我们研究了不同的清晰描述方式,并实现了一个算法来获得它们。此外,我们分析了所得到的清晰分类器的复杂性。我们相信,我们的结果可以帮助模糊和非模糊实践者更好地理解模糊规则基础如何划分特征空间,以及一个系统如何容易地转换为另一个系统及其逆过程。我们的复杂性度量也可以帮助根据等效清晰划分的外观来选择不同的模糊分类器。
发布时间: 4/23/2025
查看原文
作者: Siyu Zhou, Tianyi Zhou, Yijun Yang, Guodong Long, Deheng Ye, Jing Jiang, Chengqi Zhang
arXiv:2504.15785v1 世界模型类型:新 摘要:我们能否利用大规模语言模型(LLMs)构建准确的世界模型?世界模型如何为LLM代理提供益处?LLMs之前的知识与指定环境的动力学之间的差距通常会瓶颈LLMs作为世界模型的性能。为了弥合这一差距,我们提出了一种无需训练的“世界对齐”方法,该方法学习LLMs所不具备的环境的符号知识。符号知识涵盖了行为规则、知识图和场景图,这些知识是从探索轨迹中通过LLMs提取出来的,并被编码成可执行代码以调节LLM代理的策略。进一步地,我们通过模型预测控制(MPC)框架提出了一个无需强化学习的基于模型的代理“WALL-E 2.0”。与需要即时进行昂贵优化的经典MPC不同,我们采用一个LLM代理作为高效的前瞻优化器,通过与神经符号世界模型交互来预测未来步骤的动作。虽然LLM代理的强启发式方法使它在MPC中成为一个高效的规划者,但其计划动作的质量也由对齐的世界模型的准确预测所保证。它们共同显著提高了新环境中的学习效率。在火星(类似于Minecraft)和ALFWorld(具身室内环境)的开放世界挑战中,WALL-E 2.0显著优于现有方法,例如在火星上的成功率提高了16.1%至51.6%,并在得分上提高了至少61.7%。在ALFWorld中,它在仅仅4次迭代后实现了98%的成功率,创造了新的记录。
发布时间: 4/23/2025
查看原文
作者: Daocheng Fu, Zijun Chen, Renqiu Xia, Qi Liu, Yuan Feng, Hongbin Zhou, Renrui Zhang, Shiyang Feng, Peng Gao, Junchi Yan, Botian Shi, Bo Zhang, Yu Qiao
arXiv:2504.15780v1 宣告类型: 新 摘要: 数学几何问题求解(GPS)通常需要有效地整合多模态信息和验证性的逻辑一致性。尽管大型语言模型在通用问题求解方面取得了快速进展,但在方法和基准方面的问题仍未得到解决,特别是鉴于现有的合成GPS基准往往缺乏自我验证,且由于大型语言模型的幻觉现象,包含噪声和自相矛盾的信息。在本文中,我们提出了一种可扩展的数据引擎TrustGeoGen用于问题生成,并通过形式验证提供了一个符合原则的基准,我们相信这为GPS方法的进一步发展奠定了基础。该引擎通过四项关键创新合成了几何数据:1)多模态对齐的图示、文本描述和步骤解决方案生成;2)形式验证确保符合规则的推理路径;3)一种自举机制,通过递归状态生成实现复杂性升级;4)我们设计的GeoExplore系列算法同时产生多种解决方案变体和自我反思回溯轨迹。通过形式逻辑验证,TrustGeoGen产生了一个包含保证模态完整性的GeoTrust-200K数据集,以及GeoTrust-test测试集。实验结果显示,最先进的模型在GeoTrust-test上的准确率仅为49.17%,这表明其评价标准的严格性。至关重要的是,使用GeoTrust训练的模型在GeoQA上的OOD泛化显著减少了与OpenAI-o1伪标签标注相比的逻辑不一致性。我们的代码可在 https://github.com/Alpha-Innovator/TrustGeoGen 获取。
发布时间: 4/23/2025
查看原文
作者: Anna Karnysheva, Christian Drescher, Dietrich Klakow
arXiv:2504.15719v1 宣告类型: 新 摘要:随着大语言模型(LLMs)在智能用户界面(IUIs)中的作用变得不可或缺,它们作为决策代理的角色引发了关于对齐的关键关注。虽然已有大量的研究解决了事实性、偏见和有害内容等方面的问题,但在度量与偏好对齐方面,即不同的选项之间的相对吸引力,研究相对较少,这是一个在决策制定、经济学和社会选择理论中常用的概念。然而,可靠的决策代理能够做出与用户偏好高度一致的选择。 在本文中,我们通过将LLMs用于按选项结果进行排名的方法进行泛化,来应对与更广泛和更具弹性的用户偏好概念的一致性问题,包括对选项的选择偏好和无差异。为此,我们提出了使用LLMs实现理性选择函数的设计原则,并提供了衡量偏好满足度所需的工具。我们通过在汽车领域的一种IUI的实际应用场景中的实证研究,展示了我们方法的应用性。
发布时间: 4/23/2025
查看原文
作者: Jie Zhu, Qian Chen, Huaixia Dou, Junhui Li, Lifan Guo, Feng Chen, Chi Zhang
arXiv:2504.15716v1 Announce Type: new 摘要:有效的推理仍然是大型语言模型(LLMs)在金融领域面临的核心挑战,因为任务往往需要特定领域的知识、精确的数值计算以及严格的合规性规则遵守。我们提出了DianJin-R1,这是一种通过推理增强监督和强化学习来应对这些挑战的推理增强框架。我们方法的核心是DianJin-R1-Data,这是一个高质量的数据集,由CFLUE、FinQA和一个专有的合规性语料库(中国合规检查,CCC)构建而成,结合了多样的金融推理场景和经过验证的注释。我们的模型DianJin-R1-7B和DianJin-R1-32B是从Qwen2.5-7B-Instruct和Qwen2.5-32B-Instruct微调而来的,并采用结构化格式生成推理步骤和最终答案。为了进一步提高推理质量,我们应用了Group Relative Policy Optimization(GRPO),这是一种强化学习方法,结合了双奖励信号:一个鼓励结构化的输出,另一个奖励答案的正确性。我们分别在五个基准上评估了我们的模型:三个金融数据集(CFLUE、FinQA和CCC)和两个通用推理基准(MATH-500和GPQA-Diamond)。实验结果表明,DianJin-R1模型在复杂金融任务上始终优于其非推理版本。此外,在实际的CCC数据集上,我们的单次调用推理模型的表现与甚至超过了需要显著更高计算成本的多智能体系统。这些发现表明,DianJin-R1通过结构化监督和奖励对齐学习有效地增强了金融推理,提供了一个可扩展且实用的解决方案,适用于实际应用。
发布时间: 4/23/2025
查看原文
作者: Ning Wang, Zihan Yan, Weiyang Li, Chuan Ma, He Chen, Tao Xiang
arXiv:2504.15699v1 宣传类型: 新 摘要: 体现式代理在众多领域展现出巨大的潜力,确保其行为安全性是实现其广泛应用的基本前提。然而,现有研究主要集中在通用大型语言模型的安全性上,缺乏专门针对体现式代理的安全基准和输入调节方法。为解决这一问题,本文介绍了一种新颖的输入调节框架,精心设计以保护体现式代理的安全性。该框架涵盖了整个流程,包括分类学定义、数据集编制、调节器架构、模型训练以及严格的评估。值得一提的是,我们引入了EAsafetyBench,这是一种精心设计的安全基准,旨在促进专门针对体现式代理的调节器的训练和严格评估。此外,我们提出了Pinpoint,一种创新的提示脱钩式输入调节方案,利用掩码注意力机制有效地隔离和减轻功能提示对调节任务的影响。在多种基准数据集和模型上进行的广泛实验验证了所提出的方案的可行性和有效性。结果表明,我们的方法在平均检测准确率上达到了令人印象深刻的94.58%,超过了现有最先进的技术的性能,同时具备出色的调节处理时间,每实例仅为0.002秒。
发布时间: 4/23/2025
查看原文