arXiv 论文列表

LawGPT：知识引导的数据生成及其在法律LLM中的应用

作者: Zhi Zhou, Kun-Yang Yu, Shi-Yu Tian, Xiao-Wen Yang, Jiang-Xin Shi, Pengxiao Song, Yi-Xuan Jin, Lan-Zhe Guo, Yu-Feng Li

arXiv:2502.06572v2 宣告类型: 替换-交叉摘要：大型语言模型（LLMs），无论是专有的还是开源的，在各种自然语言处理任务中都展示出了卓越的能力。然而，它们在法律推理任务中面临显著的局限性。专有模型引入了数据隐私风险和高昂的推理成本，而开源模型则由于缺乏足够的法律领域训练数据而表现不佳。为了解决这些问题，我们研究了法律推理的数据生成方法，以借助专有模型来提高开源LLMs的法律推理性能。由于专有模型缺乏法律知识且生成的数据难以验证，这对数据生成提出了挑战。我们提出了一种名为KgDG的知识导向型数据生成框架，用于法律推理。我们的框架能够利用法律知识来增强生成的多样性，并引入了一种润色和验证过程，以确保生成数据的质量。此外，我们将生成的数据集扩展，进一步增强LLM的推理能力。使用KgDG，我们创建了一个包含50,000个高质量示例的合成法律推理数据集。我们训练的模型LawGPT在法律特定LLM中表现出色，并且其性能与专有LLM相当，这证明了KgDG和LawGPT的有效性。我们的代码和资源已在https://github.com/LAMDASZ-ML/Knowledge-Guide-Data-Generation 公开。

发布时间: 2/14/2025

查看原文

MATH-扰动：评估大模型的数学推理能力对抗强扰动

作者: Kaixuan Huang, Jiacheng Guo, Zihao Li, Xiang Ji, Jiawei Ge, Wenzhe Li, Yingqing Guo, Tianle Cai, Hui Yuan, Runzhe Wang, Yue Wu, Ming Yin, Shange Tang, Yangsibo Huang, Chi Jin, Xinyun Chen, Chiyuan Zhang, Mengdi Wang

arXiv:2502.06453v2 更新类型: replace-cross 摘要：大型语言模型在具有挑战性的数学推理任务上展现了令人印象深刻的性能，这引发了关于性能是通过真正的推理能力还是通过记忆实现的讨论。为了探讨这一问题，先前的工作通过简单扰动构建了数学基准，即在问题中进行修改（仍保持解题模式不变）。然而，尚未有人研究根本扰动，这种修改会从根本上改变问题的性质，使得原来的解题步骤不再适用。为了弥补这个差距，我们分别通过简单扰动和根本扰动构造了MATH-P-Simple和MATH-P-Hard。每个数据集均包含279个从MATH数据集（Hendrycksmath等人，2021）中尚未解决的最难级别（最高难度级别）问题中派生出的扰动数学问题。我们在各种模型上观察到了MATH-P-Hard上的显著性能下降，包括o1-mini（-16.49%）和gemini-2.0-flash-thinking（-12.9%）。我们也提出了一个关于新形式的记忆化问题，即模型盲目应用学到的问题解决技能，而未评估它们在修改后的上下文中的适用性。这个问题在使用原始问题进行上下文学习时被放大。我们呼吁研究努力解决这一挑战，这对于开发更稳健和可靠的推理模型至关重要。

发布时间: 2/14/2025

查看原文

多模态医疗代码分词器

作者: Xiaorui Su, Shvat Messica, Yepeng Huang, Ruth Johnson, Lukas Fesser, Shanghua Gao, Faryad Sahneh, Marinka Zitnik

arXiv:2502.04397v2 宣布类型: replace-cross 摘要：在患者电子健康记录（EHR）上训练的基础模型需要将医疗数据 tokenize 成离散词汇项的序列。现有的 tokenizers 将 EHR 中的医疗代码视为孤立的文本 token。然而，每个医疗代码是由其文本描述、在本体层次结构中的位置，以及与其他代码的关系（如疾病共现和药物-治疗关联）所定义的。医疗词汇表包含超过 60 万个代码，这些代码中的关键信息对于临床推理至关重要。我们引入了 MedTok，这是一种多模态的医疗代码 tokenizer，它利用了代码的文本描述和关系上下文。MedTok 使用语言模型编码器处理文本，并使用图编码器编码关系结构。然后，它将两种模态量化到一个统一的 token 空间中，保留模态特定信息和跨模态信息。我们将 MedTok 集成到五个 EHR 模型中，并在入院和门诊数据集上对它进行了评估，包括结果预测、诊断分类、药物推荐和风险分层等临床任务。用 MedTok 替换标准的 EHR tokenizer 后，所有 EHR 模型的 AUPRC 都有所提升，在 MIMIC-III 上提高了 4.10%，在 MIMIC-IV 上提高了 4.78%，在 EHRShot 上提高了 11.30%，药物推荐方面的改善最为显著。除此之外，我们还展示了用 MedTok tokenizer 与医疗问答系统结合的使用情况。我们的结果显示，MedTok 作为统一的医疗代码 tokenizer 具有潜力，能够改进医疗基础模型的 tokenization。

发布时间: 2/14/2025

查看原文

VTutor: 一个基于生成AI的动画教学代理开源SDK，支持多媒结果输出

作者: Eason Chen, Chenyu Lin, Xinyi Tang, Aprille Xi, Canwen Wang, Jionghao Lin, Kenneth R Koedinger

arXiv:2502.04103v2 宣布类型: replace-cross 摘要：大型语言模型（LLMs）的快速进化已改变了人机交互（HCI），但与LLMs的交互目前主要集中在基于文本的交互上，而其他多模态方法仍然未被充分探索。本文介绍了VTutor，这是一个开源软件开发工具包（SDK），将生成式AI与高级动画技术相结合，以创建具有吸引力、适应性强且逼真的多模态人机交互代理（APAs）。VTutor利用LLMs进行实时个性化反馈，采用高级唇同步技术实现自然语音对齐，并通过WebGL渲染实现无缝网页集成。VTutor支持各种2D和3D角色模型，使研究人员和开发者能够设计出具有情感共鸣、上下文适应性的学习代理。该工具包增强了学习者的参与度、反馈接受度，并促进了教育中值得信赖的人工智能原则。VTutor为下一代APAs设定了新标准，提供了一种可访问、可扩展的解决方案，以培养有意义且沉浸式的人机交互体验。VTutor项目已开源，并欢迎社区驱动的贡献和展示。

发布时间: 2/14/2025

查看原文

MultiFloodSynth：多标注洪涝合成数据集生成

作者: YoonJe Kang, Yonghoon Jung, Wonseop Shin, Bumsoo Kim, Sanghyun Seo

arXiv:2502.03966v3 宣告类型: replace-cross 摘要：在本文中，我们提出了一种用于洪水灾害检测系统的合成数据生成框架。为了实现高保真度和高质量，我们将多个现实世界特性融入虚拟世界，并通过控制这些特性来模拟洪水情况。为了提高效率，我们利用了近期在图像到3D和城市合成方面的生成模型，以便轻松地组合洪水环境，从而避免因手工制作方式导致的数据偏差。基于我们的框架，我们构建了一个包含5个等级且名为 MultiFloodSynth 的洪水合成数据集，其中包含各种下游任务所需的丰富注释类型，如法线图、分割标签和3D边界框。在实验中，我们的数据集在与真实数据集相当的真实感下，展示了洪水灾害检测性能的提升。

发布时间: 2/14/2025

查看原文

大型语言模型在多机器人系统中的应用：一项综述

作者: Peihan Li, Zijian An, Shams Abrar, Lifeng Zhou

arXiv:2502.03814v3 公告类型: replace-cross 摘要：大型语言模型（LLMs）的快速发展为多机器人系统（MRS）带来了新的可能性，使其在通信、任务规划和人机交互方面得到了增强。与传统的单机器人和多agent系统不同，MRS提出了独特的挑战，包括协调、扩展性和实际环境适应性。本文综述提供了LLMs首次全面融入MRS的探索。系统地将它们的应用分为高层任务分配、中层运动规划、低层动作生成和人类干预。我们强调了在从家用机器人、建筑、队形控制、目标跟踪到机器人游戏等不同领域的关键应用，展示了LLMs在MRS中的多样性和变革潜力。此外，我们还探讨了限制适应LLMs在MRS中的挑战，包括数学推理限制、幻觉、延迟问题以及需要强大的基准测试系统。最后，我们概述了未来研究的机会，强调了精细调整、推理技术和任务特定模型的进步。本文旨在指导研究人员利用LLMs推动MRS的智能化和实际部署。鉴于该领域研究的快速演变，我们将在开源的GitHub仓库中不断更新这些论文。

发布时间: 2/14/2025

查看原文

鲁棒的联邦微调 Large Language Models 通过 LoRA 的交替优化

作者: Shuangyi Chen, Yuanxin Guo, Yue Ju, Harik Dalal, Ashish Khisti

arXiv:2502.01755v2 宣告类型: 替换交叉摘要：参数高效微调（PEFT）方法如低秩适应（LoRA）通过减少计算和通信成本来优化联邦训练。我们提出了RoLoRA，这是一种使用交替优化的联邦框架，用于微调LoRA适配器。我们的方法强调了学习上投影和下投影矩阵的重要性，以增强表达能力和可靠性。我们使用理论分析和大量的实验证明RoLoRA相比之前的方法的优势，之前的方法要么生成不完美的模型更新，要么限制模型的表达能力。我们通过简化线性模型的理论分析，证明了在LoRA中学习下投影矩阵和上投影矩阵的重要性。我们还在MNIST上的小神经网络以及RoBERTa-Large、Llama-2-7B等大型语言模型上进行了广泛的实验，以多样化任务的形式，证明了RoLoRA相对于其他方法的优势。

发布时间: 2/14/2025

查看原文

自我提升的变压器克服了从易到难和长度泛化挑战

作者: Nayoung Lee, Ziyang Cai, Avi Schwarzschild, Kangwook Lee, Dimitris Papailiopoulos

arXiv:2502.01612v2 宣布类型: replace-cross 摘要：大型语言模型在长度泛化和解决超出其训练分布的复杂问题实例方面经常遇到困难。我们提出了一种自我改进的方法，其中模型通过迭代生成和学习它们自己的解决方案，逐步解决更难的问题，同时保持标准的transformer架构。在包括算术、字符串操作和迷宫求解等多种任务中，自我改进使模型能够解决远超出其初始训练分布的问题——例如，从小到10位数的加法推广到100位数的加法，而没有明显的饱和现象。我们发现，在某些情况下，筛选出正确的自我生成示例，可以导致训练轮次中出-of-distribution性能的指数级提升。此外，从预训练模型开始显著加快了这种方法在某些任务中的自我改进过程。我们的结果展示了如何通过受控的从弱到强的教学序列，系统地教会模型逻辑外推，而无需对位置嵌入或模型架构进行任何更改。

发布时间: 2/14/2025

查看原文

内部概率与自我一致性桥接以实现有效的高效大型语言模型推理

作者: Zhi Zhou, Tan Yuhao, Zenan Li, Yuan Yao, Lan-Zhe Guo, Xiaoxing Ma, Yu-Feng Li

arXiv:2502.00511v2 类型: 替换交叉摘要：大型语言模型（LLMs）的最近进展展现了卓越的推理能力。然而，单次推理对于复杂的推理任务往往会导致不可靠的结果，这促使研究人员通过困惑度和自一致性等方法探索多种推理路径。在本文中，我们首次提供了对这些技术的理论误差分解分析，将它们的误差分解为估计误差和模型误差。我们的分析揭示了一个基本的权衡：困惑度方法由于缺乏适当的 consistency 函数而导致显著的模型误差，而自一致性由于收敛误差的缓慢速度而导致较高的估计误差。为了克服这些限制，我们提出了推理修剪困惑度一致性（RPC）这种方法。这种方法结合了困惑度一致性，无缝地将LLM的困惑度与自一致性集成在一起，并且通过消除低概率的推理路径有效地防止估计误差减少的退化。理论分析表明，RPC 不仅将估计误差的收敛率加速到指数级别，还具有进一步减少模型误差的强潜力。在七个基准数据集上的广泛实验评估证实，RPC 显著提高了推理性能、采样效率和置信可靠性。

发布时间: 2/14/2025

查看原文

利用大型语言模型提升机器学习可解释性和预测性能：一项针对精神健康患者急诊返回的案例研究

作者: Abdulaziz Ahmed, Mohammad Saleem, Mohammed Alzeen, Badari Birur, Rachel E Fargason, Bradley G Burk, Hannah Rose Harkins, Ahmed Alhassan, Mohammed Ali Al-Garadi

arXiv:2502.00025v2 通告类型: replace-cross 摘要: 目的: 评估将大规模语言模型（LLMs）与传统机器学习方法结合使用是否能够同时提高精神卫生就诊风险模型的预测准确性和临床解释性。方法: 本回顾性队列研究分析了美国南部一所学术医疗中心在2018年1月至2022年12月期间27,904名独特精神卫生患者的42,464次急诊就诊记录。主要结果和指标: 评估了两个主要结果:(1)30天内急诊就诊预测的准确性，(2) 通过一种新颖的检索增强生成（RAG）框架来评估模型的解释性，该框架将SHAP（SHapley Additive exPlanations）值与上下文临床知识结合使用。结果: 所提出的支持LLM的机器学习解释性框架实现了99%的准确率，将复杂的模型预测转化为临床相关的解释。将LLM提取的特征集成到预测性能中，改进了XGBoost模型的曲线下面积（AUC）从0.73提高到0.76。基于LLM的10-shot学习特征提取方法在主要症状分类方面显著优于传统方法，准确率为0.882，F1分数为0.86（传统方法的准确率范围为0.59到0.63），并在多种社会经济地位（SDoH）类别中表现出准确率范围从0.65到0.93，突显了其在提取临床记录特征方面的稳健性能。结论与意义: 将LLMs与传统机器学习模型集成使用，在急诊就诊预测准确性上取得了适度但一致的改进，同时通过自动化的临床相关解释显著增强了模型解释性。这一方法提供了一种将复杂的预测分析转换为可操作的临床洞察的框架。

发布时间: 2/14/2025

查看原文