arXiv 论文列表

作者: Zhihan Zhang, Yixin Cao, Lizi Liao

arXiv:2504.02906v1 类型:跨领域摘要:从图表生成代码的过程，即将图表图像转换为可执行绘图脚本，提供了一种图表信息的无损表示，要求模型准确捕获和总结所有视觉和结构元素。然而，这仍然是多模态大型语言模型（MLLMs）的一个重大挑战，它们本身并不天然地与代码生成任务对齐。为了解决这一问题，我们引入了Chart2Code，这是一种新颖的迭代双重偏好学习框架，通过结构化的代码变体生成和精细的双重奖励信号来增强MLLMs的图表到代码生成能力。我们在三个MLLMs上验证了Chart2Code，并发现迭代偏好学习一致地提高了图表到代码生成的质量。在整个过程中，我们的双重评分方法，同时评估文本代码结构及其视觉表示，即使在偏好数据集规模减小的情况下，也带来了更大的性能改进。进一步的分析探讨了我们框架的关键组件，并强调了图表到代码生成与更广泛的图表推理之间的相互作用，这为未来的图表理解进步铺平了道路。

发布时间: 4/7/2025

查看原文

训练后重塑的大规模语言模型：知识、真实性、拒绝和信心的机制性视角

作者: Hongzhe Du, Weikai Li, Min Cai, Karim Saraipour, Zimin Zhang, Himabindu Lakkaraju, Yizhou Sun, Shichang Zhang

arXiv:2504.02904v1 声明类型: cross 摘要：后训练对于大型语言模型（LLMs）的成功至关重要，它将预训练的基础模型转变为更加有用和对齐的后训练模型。虽然已有许多研究探讨了后训练算法并根据输出评估了后训练模型，但对于后训练如何内部重塑LLMs的研究仍然不足。在本文中，我们从四个角度以机理解析方式对比基础模型和后训练模型，以便更好地理解后训练效果。我们跨模型家族和数据集的研究发现：(1) 后训练不会改变事实知识存储的位置，它会适应基础模型的知识表示方式，同时发展中新的知识表示方式；(2) 真实性和拒绝可以在隐藏表示空间中的线性向量中得到表示。基础模型和后训练模型的真实方向在很大程度上是相似的，并且对于干预是可转移的；(3) 基础模型和后训练模型的拒绝方向不同，且在前向转移方面显示出有限的可转移性；(4) 基础模型和后训练模型之间信心的差异无法归因于熵神经元。我们的研究为了解后训练期间保留和改变的基本机制提供了见解，促进了下游任务如模型引导，并且有可能对未来的研究有解释性和LLM后训练研究产生帮助。

发布时间: 4/7/2025

查看原文

超越准确率：校准在自我增强大语言模型中的作用

作者: Liangjie Huang, Dawei Li, Huan Liu, Lu Cheng

arXiv:2504.02902v1 类型: cross 摘要: 大型语言模型（LLMs）展示了惊人的自我改进能力，模型通过自我生成的反馈反复修订其输出。尽管这种反思机制在提升任务性能方面显示出前景，但最近的研究表明，它也可能引入不良偏见—最显著的是自我偏见，即LLMs倾向于偏好其自身先前的输出。在本研究中，我们进一步探讨了这种自我改进对置信度估计的影响。我们评估了三种代表性自我改进范式：基本提示、思维链（CoT）提示以及基于调优的方法，并发现迭代自我改进可能导致系统性过自信，这通过持续增加的预期校准误差（ECE）和高置信度下的较低准确性得以体现。然后，我们进一步探索了置信度校准技术与自我改进的整合。具体而言，我们比较了三种策略：（1）在多轮自我改进之后应用校准，（2）在自我改进之前进行校准，以及（3）在每个自我改进步骤中迭代应用校准。我们的结果显示，迭代校准在降低ECE方面最有效，提供了更好的校准。我们的工作首次从置信度校准的角度研究自我改进的LLMs，为平衡模型性能和可靠性提供了宝贵的见解。

发布时间: 4/7/2025

查看原文

在噪声标签中隐藏与寻找：具有LLM助力的噪声鲁棒协作主动学习

作者: Bo Yuan, Yulin Chen, Yin Zhang, Wei Jiang

arXiv:2504.02901v1标签类型：交叉摘要：学习有噪声标签（LNL）是一种在收集的训练数据可能包含错误或损坏的标签的许多实际场景中出现的挑战。目前大多数现有解决方案识别出噪声标签，并采用主动学习向人类专家查询以进行去噪。在大规模语言模型（LLMs）时代，虽然我们可以减少人力以改进这些方法，但它们的表现仍然取决于能否准确地从噪声数据中分离出干净样本和噪声样本。在本文中，我们提出了一种基于主动学习的创新协作学习框架NoiseAL，以结合大规模语言模型和小型模型（SMs）进行学习有噪声标签。在协作训练过程中，我们首先采用两个SMs形成一个共预测网络，并提出一种动态增强阈值策略来将噪声数据分成不同的子集，然后从这些子集中选择干净和噪声样本，喂给主动标注的大规模语言模型以纠正噪声样本。最后，我们采用不同的优化目标来克服带有不同程度标签噪声的子集。在对合成和真实世界的噪声数据集进行广泛实验后，进一步证明了我们框架相较于最新的基线方法的优势。

发布时间: 4/7/2025

查看原文

无肉日可减少温室气体排放但对客户留存和遵循饮食指南提出挑战

作者: Giuseppe Russo, Kristina Gligori\'c, Vincent Moreau, Robert West

arXiv:2504.02899v1 宣告类型: 交叉摘要: 减少肉类消费对于实现全球环境和营养目标至关重要。无肉日（MFD）是一种广泛采用的战略，通过去除基于动物的餐食来鼓励植物性饮食，从而应对这一挑战。我们通过在18个月内（每周随机选择一天）在一所大型大学校园的12个食堂实施了67次无肉日，并分析了超过40万次食品购买数据，评估了MFD的环境、行为和营养影响。MFD在处理日减少了校内的与食物相关的温室气体（GHG）排放52.9%，并增加了纤维摄入量（+26.9%）和降低了胆固醇摄入量（-4.5%），而没有改变卡路里摄入量。然而，这些营养益处伴随着蛋白质摄入量减少了27.6%，糖分摄入量增加了34.2%。此外，植物性餐食的增加并没有延续到后续的日子，如在处理日后的次日，动物性餐食的消费增加了3.5%。MFD还导致处理日校内餐食销售减少了16.8%。蒙特卡洛模拟表明，如果8.7%的用餐者在处理日外出去吃汉堡，MFD的温室气体节省将完全抵消。由于我们的分析指出学校客户留存是MFD有效性的主要挑战，我们建议将MFD与客户留存干预措施相结合，以确保环境和营养益处。

发布时间: 4/7/2025

查看原文

UAC：面向手势检测的不确定性感知校准的神经网络

作者: Farida Al Haddad, Yuxin Wang, Malcolm Mielle

arXiv:2504.02895v1 安全类型：跨域摘要：人工智能有可能在建筑、制造业和医疗保健等关键安全领域提高安全性和效率。例如，通过穿戴设备的数据，如惯性测量单元（IMU），可以检测人类手势同时保持隐私，从而确保遵守安全规程。然而，这些领域严格的安全要求限制了人工智能的采用，因为准确校准预测概率和抵抗离群值数据（OOD）的鲁棒性是必要的。本文提出了一种新颖的两步方法 UAC（ awareness- aware Calibration），以解决基于 IMU 的手势识别中的这些挑战。首先，我们提出了一种意识到不确定性的人手势网络架构，该架构可以从 IMU 数据中预测手势的概率及其相关不确定性。然后，使用这种不确定性来校准每个潜在手势的概率。其次，利用在多个 IMU 数据窗口上的熵加权预测期望来提高准确性，同时保持正确的校准。我们的方法使用三个公开可用的 IMU 数据集进行手势检测评价，并与三种最先进的神经网络校准方法进行了比较：温度缩放、熵最大化和拉普拉斯近似。UAC 在 OOD 和 in-distribution 场景中均优于现有方法，实现了更高准确性和校准。此外，我们发现，与我们的方法不同，最先进的方法没有显著提高基于 IMU 的手势识别模型的校准。总之，我们的工作突显了神经网络意识不确定性的校准优势，展示了在使用 IMU 数据进行手势检测时在校准和准确性方面的改进。

发布时间: 4/7/2025

查看原文

OnRL-RAG：实时个性化心理健康对话系统

作者: Ahsan Bilal, Beiyu Lin, Mehdi Zaeifi

arXiv:2504.02894v1 宣告类型: cross 摘要: 大型语言模型（LLMs）已被广泛用于各种任务和应用中。然而，LLMs 和微调仅限于预训练数据。例如，ChatGPT的世界知识截至2021年可能已经过时或不准确。为了增强LLMs的能力，Retrieval-Augmented Generation (RAG) 提出了利用额外的新鲜、最新的细节和信息来增强LLMs。虽然RAG提供了正确的信息，但它可能无法以最佳方式呈现，尤其是对于具有个性化需求的不同人群群体。通过反馈循环调整模型响应以与人类偏好相一致的强化学习从人类反馈（RLHF）能够根据用户需求进行调整。在实际应用中，如心理健康问题，动态且基于反馈的模型会不断适应新信息，并提供个性化的帮助，因为日常环境中复杂因素不断波动。因此，我们提出了一种基于在线强化学习的Retrieval-Augmented Generation（OnRL-RAG）系统，以检测和个性化针对心理健康问题（如压力、焦虑和抑郁）的响应系统。我们使用从2028年大学学生收集的数据集，每个学生有28个调查问题，来演示我们提出系统的性能与现有系统的性能。我们的系统在标准RAG和简单LLM（通过GPT-4o、GPT-4o-mini、Gemini-1.5和GPT-3.5）中表现出更优的性能。这项工作将为LLMs在日常环境中的个性化服务的实际应用打开新的可能性。研究结果还将帮助社会学、心理学和神经科学领域的研究人员将其理论与实际人类日常环境更紧密地结合起来。

发布时间: 4/7/2025

查看原文

基于大语言模型的对话代理自动调研收集

作者: Kurmanbek Kaiyrbekov, Nicholas J Dobbins, Sean D Mooney

arXiv:2504.02891v1 问卷类型：跨学科摘要：目标：传统的基于电话的调查是收集生物医药和医疗数据最便捷和广泛使用的方法之一，然而它们往往成本高昂、劳动密集，且难以有效扩展现行规模。为克服这些局限，我们提出了一种由对话大型语言模型（LLM）驱动的端到端调查收集框架。材料与方法：我们的框架包括一名负责设计调查和招募参与者的研究员，一名由LLM驱动的对话电话代理，该代理呼叫参与者并管理调查；一名第二级LLM（GPT-4o），用于分析调查过程中生成的对话转录；以及一个用于存储和组织结果的数据库。为了测试我们的框架，我们招募了8名参与者，其中包括5名以英语为母语者和3名非英语母语者，并进行了40次调查。我们评估了由LLM生成的对话转录的准确性、GPT-4o推断的调查回答的准确性以及整体参与者体验。结果：尽管对话转录每行平均存在7.7%的单词错误率，GPT-4o仍然成功从对话转录中提取了调查回答，平均准确率达到98%。虽然参与者报告了对话LLM代理偶尔会出现的错误，但他们表示该代理成功传达了调查的目的，展示了良好的理解能力，并维持了互动的参与度。结论：我们的研究突显了LLM代理在开展和分析医疗保健应用中的电话调查方面的潜力。通过减轻人工访问员的工作负担并提供可扩展的解决方案，这种方法为实际中端到端的AI驱动电话调查收集系统铺平了道路。

发布时间: 4/7/2025

查看原文

低资源语言的测试时计算缩放：多语言 reasoning 在 LLMS 中

作者: Khanh-Tung Tran, Barry O'Sullivan, Hoang D. Nguyen

arXiv:2504.02890v1 类型: 交叉摘要：最近在测试时计算能力扩展方面的进展使大规模语言模型（LLMs）能够通过生成包含尝试与错误、回溯和中间推理步骤的思考链（CoT），来应对深层次的推理任务。然而，这些技术主要应用于流行的语言，如英语，这使得低资源语言的推理研究相对较少且不充分。在这项工作中，我们研究了LLMs在潜在空间中偏向于其固有优势语言的多语言机制。为了利用这一现象为低资源语言服务，我们训练模型在输入为低资源语言的情况下，生成思考链（CoT）并在目标语言中输出最终回答。我们的实验表明，这种被称为英语导向的CoT训练的方法在各种基准之上表现出色，包括仅在目标语言中生成思考链和最终回答的方法，性能提升最多可达28.33%。进一步分析提供了关于LLMs推理与多语言性之间关系的新见解，提示了开发多语言大型推理模型的新方法。

发布时间: 4/7/2025

查看原文

密集定义本体的知识图嵌入方法

作者: Takanori Ugai

arXiv:2504.02889v1 宣布类型: cross 摘要：知识图谱嵌入（KGE）是一种通过解决不完整性和改进知识检索来增强知识图谱的技术。现有KGE模型的一个局限性在于它们在利用本体，特别是属性之间的关系方面利用不足。本文提出了一种名为TransU的KGE模型，该模型适用于具有明确本体和包含属性之间关系的知识图谱。该模型将属性视为实体的子集，从而实现统一表示。我们使用标准数据集和实用数据集展示了实验结果。

发布时间: 4/7/2025

查看原文