LLM2D

arXiv 论文列表

作者: Gabriele Dominici, Pietro Barbiero, Francesco Giannini, Martin Gjoreski, Giuseppe Marra, Marc Langheinrich
当前深度学习模型无法同时解答三个基本问题:预测类别标签以解决给定的分类任务(“是什么?”)、模拟情境变化以评估其如何影响类别预测(“如何?”)以及设想情境应如何变化才能得出不同的类别预测(“为什么不?”)。无法解答这些问题是部署可靠AI代理、校准人类信任和改进人机交互的关键缺口。为了弥合这一差距,我们引入了反事实概念瓶颈模型(CF-CBM),这是一类旨在高效地同时解答上述所有问题而无需进行事后搜索的模型。我们的实验结果表明,CF-CBM:(1)实现了与黑盒模型和现有CBM相当的分类精度(“是什么?”);(2)依赖较少的关键概念,从而产生更简单的解释(“如何?”);(3)产生可解释的、基于概念的反事实(“为什么不?”)。此外,我们还表明,与CBM联合训练反事实生成器可带来两项关键改进:(i)它改变了模型的决策过程,使模型依赖更少的关键概念(从而产生更简单的解释);(ii)它显著增加了概念干预对类别预测的因果效应,使模型对这些变化更敏感。
发布时间: 10/10/2024
查看原文
作者: Toni J. B. Liu, Nicolas Boull\'e, Rapha\"el Sarfati, Christopher J. Earls
预训练大型语言模型 (LLM) 在执行零样本任务(包括时间序列预测)方面 surprisingly effective。然而,由于模型的复杂性,理解这些能力背后的机制仍然极具挑战性。我们研究了 LLM 推断动力系统行为的能力,这些动力系统的演化遵循具有物理意义的原理。我们的结果表明,主要基于文本训练的语言模型 LLaMA 2,无需微调或提示工程即可对动力系统时间序列进行准确预测。此外,学习到的物理规则的准确性随着输入上下文窗口长度的增加而提高,揭示了神经网络缩放定律的上下文版本。在此过程中,我们提出了一种灵活高效的算法,用于直接从 LLM 中提取多位数的概率密度函数。
发布时间: 10/10/2024
查看原文
作者: Zecheng Hao, Xinyu Shi, Yujia Liu, Zhaofei Yu, Tiejun Huang
与传统的人工神经网络 (ANN) 相比,脉冲神经网络 (SNN) 因其能够以更高效的能耗方式传输信息而受到了广泛的学术关注。然而,尽管之前已经通过各种方法对 SNN 的学习算法进行了优化,但 SNN 的性能仍然落后于 ANN。最近提出的多阈值模型为进一步增强 SNN 的学习能力提供了更多可能性。本文从数学角度严格分析了多阈值模型、普通脉冲模型和量化 ANN 之间的关系,然后提出了一种新颖的 LM-HT 模型,这是一种等距多阈值模型,可以在时间维度上动态调节全局输入电流和膜电位泄漏。LM-HT 模型也可以通过重新参数化转换为普通的单阈值模型,从而实现更灵活的硬件部署。此外,我们注意到 LM-HT 模型可以在特殊初始化下与 ANN-SNN 转换框架无缝集成。这种新颖的混合学习框架可以有效提高在低时间延迟下转换后的 SNN 的相对较差的性能。大量的实验结果表明,我们的模型在各种数据集上都优于以往最先进的工作,这使得 SNN 达到了与量化 ANN 相当的全新性能水平。代码可在 https://github.com/hzc1208/LMHT_SNN 获取。
发布时间: 10/10/2024
查看原文
作者: Azmain Kabir, Shaowei Wang, Yuan Tian, Tse-Hsun Chen, Muhammad Asaduzzaman, Wenbin Zhang
大型语言模型(LLM)已在许多自然语言处理任务中取代了传统方法。然而,在命名实体识别(NER)中,现有的基于LLM的方法…… (This is incorrect. The provided text is not about NER. The following is the correct translation.) 技术问答网站对于寻求知识的软件开发者来说非常宝贵,但它们提供的代码片段由于类型未解析和缺少库而常常无法编译且不完整。这对于希望重用或分析这些片段的用户来说是一个挑战。现有方法要么不侧重于创建可编译代码,要么成功率低。为了解决这个问题,我们提出了ZS4C,这是一种使用大型语言模型(LLM)从不完整的代码片段中零样本合成可编译代码的轻量级方法。ZS4C分两个阶段运行:首先,它使用LLM(如GPT-3.5)来识别片段中缺少的导入语句;其次,它与验证器(例如,编译器)协作以修复由不正确的导入和语法问题引起的编译错误。我们在StatType-SO基准测试和一个新的数据集Python-SO上评估了ZS4C,该数据集包含来自Stack Overflow的涵盖20个最受欢迎的Python库的539个Python代码片段。ZS4C的性能明显优于现有方法,与最先进的SnR相比,编译率从63%提高到95.1%,提高了50.1%。平均而言,ZS4C比SnR能够推断出更准确的导入语句(F1分数为0.98),F1分数提高了8.5%。
发布时间: 10/10/2024
查看原文
作者: Kasra Borazjani, Naji Khosravan, Leslie Ying, Seyyedali Hosseinalipour
利用机器学习 (ML) 通过医学影像分析进行癌症分期在各个医学学科中获得了极大的关注。结合创新的联邦学习 (FL) 框架,ML 技术可以进一步克服与患者数据暴露相关的隐私问题。鉴于患者记录中经常存在多种数据模式,在多模态学习框架中利用 FL 对癌症分期具有相当大的前景。然而,现有的多模态 FL 工作通常假设所有数据收集机构都能访问所有数据模式。这种过于简化的做法忽略了那些只能访问系统中部分数据模式的机构。在这项工作中,我们引入了一种新颖的 FL 架构,该架构不仅能够适应数据样本的异构性,还能适应机构之间数据模式的固有异构性/不均匀性。我们阐明了在我们的 FL 系统中不同数据模式之间观察到的收敛速度差异所带来的挑战。随后,我们提出了一种解决方案,通过设计一种针对多模态 FL 的分布式梯度混合和邻近感知客户端加权策略来应对这些挑战。为了证明我们方法的优越性,我们使用癌症基因组图谱计划 (TCGA) 数据湖进行了实验,考虑了不同的癌症类型和三种数据模式:mRNA 序列、组织病理学图像数据和临床信息。我们的结果进一步揭示了机构之间基于类别与基于类型的异构性对模型性能的影响和严重程度,这拓宽了对多模态 FL 文献中数据异构性概念的视角。
发布时间: 10/10/2024
查看原文
作者: Yuxuan Wan, Wenxuan Wang, Yiliu Yang, Youliang Yuan, Jen-tse Huang, Pinjia He, Wenxiang Jiao, Michael R. Lyu
我们介绍了一种名为LogicAsker的新方法,用于评估和增强大型语言模型(LLM),例如ChatGPT和GPT-4的逻辑推理能力。尽管LLM在写作辅助、代码生成和机器翻译等任务中表现出色,但评估其推理能力一直是一项挑战。传统的评估方法往往优先考虑下游任务的准确性,而不是直接评估推理过程。LogicAsker通过采用一组基于命题逻辑和谓词逻辑的原子推理技能来系统地检查和改进LLM的推理能力,从而解决了这一差距。我们的方法揭示了LLM学习逻辑规则方面的显著差距,不同模型的推理失败率从29%到90%不等。此外,我们利用这些发现来构建有针对性的演示示例和微调数据,显著提高了GPT-4o等模型的逻辑推理能力,最高可达5%。据我们所知,这是首次利用测试用例结果有效改进LLM形式推理能力的尝试。我们将我们的代码、数据和结果公开发布(https://github.com/yxwan123/LogicAsker),以促进进一步的研究和结果的复制。
发布时间: 10/10/2024
查看原文
作者: Yuxin Li, Qiang Han, Mengying Yu, Yuxin Jiang, Chaikiat Yeo, Yiheng Li, Zihang Huang, Nini Liu, Hsuanhan Chen, Xiaojun Wu
鸟瞰图(BEV)空间中的三维目标检测已成为自动驾驶领域的一种流行方法。尽管与透视视图方法相比,其在精度和速度估计方面得到了改进,但基于BEV的技术在现实世界自动驾驶车辆中的部署仍然具有挑战性。这主要是由于它们依赖于基于视觉转换器(ViT)的架构,而这种架构的复杂度与输入分辨率呈二次关系。为了解决这个问题,我们提出了一种高效的基于BEV的三维目标检测框架BEVENet,它利用纯卷积的架构设计来规避ViT模型的局限性,同时保持基于BEV方法的有效性。我们的实验表明,在NuScenes挑战赛上,BEVENet的速度是现有最先进(SOTA)方法的3倍,在NuScenes验证数据集上实现了0.456的平均精度均值(mAP)和0.555的NuScenes检测分数(NDS),推理速度为每秒47.6帧。据我们所知,这项研究首次实现了基于BEV方法的显著效率提升,突出了其在现实世界自动驾驶应用中的增强可行性。
发布时间: 10/10/2024
查看原文
作者: Yufei Zhan, Yousong Zhu, Zhiyang Chen, Fan Yang, Ming Tang, Jinqiao Wang
大型视觉语言模型(LVLM)在任意粒度下基于自由文本检测所有物体方面,复制人类固有的能力仍然是一个巨大的挑战。现有的LVLM主要局限于定位单个预先存在的物体。这一限制导致模型设计上的妥协,需要引入视觉专家模型或定制的头结构。除了这些限制之外,我们的研究揭示了LVLM在基本物体感知方面的能力,使其能够准确识别和定位感兴趣的物体。基于这一见解,我们引入了一个新颖的语言提示定位数据集,以充分释放LVLM在细粒度物体感知和精确位置感知方面的能力。更重要的是,我们提出了Griffon,一个纯粹基于LVLM的基线模型,它不引入任何特殊标记、专家模型或额外的检测模块。它通过统一各种与定位相关的场景中的数据格式,并通过精心设计的管道进行端到端训练,从而与流行的LVLM保持一致的结构。全面的实验表明,Griffon不仅在细粒度的RefCOCO系列和Flickr30K Entities上取得了最先进的性能,而且在检测基准MSCOCO上也接近专家模型Faster RCNN的能力。数据、代码和模型已发布在https://github.com/jefferyZhan/Griffon。
发布时间: 10/10/2024
查看原文
提示工程是人类与大型语言模型 (LLM) 交互的主要方式。商业 AI 系统通常在系统提示中定义 LLM 的角色。例如,ChatGPT 使用“你是一位乐于助人的助手”作为其默认系统提示的一部分。尽管目前实践中会在系统提示中添加角色设定,但不同角色设定如何影响模型在客观任务上的性能仍不清楚。在本研究中,我们对系统提示中的角色设定进行了系统的评估。我们整理了一个包含 162 个角色的列表,涵盖 6 种人际关系类型和 8 个专业领域。通过对 4 个流行的 LLM 家族和 2410 个事实性问题的广泛分析,我们证明,与没有添加角色设定的控制设置相比,在系统提示中添加角色设定并不能提高模型在各种问题上的性能。然而,进一步的分析表明,角色的性别、类型和领域都会影响最终的预测准确性。我们进一步实验了一系列角色搜索策略,发现虽然汇总每个问题的最佳角色的结果可以显著提高预测准确性,但自动识别最佳角色具有挑战性,其预测结果往往不会比随机选择更好。总的来说,我们的研究结果表明,虽然添加角色设定可能会在某些情况下提高性能,但每个角色的影响很大程度上是随机的。代码和数据可在 https://github.com/Jiaxin-Pei/Prompting-with-Social-Roles 获取。
发布时间: 10/10/2024
查看原文
作者: Chengpiao Huang, Kaizheng Wang
我们开发了一个用于非平稳环境下统计学习的通用框架。在每个时间段内,我们的方法应用稳定性原则来选择一个回溯窗口,该窗口最大限度地利用历史数据,同时将累积偏差保持在相对于随机误差的可接受范围内。我们的理论和数值实验展示了这种方法对未知非平稳性的适应性。我们证明了当总体损失是强凸的或仅是Lipschitz连续时,遗憾界是最小最大意义下最优的,最多相差对数因子。我们分析的核心在于两个新颖的组成部分:函数相似性度量和将非平稳数据序列分割成准平稳片段的分割技术。
发布时间: 10/10/2024
查看原文