LLM2D

arXiv 论文列表

作者: Xinlong Hou, Sen Shen, Xueshen Li, Xinran Gao, Ziyi Huang, Steven J. Holiday, Matthew R. Cribbet, Susan W. White, Edward Sazonov, Yu Gan
arXiv:2410.01966v3 宣告类型: 替换-交叉 摘要:准确监控幼儿的屏幕暴露对于研究与屏幕使用相关的现象(如儿童肥胖、体育活动和社会互动)的研究至关重要。现有的大多数研究依赖于自我报告或笨重的可穿戴传感器的手动测量,因此在捕获屏幕暴露的定量数据方面缺乏效率和准确性。在这项工作中,我们构建了一个新颖的传感器信息系统框架,利用一种称为屏幕时间追踪器(STT)的可穿戴传感器的自中心图像,以及一个视觉语言模型(VLM)。特别是,我们设计了一个多视角的VLM,它可以处理自中心图像序列的多个视角,并动态地解释屏幕暴露。通过使用儿童日常活动的数据集,我们验证了我们的方法,结果表明,与现有方法相比,特别是在普通视觉语言模型和物体检测模型中,我们的方法在屏幕暴露的定量数据捕获方面有了显著改进。这些结果支持了这种监控方法的潜力,可以在自然环境下的儿童行为研究中优化屏幕暴露的研究。
发布时间: 5/12/2025
查看原文
作者: Yusen Wu, Phuong Nguyen, Rose Yesha, Yelena Yesha
arXiv:2408.08456v2 通知类型: 替换-交叉 摘要:在医疗应用中,分布漂移检测至关重要,因为它有助于通过识别可能影响机器学习模型预测结果的潜在数据分布变化来确保模型的准确性和可靠性。然而,当前的方法在检测漂移方面存在局限性,例如异常数据集的引入可能导致不公平的比较。本文提出了一种准确且灵敏的方法,通过利用数据摘要和微调技术,在CT扫描医疗图像中检测分布漂移。我们开发了一个稳健的基础库模型,用于实时异常检测,这使得可以有效地比较传入图像并识别异常。此外,我们使用乳腺X线摄影作为案例研究,对预训练的Vision Transformer模型进行了微调以提取相关特征,显著提高了模型的准确性至99.11%。结合数据摘要和微调,我们的特征提取评估表明,相似数据集之间的余弦相似度得分提供了更大的改进,从大约从50%增加到99.1%。最后,灵敏度评估表明,我们的解决方案对1%的椒盐噪声和斑点噪声高度敏感,但对照明噪声(例如,照明条件对数据漂移无影响)不敏感。所提出的方法为保持诊断模型在动态临床环境中的准确性提供了一个可扩展且可靠的方法。
发布时间: 5/12/2025
查看原文
作者: Riccardo Orlando, Pere-Lluis Huguet Cabot, Edoardo Barba, Roberto Navigli
arXiv:2408.00103v3 公告类型: replace-cross 摘要:实体链接(EL)和关系提取(RE)是自然语言处理中的基本任务,作为广泛应用程序中的关键组件。在本文中,我们提出了一种名为ReLiK的检索读取器架构,用于EL和RE,其中,给定输入文本,检索模块负责识别可能会出现在文本中的候选实体或关系。随后,读取器模块承担甄别相关检索到的实体或关系并将其与相应的文本跨度对齐的任务。值得注意的是,我们提出了一种创新的输入表示,该表示将候选实体或关系与文本一起包含,使得在单一前向传递中链接实体或提取关系成为可能,并充分利用预训练语言模型的上下文化能力,这与之前的检索读取器方法不同,后者需要为每个候选进行前向传递。我们对EL和RE的建模在领域内和领域外基准上都达到了最先进的性能,同时使用了学术预算进行训练,并且推理速度比竞争对手快多达40倍。最后,我们展示了如何无缝地使用我们的架构进行信息提取(cIE),即EL + RE,并通过共享读取器同时提取实体和关系设置新的最先进水平。
发布时间: 5/12/2025
查看原文
作者: Youyang Qu, Ming Liu, Tianqing Zhu, Longxiang Gao, Shui Yu, Wanlei Zhou
arXiv:2406.09831v2 通知类型: 替换-交叉 摘要:联邦学习(FL)提供了一种有前途的范式,用于以去中心化的方式训练大型语言模型(LLMs),同时保护数据隐私并最小化通信开销。本文综述了由FL驱动的LLMs的最新进展,特别是在架构设计、性能优化和安全问题方面的关注,包括正在兴起的机器遗忘领域。在此上下文中,机器遗忘指的是系统地从训练模型中删除特定数据贡献,以遵守如被遗忘权等隐私法规。我们回顾了一系列使联邦LLMs中的遗忘成为可能的策略,包括基于扰动的方法、模型分解和增量重新训练,同时从效率、隐私保证和模型实用性方面评估这些方法的权衡。通过选定的案例研究和实证评估,我们分析了这些方法在实际FL场景中的表现。本文指出了开发安全、适应性强、高性能的联邦LLMs系统以进行实际部署的关键研究方向。
发布时间: 5/12/2025
查看原文
作者: Jack Merullo, Carsten Eickhoff, Ellie Pavlick
arXiv:2406.09519v4 宣布类型: 替换-交叉 摘要:虽然已知变压器语言模型(LMs)将特征从早期层传递到后期层,但模型如何表示和传递这些信息还不完全清楚。我们分析了两种LMs中使用的一种机制,该机制在一项任务中选择性地抑制上下文中的项目,并发现它构成了许多上下文检索行为中常用抽象的基础。具体来说,我们发现模型将在残差流的低秩子空间中写入特征,然后由后续层读出这些特征,从而在层之间形成低秩通信通道(Elhage等人,2021)。GPT-2模型激活中的一个特定3D子空间可以被遍历以在列表中按位置索引项目,我们证明这种机制可以解释模型对提示中项目顺序的看似任意的敏感性。即,当许多项目占据这个有限的空间时,模型难以从上下文中复制正确的信息。通过使用奇异值分解(SVD)分解注意力头,我们发现,分隔开一层或多层的注意力头之间之前描述的相互作用可以通过仅分析其权重矩阵来预测。我们证明可以通过我们发现的机制来操控内部模型表示以及根据模型权重进行编辑,显著提高我们在合成的衣物列表任务上的性能,有时将任务准确性提高了20%以上。我们的分析揭示了从语言模型预训练中学习到的一种出人意料的复杂可解释结构,并帮助我们理解为什么复杂的LMs有时会在简单领域中失效,从而促进了对更复杂行为的进一步分析。
发布时间: 5/12/2025
查看原文
作者: Yutao Sun, Mingshuai Chen, Tiancheng Zhao, Kangjia Zhao, He Li, Jintao Chen, Zhongyi Wang, Liqiang Lu, Xinkui Zhao, Shuiguang Deng, Jianwei Yin
arXiv:2406.06600v5 宣告类型: replace-cross 摘要:人工智能正迅速渗透到服务调节领域。然而,现有的基于人工智能的调节技术往往针对特定的应用领域,因此在自动化方面难以泛化。本文提出了Horae,这是一种统一的规范语言,用于跨多种不同领域的建模(多模态)调节规则。我们展示了Horae如何通过进一步利用名为RuleGPT的微调大型语言模型来促进智能服务调节管道,自动化了Horae建模过程,从而提供了一个完整的端到端框架,实现全自动智能服务调节。我们通过各种真实世界的调节领域基准展示了该框架的可行性和有效性。特别是,我们证明了开源的、带有70亿参数的微调RuleGPT能够优于GPT-3.5,并且与GPT-4o媲美。
发布时间: 5/12/2025
查看原文
作者: Jiesong Lian, Yucong Huang, Chengdong Ma, Mingzhi Wang, Ying Wen, Long Hu, Yixue Hao
arXiv:2405.21027v5 公告类型: replace-cross 摘要: 解决涉及非传递性的零和游戏的一种有用方法是维护一个策略群体来近似纳什均衡(Nash Equilibrium, NE)。以往的研究表明,策略空间响应先知算法(Policy Space Response Oracles, PSRO)是解决此类游戏的有效框架。然而,当前的方法要么从头开始初始化一个新的策略,要么继承单一的历史策略进行最优响应(Best Response, BR)训练,从而错过了利用过去策略生成更好BR的机会。在本文中,我们提出了Fusion-PSRO,它使用纳什策略融合来初始化一个新的BR训练策略。纳什策略融合作为隐式引导策略,在当前元纳什均衡(Meta-NE)上启动探索,从而提供更接近BR的近似。此外,它深入捕获了过去策略的加权移动平均值,并根据每次迭代中的Meta-NE动态调整这些权重。这一累积过程进一步增强了策略群体。实证结果表明,Fusion-PSRO在经典基准测试上实现了更低的榨取性,从而缓解了以往关于BR策略初始化的研究中所存在的不足。
发布时间: 5/12/2025
查看原文
作者: Kaizheng Wang, Fabio Cuzzolin, Keivan Shariatmadar, David Moens, Hans Hallez
arXiv:2405.15047v2 宣告类型: replace-cross 摘要:本文提出了一种称为可信度包装器的新颖方法,将其应用于贝叶斯神经网络(BNNs)和深度集成(DEs)的模型平均表示形式,以改进分类任务中的不确定性估计。给定来自BNNs或DEs的一系列有限单预测分布,所提出的可信度包装器方法将为每个类别提取一个上界和一个下界概率,这承认了由于可用于的分布有限而导致的不确定性。这样的类概率区间可以映射到一个概率凸集(一个可信度集),从中可以使用一种称为交概率转换的方法获得一个唯一预测。在本文中,我们在多个离分布(OOD)检测基准上进行了广泛的实验,涵盖了各种数据集对(CIFAR10/100 vs SVHN/Tiny-ImageNet, CIFAR10 vs CIFAR10-C, CIFAR100 vs CIFAR100-C 和 ImageNet vs ImageNet-O)和不同的网络架构(如 VGG16, ResNet-18/50, EfficientNet B2, 和 ViT Base)。与BNN和DE Baselines相比,所提出的可信度包装器方法在不确定性估计方面表现更优,并在受损数据上实现了较低的期望校准误差。
发布时间: 5/12/2025
查看原文
作者: Yiqing Xu, Jiayuan Mao, Yilun Du, Tomas Loz\'ano-P\'erez, Leslie Pack Kaelbling, David Hsu
arXiv:2405.11928v3 发布类型: replace-cross 摘要:本文研究了开发能够理解模糊指令以创建功能性物体排列的机器人的挑战,例如“为两个人布置一个餐桌”;以往的排列方法主要集中于更为明确的指令,如“将物体A放在桌子上”。我们提出了一个框架,SetItUp,用于学习解读模糊指令。SetItUp 可以通过少量的训练示例和人工创建的程序草图来发现特定场景类型的排列规则。通过利用一个中间的类似图形表示的抽象空间关系,SetItUp 将排列问题分解为两个子问题:i) 从有限数据中学习排列模式,ii) 将这些抽象关系具体化为物体姿态。SetItUp 利用大型语言模型(LLMs)提出新的场景中物体之间的抽象空间关系作为需满足的约束条件;然后,它结合与这些抽象关系相关的扩散模型库来寻找满足约束条件的物体姿态。我们在包含学习桌、餐桌和咖啡桌的数据集上验证了我们的框架,结果显示与现有模型相比,SetItUp 在生成物理上合理、功能性且美观的物体排列方面表现出更优的性能。
发布时间: 5/12/2025
查看原文
作者: Juan Altmayer Pizzorno, Emery D. Berger
arXiv:2403.16218v4 Announce Type: replace-cross 摘要:测试是软件开发中不可或缺的一部分。测试生成工具试图自动化原本需要大量人力的测试创建任务,但生成高覆盖率的测试依然具有挑战性。本文提出了一种名为CoverUp的新颖方法,用于驱动高覆盖率的Python回归测试生成。CoverUp结合了覆盖率分析、代码上下文和提示反馈,通过迭代引导LLM生成能够提高代码行覆盖率和分支覆盖率的测试。我们对源自开源Python项目的挑战性代码基准进行评估,并展示了CoverUp在提高覆盖率方面优于现有技术。与CodaMosa——一种结合搜索和LLM的测试生成器——相比,CoverUp每个模块的中位行覆盖率和分支覆盖率提高了80%(相比之下为47%)。与MuTAP——一种基于突变和LLM的测试生成器——相比,CoverUp的整体行覆盖率和分支覆盖率达到了89%(相比之下为77%)。此外,我们还证明了COVERUP的性能不仅来自于所使用的LLM,还来自于其各个组件的有效结合。
发布时间: 5/12/2025
查看原文