arXiv:2502.00989v1 Announce Type: cross
摘要:大型语言模型(LLMs)可以执行图表问答任务,但往往生成未经验证的虚构响应。现有的答案归因方法在将响应与源图表关联时遇到困难,因为存在有限的视觉语义背景、复杂的视觉文本对齐要求以及在复杂布局中预测边界框的困难。我们提出了ChartCitor,这是一种多智能体框架,通过在图表图像中识别支持证据来提供精细的边界框引用。该系统协调LLM智能体执行图表到表格提取、答案重写、表格扩充、通过预过滤和重新排序检索证据以及表格到图表映射。ChartCitor在不同类型的图表上优于现有基线。定性的用户研究显示,ChartCitor通过提高LLM辅助图表问答的解释性,帮助增强了用户对生成式AI的信任,并使专业人士更加高效。
arXiv:2502.00988v1 类型: cross
摘要:科学数据可视化对于将原始数据转换为可理解的视觉表示至关重要,有助于模式识别、预测和数据驱动洞察的呈现。然而,新手用户由于选择合适工具和掌握可视化技术的复杂性而时常遇到困难。大型语言模型(LLMs)最近展示了在辅助代码生成方面的潜力,但它们在准确性方面存在困难,并需要迭代调试。本文中,我们提出了一种名为PlotGen的新颖多智能体框架,旨在自动化精确科学可视化创建。PlotGen 组织了多个基于LLM的智能体,包括一个查询规划智能体,它将复杂的用户请求分解为可执行步骤;一个代码生成智能体,将伪代码转换为可执行的Python代码;以及三个检索反馈智能体——一个数值反馈智能体、一个词法反馈智能体和一个视觉反馈智能体,这些智能体利用多模态LLM通过自我反思逐步细化生成图表的数据准确性、文本标签和视觉正确性。广泛的实验表明,PlotGen 出色地超越了强大的基准模型,在MatPlotBench数据集上实现了4-6%的性能提升,从而增强了用户对LLM生成可视化结果的信任,并通过减少用于图表错误的调试时间提高了新手用户的生产力。
arXiv:2502.00987v1 类别: cross
摘要: 低秩适应(LoRA)及其变体在减少大型变压器网络的可训练参数数量和内存需求的同时,保持了微调性能方面表现出了令人印象深刻的成果。然而,权重更新的低秩性质固有限制了微调模型的表现能力,可能导致在复杂任务上性能下降。这就提出了一个关键问题:当观察到LoRA和标准微调之间的性能差距时,这种差距是由于可训练参数数量减少还是由于秩亏欠?本文通过引入RandLoRA,一种参数效率方法,利用学习到的低秩非训练随机矩阵的线性组合来执行全秩更新,来回答这个问题。我们的方法通过限制优化到固定随机矩阵上的对角缩放矩阵的应用,从而限制可训练参数的数量。这使我们能够在保持训练期间的参数和内存效率的同时有效克服低秩限制。通过在视觉、语言和视觉-语言基准上的广泛实验,我们系统性地评估了LoRA和现有随机基方法的局限性。我们的发现表明,在视觉和语言任务上单独使用全秩更新是有益的,而在视觉-语言任务上,RandLoRA显著减少了标准微调和LoRA之间的性能差距,并且有时甚至完全消除了这种差距,证明了其有效性。
arXiv:2502.00980v1 Announce Type: cross
摘要:本文介绍了使用科莫尔夫-阿诺德网络(KANs)来预测CBOE波动性指数(VIX)的方法。与传统基于MLP的神经网络经常因其黑箱性质而受到批评不同,KAN通过可学习的分段函数激活函数和符号化方法提供了一种可解释的方法。基于简洁的体系结构和符号函数,KAN以解释变量的闭式形式表达了VIX的预测,并提供了对VIX关键特征的可解释洞察,包括均值回复和杠杆效应。通过对多个数据集和时间段的深入实证分析,我们显示KAN的预测性能与基于MLP的神经网络模型相比具有竞争力,同时所需参数数量显著减少。我们的研究结果证明了KAN作为可解释的金融时间序列预测方法的能力和潜力。
arXiv:2502.00964v1 评测类型: 横向评测
摘要:在这份报告中,我们介绍了ML-Dev-Bench,这是一个旨在测试代理在实际机器学习开发任务方面能力的基准测试。虽然现有的基准主要集中在孤立的编码任务或Kaggle风格的竞赛上,ML-Dev-Bench则测试代理处理完整的机器学习开发工作流的复杂性的能力。该基准测试评估了代理在数据集处理、模型训练、改进现有模型、调试以及与流行机器学习工具集成等多个关键方面的表现。我们对三种代理——ReAct、Openhands和AIDE——进行了25项多样化的任务评估,提供了他们在处理实际机器学习开发挑战方面的强项和局限性的见解。
arXiv:2502.00940v1 Announce Type: 横向
摘要: 在本文中,我们提出了一种用于能量采集传感器的能量效率传输的新颖删失策略。将问题表述为无限 horizon 马尔可夫决策过程(MDP)。要优化的目标是所有已传输消息的重要性(效益)的期望总和。假设这种重要性可以在传输节点处进行评估,我们证明在某些电池模型的条件下,最优删失策略是一个阈值函数,基于重要性的值。具体而言,只有当消息的重要性超过一个阈值(该阈值的值依赖于电池电量)时,才会传输消息。利用这一特性,我们提出了一种基于模型的随机方案,该方案近似最优解,并且在计算复杂度和收敛速度上比传统的Q学习算法更为高效。单跳和多跳网络中的数值实验证实了所提方案的分析优势。
arXiv:2502.00939v1 宣布类型: cross
摘要: 本研究开发了一种迁移学习模型,用于在受控实验室环境中自动分类两种果蝇物种,即安德肋果蝇(Anastrepha fraterculus)和地中海果蝇(Ceratitis capitata)。研究解决了当前由专家手工进行的分类工作因受人为因素影响且耗时的问题。研究方法包括使用手机相机和立体显微镜拍摄高质量图像,随后进行分割以降低图像大小并聚焦于相关形态区域。图像经过精心标注并预处理,以确保用于训练预训练卷积神经网络模型(如VGG16、VGG19和Inception-v3)的数据集的质量和一致性。结果使用F1分数进行评估,VGG16和VGG19的F1分数分别为82%;而Inception-v3达到了93%的F1分数。通过在非受控环境中对模型进行测试,验证了Inception-v3的可靠性,并通过Grad-CAM技术进一步证实了其捕捉重要形态特征的能力。研究结果表明,Inception-v3是一种有效且可复制的分类方法,适用于安德肋果蝇和地中海果蝇,同时具有在自动化监控系统中实施的潜力。
arXiv:2502.00937v1 服务类型: 横向交叉
摘要:生成AI的 Recent 进展导致了具备同时处理不同模态(如文本、图像、视频和音频)输入能力的大规模多模态模型(LMMs)。尽管这些模型展示了令人印象深刻的性能,但由于其复杂的架构和异构的资源需求,在生产环境中高效地提供这些服务面临着重大挑战。
我们首次对两个主流的 LMM 架构——仅解码器和交叉注意机制进行了全面的系统分析,并评估了六个代表性开源模型。我们调查了它们的多阶段推理管道和资源使用模式,这些模式导致了独特的系统设计影响。我们还对生产环境中的 LMM 推理跟踪进行了深入分析,发现了独特的负载特征,包括可变的、长尾的服务请求分布、多种模态组合以及突发的流量模式。
我们的主要发现揭示了不同的 LMM 推理阶段表现出高度不同的性能特征和资源需求,而跨模态的同时请求会显著干扰性能。为了应对这些挑战,我们提出了一种解耦的服务架构,该架构可以独立分配资源并为每个阶段提供自适应扩展。我们还提出了优化措施,如阶段共存,以在满足延迟目标的同时最大化吞吐量和资源利用率。
arXiv:2502.00919v1 交叉公告类型:
抽象: 大型语言模型 (LLMs) 的两个显著特征是存在大规模范数 (异常值) 特征和令牌倾向于非常强烈地关注一些特定令牌。尽管这些选定的令牌通常没有语义相关性,但这些称为注意陷阱 (attention sinks) 的选定令牌以及大型异常值特征已经被证明对模型性能、压缩和流式传输至关重要。因此,调查这些现象在模型中的作用以及探索它们如何在模型参数中表现已经成为一个活跃的研究领域。通过实证研究,我们证明了注意陷阱利用异常值特征来捕获一系列令牌,通过应用共同的扰动为捕获的令牌打上标签,然后将令牌释放回残差流中,在此之后标记的令牌最终被检索。我们证明简单任务,如平均化,需要“捕获、标记、释放”的机制,解释了为什么这种机制会在现代LLMs中自然出现。我们的实验证明,注意陷阱的创建可以用低秩矩阵完全捕捉到,这对模型压缩具有重要意义,并证实了最近提出的一种在低秩项中引入以缓解性能下降的方法的成功。
arXiv:2502.00903v1 声明类型: cross
摘要:本研究试图通过从共识导向向协调导向的方法学发展,从而接纳多样的编码输出并探索不同视角之间的动态关系。作为对该方法的探索性研究,我们评估了六种 GPT-4o 配置,用于分析2020年美国总统竞选期间福克斯新闻和MSNBC关于拜登和特朗普会议记录中的情感,考察了这些模型之间的模式。通过评估每个模型与意识形态视角的一致性,我们探讨了在LLM辅助内容分析(LACA)中如何识别党派选择性加工。研究发现,在处理政治上一致的内容时,党派化人设的LLM显示出更强的意识形态偏见。此外,相同党派的人设之间的编码者可靠性高于跨党派配对。这种方法提高了对LLM输出的细致理解,并推进了由AI驱动的社会科学研究的完整性,使其能够模拟现实世界的影响。