arXiv 论文列表

作者: Chenyang Shao, Xinyuan Hu, Yutang Lin, Fengli Xu

arXiv:2502.04392v1 宣告类型: cross 摘要：互联网内容的迅速扩张使设备端的人工智能助手成为了帮助用户管理日益复杂的在线任务的不可或缺工具。大型语言模型（LLMs）中新兴的推理能力为新一代设备端AI代理提供了有希望的道路。然而，在资源有限的本地设备上部署全规模的语言模型（LLMs）是一项挑战。在本文中，我们提出了一种名为Division-of-Thoughts（DoT）的协作推理框架，该框架充分利用了本地部署的较小规模语言模型（SLMs）与云基LMs之间的协同效应。DoT利用任务分解器（Task Decomposer）激发语言模型中固有的规划能力，将用户查询分解为更小的子任务，从而使混合语言模型能够充分利用各自的优点。此外，DoT采用任务调度器（Task Scheduler）分析子任务之间的成对依赖关系，创建依赖图，促进子任务的并行推理和关键步骤的识别。为了根据子任务的难度分配适当的模型，DoT利用了一种插拔式适配器（Plug-and-Play Adapter），这是一种附加到SLM的任务头，不改变SLM的参数。为了增强适配器的任务分配能力，我们提出了一种依赖于任务执行反馈的自我强化训练方法。在各种基准上的广泛实验表明，我们的DoT显著降低了LLM成本，同时保持了竞争性的推理准确性。具体来说，DoT将平均推理时间和API成本减少了66.12%和83.57%，同时达到了与最佳基线方法相当的推理准确性。

发布时间: 2/10/2025

查看原文

面向生成AI的公平性和稳健性面部解析：一种多目标方法

作者: Sophia J. Abraham, Jonathan D. Hauenstein, Walter J. Scheirer

arXiv:2502.04391v1 宣告类型: cross 摘要：面部解析是计算机视觉中的一个基本任务，能够实现身份验证、面部编辑和可控图像合成等应用。然而，现有的面部解析模型往往缺乏公平性和鲁棒性，导致不同人口群体之间的偏差分割以及在遮挡、噪声和领域转换条件下的错误。这些限制影响了下游的面部合成，其中分割偏差可以降低生成模型的输出质量。我们提出了一种多目标学习框架，以在面部解析中优化准确度、公平性和鲁棒性。我们的方法引入了一种基于同伦的损失函数，该函数在训练过程中动态调整这些目标的重要性。为了评估其影响，我们比较了多目标和单目标U-Net模型在基于GAN的面部合成管道（Pix2PixHD）中的性能。我们的结果表明，公平性和鲁棒性的分割提高了面部生成的真实性和一致性。此外，我们使用ControlNet（一种基于扩散的合成结构条件模型）进行了初步实验，以探索分割质量如何影响引导图像生成。我们的发现表明，多目标面部解析可以提高人口统计特性的一致性和鲁棒性，从而提高基于GAN的合成质量。

发布时间: 2/10/2025

查看原文

在顽固性方面的颂扬：在大规模语言模型中考虑认知失调的知识更新案例研究

作者: Simone Clemente, Zied Ben Houidi, Alexis Huet, Dario Rossi, Giulio Franzese, Pietro Michiardi

arXiv:2502.04390v1 通知类型: 横向摘要：尽管拥有卓越的能力，大型语言模型（LLMs）在不断更新知识时往往会遇到灾难性遗忘的问题。相比之下，人类可以轻松地整合新信息，发现与现有信念冲突，并选择性地更新其心理模型。本论文引入了一种启发自认知的研究范式来探讨LLMs的连续知识更新。我们实现了两个关键的灵感来源于人类认知的组件：（1）不和谐与熟悉性意识，通过对模型行为的分析来将信息分类为新颖、熟悉的或不和谐的；（2）针对性网络更新，跟踪神经活动以识别频繁使用（顽固性）和很少使用（可塑性）的神经元。通过在受控环境中精心设计的实验，我们发现了一系列实证结果，展示了该方法的潜力。首先，使用简单的激活和梯度特征进行不和谐检测是可行的，这表明认知启发式训练的潜力。其次，我们发现非不和谐的更新大多保留了先前的知识，不论是否对这些更新进行了特定的目标策略。这揭示了LLMs知识整合中的内在稳健性。最关键的是，我们发现不和谐的更新在无差别地破坏模型的知识库的同时，会影响与当前更新无关的信息。这表明神经网络在处理矛盾时存在根本性的局限，从而强调了需要更接近人类认知机制的新方法来进行知识更新的必要性。

发布时间: 2/10/2025

查看原文

克服视觉语言模型在图解理解中的挑战：基于XML驱动的大语言模型解决方案的概念验证

作者: Shue Shiinoki, Ryo Koshihara, Hayato Motegi, Masumi Morishige

arXiv:2502.04389v1 交叉类型摘要：图表在业务文档中通过视觉方式传达复杂关系和流程方面起着关键作用。尽管在各种图像理解任务中取得了近期进展的视觉语言模型（VLMs），但准确识别和提取图中所示结构和关系仍然面临重大挑战。本研究通过提出一种基于文本的方法来应对这些挑战，该方法绕过了对VLMs视觉识别能力的依赖。相反，它利用编辑后的源文件（例如，xlsx、pptx 或 docx），其中图中的元素（例如，形状、线条、注释）以文本元数据的形式保存。在我们的概念验证中，从基于xlsx的系统设计文档中提取了图表信息，并将提取的形状数据转换为大型语言模型（LLMs）的文本输入。这种方法允许LLM在没有基于图像处理瓶颈的情况下分析关系并生成面向业务的问题响应。与基于VLM的方法的实验比较表明，所提出的基于文本的框架为需要详细理解图表结构的问题提供了更准确的答案。本研究的结果不仅限于测试的.xlsx文件，还可以扩展到具有源文件的其他文档中的图表，例如Office的pptx和docx格式。这些发现表明，通过直接从原始源文件提取文本，规避VLM限制的可行性是切实可行的。通过使LLMs能够实现健壮的图表理解，我们的方法为在真实业务场景中增强工作流效率和信息分析提供了有前景的道路。

发布时间: 2/10/2025

查看原文

位置：涌现的智慧机器促使我们重新思考多代理范式

作者: Hepeng Li, Yuhong Liu, Jun Yan

arXiv:2502.04388v1 类型:交叉学科摘要：能够自主学习和独立决策的人工智能（AI）代理在交通、能源系统和制造业等领域应对复杂挑战方面具有巨大潜力。然而，由具有不同且不一致目标的各种利益相关者推动的AI系统设计和部署的激增引入了一个关键挑战：如何在共享环境中使不协调的AI系统和谐共存和进化，而不造成混乱？为了解决这个问题，我们提倡对现有的多代理框架进行根本性的重新思考，如多代理系统和博弈论，这些框架大多局限于预定义的规则和静态的目标结构。我们认为，AI代理应该被赋予动态调整其目标、做出妥协、组建联盟，并通过不断演变的关系和社交反馈安全地竞争或合作的能力。通过本文，我们呼吁向这些系统的涌现性、自组织性和情境意识的性质转变。

发布时间: 2/10/2025

查看原文

FedP$^2$EFT：联邦学习以个性化参数高效微调多语言大语言模型

作者: Royson Lee, Minyoung Kim, Fady Rezk, Rui Li, Stylianos I. Venieris, Timothy Hospedales

arXiv:2502.04387v1 宣传类型: cross 摘要: 联邦学习（FL）使在多样化的分散式多语言数据上，特别是低资源语言上训练多语言大型语言模型（LLMs）成为可能。为了提高客户端特定的性能，通过参数高效微调（PEFT）模块（如LoRA）进行个性化是非常常见的。这涉及一种个性化策略（PS），例如PEFT适配器结构的设计（例如，在哪些层添加LoRA以及什么秩）和微调的超参数选择（例如，学习率）。不同于现有的大部分PEFT结构选择方法，它们在低数据情况下容易过拟合，FedP$^2$EFT提出了一种在跨设备FL设置中针对多语言LLMs的联邦学习到个性化方法。不同于大多数现有的PEFT结构选择方法，FedP$^2$EFT通过贝叶斯稀疏秩选择协作学习为每个客户端的最佳个性化PEFT结构。来自模拟和现实生活中的多语言FL基准的评估表明，FedP$^2$EFT在现有个性化微调方法中表现出显著的优势，同时补充了一系列现有的FL方法。

发布时间: 2/10/2025

查看原文

Towards Fair Medical AI: adversarial 去偏 3D CT 基础嵌入

作者: Guangyao Zheng, Michael A. Jacobs, Vladimir Braverman, Vishwa S. Parekh

arXiv:2502.04386v1 类型: cross 摘要: 自监督学习通过从大规模未标记数据集中高效且通用地提取特征，彻底改变了医学成像领域。最近，自监督基础模型已扩展到三维(3D)计算机断层扫描(CT)数据，生成包含1408个特征的紧凑且信息丰富的嵌入，这些嵌入在颅内出血检测和肺癌风险预测等下游任务中达到了最先进的性能。然而，这些嵌入已被证明编码了年龄、性别和种族等人口统计数据，这对临床应用的公平性构成了重大风险。在此项工作中，我们提出了一种基于变分自编码器(VAE)的对抗性去偏置框架，以将这些嵌入转换到一个新的潜在空间，在该空间中不再编码人口统计数据，同时保持关键下游任务的性能。我们在NLST肺癌筛查数据集上验证了我们的方法，结果显示，去偏置嵌入有效地消除了多种编码的人口统计数据，并在1年和2年间隔内的肺癌风险预测准确性方面未损害性能。此外，我们的方法确保嵌入能够抵御对抗性偏置攻击。这些结果突显了对抗性去偏置技术确保自监督3D CT嵌入在临床应用中的公平性和平等性的潜力，为其在无偏医学决策中的更广泛采用铺平了道路。

发布时间: 2/10/2025

查看原文

全景激光雷达数据的自动化文本理解

作者: Naor Cohen, Roy Orfaig, Ben-Zion Bobrovsky

arXiv:2502.04385v1 宣告类型: cross 摘要：将LiDAR数据与文本联系起来的努力，例如LidarCLIP，主要集中在将3D点云嵌入到CLIP的文本-图像空间中。然而，这些方法依赖于3D点云，这在编码效率和神经网络处理方面带来了挑战。随着如Ouster OS1这类先进LiDAR传感器的出现，除了3D点云，还生成固定分辨率的深度数据、信号以及全景2D图像，为基于LiDAR的任务提供了新的机会。在这项工作中，我们提出了一种不同于将3D点云嵌入CLIP文本-图像空间的替代方法，而是利用Ouster OS1传感器生成的2D图像来连接LiDAR数据与文本。我们使用Florence 2大型模型，在零样本设置中进行图像描述生成和对象检测。我们的实验表明，Florence 2生成了更具信息量的描述，并在对象检测任务上优于现有方法如CLIP。通过将先进的LiDAR传感器数据与大型预训练模型结合，我们的方法为包括实时应用需要高准确性和鲁棒性在内的具有挑战性的检测场景提供了稳健且准确的解决方案。

发布时间: 2/10/2025

查看原文

增强推理以适应大型语言模型在特定领域应用

作者: Bo Wen, Xin Zhang

arXiv:2502.04384v1 Announce Type: 横向交叉摘要：本文介绍了SOLOMON，这是一种新颖的神经启发型大规模语言模型（LLM）推理网络架构，旨在增强基础模型在特定领域应用中的适应性。通过在半导体布局设计中的案例研究，我们展示了SOLOMON如何通过利用提示工程技术及上下文学习技术，使通用的LLM迅速适应专门任务。我们的实验揭示了LLM在空间推理和将领域知识应用于实际问题时面临的挑战。结果显示，SOLOMON实例显著优于基准LLM，并达到与先进推理模型o1-preview相当的性能。我们讨论了未来研究方向，以开发更多适应性强的AI系统，使其能够不断学习、适应并响应新的信息和变化的需求。

发布时间: 2/10/2025

查看原文

稀疏自编码器在假设生成中的应用

作者: Rajiv Movva, Kenny Peng, Nikhil Garg, Jon Kleinberg, Emma Pierson

arXiv:2502.04382v1 交叉类型公告摘要：我们描述了HypotheSAEs，这是一种通用方法，用于假设文本数据（例如，标题）与目标变量（例如，点击量）之间的可解释关系。HypotheSAEs有三个步骤：(1) 在文本嵌入上训练一个稀疏自编码器，以生成描述数据分布的可解释特征；(2) 选择预测目标变量的特征；(3) 使用大规模语言模型（LLM）生成每个特征的自然语言解释（例如，“提及惊讶或震惊的情况”）。每个解释都作为一种假设，说明什么预测目标变量。与基准方法相比，我们的方法在合成数据集上更好地识别了参考假设（至少在F1分数上提高0.06），并且在现实数据集上产生了更多的具有预测性的假设（约是先前基于LLM方法的两倍），尽管所需的计算量比最近的LLM基方法少一个到两个数量级的量级。HypotheSAEs还在两个广泛研究的任务中产生了新颖的发现：解释国会演讲中的立场差异以及识别在线头条新闻引起参与度的驱动因素。

发布时间: 2/10/2025

查看原文