arXiv 论文列表

作者: Torsten Tiltack

arXiv:2503.17401v3 宣告类型: replace-cross 摘要：环境 journalism 至关重要，对于提高人们对生态危机的意识和支持基于证据的政策具有重要作用，但传统方法存在延迟、可扩展性有限以及对未受充分监控的地区报道不足的问题。本文介绍了人工智能 journalism 综合模型（AIJIM），这是一项概念性和可转移的理论模型，其构建了实时、AI 支撑的环境 journalism 工作流。 AIJIM 结合了公民提供的图像数据、自动危险检测、双重验证（视觉和文本）以及 AI 生成的报道。通过在马洛卡进行的试点研究，AIJIM 在提高报道速度和准确性方面取得了显著进步，同时通过可解释的人工智能（XAI）、GDPR 合规性和社区审查保持了透明度和伦理监督。该模型展示了高度的可转移性，并为在环境沟通与人工智能交汇处实现可扩展、负责任和参与性的 journalism 提供了一个新的基准。

发布时间: 4/9/2025

查看原文

TULIP: 向统一语言-图像预训练目标迈进

作者: Zineng Tang, Long Lian, Seun Eisape, XuDong Wang, Roei Herzig, Adam Yala, Alane Suhr, Trevor Darrell, David M. Chan

arXiv:2503.15485v2 宣告类型: 替换交叉摘要：尽管像CLIP和SigLIP这样的图像-文本对比模型最近取得了成功，但这些模型在要求高保真图像理解的任务上常常表现不佳，例如计数、深度估计和细粒度对象识别。通过进行语言对齐，这些模型倾向于优先考虑高阶语义而非视觉理解，从而削弱了它们的图像理解能力。另一方面，专注于视觉的模型在处理视觉信息方面表现出色，但在理解语言方面存在困难，限制了它们在以语言为导向的任务上的灵活性。在这项工作中，我们引入了TULIP，一个开源的、可插入替代现有CLIP类模型的方法。我们的方法利用生成性数据增强、增强的图像-图像和文本-文本对比学习以及图像/文本重建正则化，同时学习细粒度的视觉特征并保留全局语义对齐。我们的方法扩展到超过1亿参数，跨多个基准测试优于现有的最佳模型（SOTA），在ImageNet-1K上建立了一项新的零样本性能，在RxRx1上的线性探针少样本分类中对SigLIP的性能增强最高可达2倍，并在MMVP上比SigLIP的得分提高超过3倍。我们的代码/检查点可在 https://tulip-berkeley.github.io 获得。

发布时间: 4/9/2025

查看原文

绿色提示

作者: Marta Adamska, Daria Smirnova, Hamid Nasiri, Zhengxin Yu, Peter Garraghan

arXiv:2503.10666v2 宣告类型: replace-cross 摘要：大型语言模型（LLMs）已在搜索引擎、代码生成和文本生成等多个领域得到了广泛应用。然而，它们的采用面临的主要问题之一是推理成本高昂，这影响了它们的可持续性和经济可行性。在本研究中，我们通过实证研究不同提示和响应特征如何直接影响LLM推理能耗。我们利用三种开源的基于变换器的LLM，针对三种任务类型——问答、情感分析和文本生成进行了实验。对于每次推理，我们分析了提示和响应的特征（长度、语义含义、耗时、能耗）。我们的结果表明，即使面对相同的任务，模型生成的响应具有不同的特征，并且随后展现出不同的能耗模式。我们发现，提示长度的差异在很大程度上不及任务本身的语义含义显著。此外，我们还识别出与特定任务相关的特定关键词，这些关键词在其关联任务中具有更高的或更低的能耗。这些发现突显了在优化推理效率方面提示设计的重要性。我们得出结论，提示的语义含义和某些任务相关的关键词对推理成本有显著影响，这将引导我们进一步探索创建能效适应性LLM的方法。

发布时间: 4/9/2025

查看原文

Search-R1：使用强化学习训练大语言模型进行推理和利用搜索引擎

作者: Bowen Jin, Hansi Zeng, Zhenrui Yue, Jinsung Yoon, Sercan Arik, Dong Wang, Hamed Zamani, Jiawei Han

arXiv:2503.09516v3 宣布类型: 替换-交叉摘要：高效地获取外部知识和最新的信息是对大型语言模型（LLMs）进行有效推理和文本生成的关键。直接在推理过程中使用具有推理能力的高级LLMs提示搜索引擎通常效果不佳，因为LLM可能不具备如何最优地与搜索引擎交互的能力。本文提出了Search-R1，这是一种扩展的强化学习（RL）方法，使LLM在逐步推理过程中通过实时检索自动生成（多个）搜索查询。Search-R1利用检索到的标记掩蔽优化LLM的推理轨迹，并采用基于简单结果的奖励函数进行稳定的RL训练。在七个问答数据集上的实验表明，在相同设置下，与各种RAG基线相比，Search-R1分别提高了Qwen2.5-7B 41%和Qwen2.5-3B 20%的表现。此外，本文还提供了关于检索增强推理中的RL优化方法、LLM选择及响应长度动态的实证见解。相关代码和模型检查点可在 https://github.com/PeterGriffinJin/Search-R1 获取。

发布时间: 4/9/2025

查看原文

分布式行业 prognostics 新框架：通过区块链和联邦学习增强公平性、安全性和透明度

作者: T. Q. D. Pham, K. D. Tran, Khanh T. P. Nguyen, X. V. Tran, L. K\"oehl, K. P. Tran

arXiv:2503.05725v2 宣告类型: replace-cross 摘要：随着全球行业向工业5.0转型，预测性维护(PM)对于成本效益运营、韧性和减少日益智能化制造环境中停机时间仍然至关重要。在这一章节中，我们探讨了联邦学习(FL)和区块链(BC)技术如何在去中心化和以人为本的工业生态系统中增强机器剩余使用寿命(RUL)的预测能力。传统的集中式数据方法在隐私、安全性和扩展性方面引发了担忧，尤其是在人工智能(AI)驱动的智能制造变得更为普遍的情况下。本章节利用联邦学习来实现多个站点的本地模型训练，同时利用区块链来确保网络中各方的信任、透明性和数据完整性。这种结合了区块链的联邦学习框架优化了RUL预测，增强了数据隐私和安全性，并建立了透明性，促进了去中心化制造中的合作。它解决了诸如保持隐私和安全、确保透明性和公平性以及激励去中心化网络中的参与等关键挑战。通过使用NASA CMAPSS数据集进行实验验证，展示了模型在现实世界场景中的有效性，并通过在GitHub上开源代码，将我们的发现扩展到更广泛的科研社区，邀请合作开发以推动工业5.0的创新。

发布时间: 4/9/2025

查看原文

一个综合框架及其新型指标，用于评估XAI技术在LLM中的有效性

作者: Melkamu Abay Mersha, Mesay Gemeda Yigezu, Hassan Shakil, Ali K. AlShami, Sanghyun Byun, Jugal Kalita

arXiv:2503.05050v2 宣告类型: replace-cross 摘要：日益增加的大型语言模型（LLM）的复杂性对它们的透明度和可解释性提出了重大挑战，需要使用可解释的人工智能（XAI）技术来提高可信度和易用性。本研究引入了一个全面的评估框架，其中包括四个新的度量标准，用于评估五种XAI技术在五个LLM和两个下游任务上的有效性。我们使用IMDB电影评论数据集和Tweet情感提取数据集对几种XAI技术（LIME、SHAP、集成梯度、逐层相关性传播（LRP）和注意机制可视化（AMV））进行了评估。评估的重点是四个关键度量标准：人工推理一致（HA）、稳健性、一致性以及对比性。我们的结果显示，LIME在多个LLM和评估指标上持续获得高分，而AMV在稳健性和近乎完美的一致性方面表现尤为出色。LRP在对比性方面表现出色，特别是在更复杂的模型中。我们的发现提供了不同XAI方法的优势和局限性的宝贵见解，为开发和选择适合LLM的适当XAI技术提供了指导。

发布时间: 4/9/2025

查看原文

DataMan: 大型语言模型预训练的数据管理器

作者: Ru Peng, Kexin Yang, Yawen Zeng, Junyang Lin, Dayiheng Liu, Junbo Zhao

arXiv:2502.19363v3 宣告类型: replace-cross 摘要：大数据规模法则驱动的大语言模型（LLMs）性能的出现，使得预训练数据的选择越来越重要。然而，现有的方法依赖于有限的经验法则和人类直觉，缺乏全面而清晰的指导方针。为了解决这一问题，我们受到了“逆向思考”的启发——提示LLMs自我识别哪些标准能提升其性能。由于其预训练能力与困惑度（PPL）有关，我们从文本困惑度异常的原因中推导出14个质量标准，并引入15个常见的应用领域以支持领域混合。在本文中，我们训练了一个数据管理器（DataMan），使其从点级别评分中学习质量评级和领域识别能力，并使用它为一个447B令牌的预训练语料库打上14个质量评级和领域类型。我们的实验验证了这种方法的有效性，使用DataMan选择30B令牌来训练一个参数量为1.3B的语言模型，展示了在上下文内学习（ICL）、困惑度和指令跟随能力方面与最先进的基准相比有显著改善。基于整体评分l=5的最优模型，在使用均匀采样训练的数据量多50%的情况下，仍然表现更优。我们继续使用DataMan注释的高评分、领域特定的数据进行预训练，以增强特定领域的ICL性能，从而验证了DataMan的领域混合能力。我们的研究强调了质量排名的重要性、质量标准的互补性以及它们与困惑度的低相关性，并分析了PPL与ICL性能之间的不一致。我们还详细分析了预训练数据集，检查了其构成、质量评分的分布以及原始文档来源。

发布时间: 4/9/2025

查看原文

2025年德国联邦选举前关于“中立”信息_AI工具的警示故事

作者: Ina Dormuth, Sven Franke, Marlies Hafer, Tim Katzke, Alexander Marx, Emmanuel M\"uller, Daniel Neider, Markus Pauly, J\'er\^ome Rutinowski

arXiv:2502.15568v2 通知类型: replace-cross 摘要: 在这项研究中，我们探讨了基于AI的投票建议应用程序(VAAs)和大型语言模型(LLMs)在提供客观政治信息方面的可靠性。我们的分析基于与Wahl-O-Mat的对比，Wahl-O-Mat是德国一个广泛使用的在线工具，通过将个人的观点与政党立场进行对比来帮助选民获得信息。对于LLMs，我们发现了显著的偏见。它们在平均超过75%的情况下与左翼政党高度一致，与中右翼政党（较低比例，小于50%）和右翼政党（约为30%）的契合度明显较低。此外，对于旨在客观向选民提供信息的VAAs，我们发现它们在Wahl-O-Mat中与政党声明的立场存在显著偏差：一个VAA在25%的情况下偏离，而另一个VAA在超过50%的情况下偏离。对于后者，我们甚至观察到简单的提示注入导致了严重的幻觉，包括虚假声明，如政治党派之间不存在的联系以及与右翼极端势力的牵连。

发布时间: 4/9/2025

查看原文

针对联邦遗忘的模型反转攻击

作者: Lei Zhou, Youwen Zhu

arXiv:2502.14558v3 宣布类型: replace-cross 摘要：随着“遗忘权”相关法规的出台，联邦学习（FL）正面临新的隐私合规挑战。为应对这些挑战，研究人员提出了联邦遗忘（FU）。然而，现有的FU研究主要集中在提高遗忘效率方面，较少关注这些方法中固有的潜在隐私漏洞。为弥补这一差距，我们从联邦学习中的梯度反转攻击中汲取灵感，提出了联邦遗忘反转攻击（FUIA）。FUIA 特别针对三种类型的FU（样本遗忘、客户端遗忘和类别的遗忘），旨在全面分析FU相关的隐私泄露风险。在FUIA中，服务器扮演一个诚实但好奇的攻击者角色，记录并利用在遗忘前后模型的差异，从而揭示被遗忘数据的特征和标签。FUIA 显著泄露了被遗忘数据的隐私，并能针对所有类型的FU。这种攻击与FU消除特定数据影响的目标相反，而是利用其漏洞来恢复被遗忘的数据并暴露其隐私缺陷。大量实验结果表明，FUIA 能够有效地揭示被遗忘数据的私人信息。为减轻这种隐私泄露问题，我们还探索了两种潜在的防御方法，尽管这会降低遗忘的有效性和学习后模型的可用性。

发布时间: 4/9/2025

查看原文

REFIND 在 SemEval-2025 任务 3：在大型语言模型中检索增强的事实幻觉检测

作者: DongGeon Lee, Hwanjo Yu

arXiv:2502.13622v2 种植类型: 替换-交叉摘要：大型语言模型（LLM）输出中的幻觉严重限制了其在知识密集型任务（如问答）中的可靠性。为了解决这一挑战，我们引入了REFIND（检索增强事实幻觉检测）框架，该框架通过直接利用检索到的文档来检测LLM输出中的幻觉片段。作为REFIND的一部分，我们提出了上下文灵敏度比（CSR，Context Sensitivity Ratio），这是一种新的度量标准，用于量化LLM输出对检索到的证据的敏感性。这一创新方法使REFIND能够高效且准确地检测幻觉，使其区别于现有方法。在评估中，REFIND在九种语言中表现出了稳健性，包括低资源设置，并显著优于基线模型，实现了更高的识别幻觉片段的IoU分数。本项工作突显了量化上下文灵敏度对于幻觉检测的有效性，从而为不同语言的更可靠和可信赖的LLM应用铺平了道路。我们的代码可从https://github.com/oneonlee/REFIND 获取。

发布时间: 4/9/2025

查看原文