arXiv 论文列表

作者: Avanija Menon, Ovidiu Serban

arXiv:2505.05494v1 类型: cross 摘要：欧洲联盟毁林法规（EUDR）要求公司证明其产品不会导致毁林，从而产生了对精确的、资产级的环境影响数据的迫切需求。现有数据库缺乏必要的细节，依赖于广泛的财务指标和手动数据收集，这限制了监管合规性和准确的环境建模。本研究提出了一种自动化、端到端的数据提取管道，利用大规模语言模型（LLMs）创建、清洗和验证结构化的数据库，特别针对那些毁林风险较高的行业。该管道引入了基于指令、基于角色、零样本链式思考（IRZ-CoT）的提示，以提高数据提取准确性，并引入了检索增强验证（RAV）过程，该过程结合了实时网络搜索以提高数据可靠性。该管道应用于矿业、石油和天然气以及公用事业领域的SEC EDGAR申报文件时，与传统的零样本提示方法相比，特别是在提取准确性和验证覆盖率方面，显示出了显著的改进。本研究推进了自然语言处理驱动的自动化在监管合规、企业社会责任（CSR）和ESG方面的应用，具有广泛的行业适用性。

发布时间: 5/12/2025

查看原文

DetoxAI：计算机视觉中去偏见深度学习模型的Python工具包

作者: Ignacy St\k{e}pka, Lukasz Sztukiewicz, Micha{\l} Wili\'nski, Jerzy Stefanowski

arXiv:2505.05492v1 Announce Type: cross 摘要：虽然近年来机器学习公平性取得了显著进展，但现有的大多数解决方案主要关注表数据，而对于高度依赖深度学习的基于视觉的分类任务，则适应性较差。为弥合这一差距，我们介绍了DetoxAI，这是一个开源的Python库，用于通过事后去偏见来提高深度学习视觉分类器的公平性。DetoxAI 实现了最先进的去偏见算法、公平性指标和可视化工具。它支持通过内部表示的干预来进行去偏见，并包括基于归因的可视化工具和定量的算法公平性指标，以展示偏见是如何被缓解的。本文介绍了DetoxAI 的动机、设计和应用场景，证明了其对工程师和研究人员的实际价值。

发布时间: 5/12/2025

查看原文

基于Mamba的动态双分支融合网络用于交通标志检测

作者: TianYi Yu

arXiv:2505.05491v1 交叉类型：cross 摘要：小物体检测，尤其是交通标志检测，是目标检测和自动驾驶中的一个关键子任务。尽管之前的研究取得了显著的进步，但仍存在两个主要挑战。首先，特征提取过于单一。其次，检测过程在处理不同大小或尺度的对象时效果不佳。这些问题在一般的对象检测任务中也同样普遍存在。为了解决这些挑战，我们提出了一种新的基于Mamba的动态双融合网络（MDDFNet），用于交通标志检测。该网络结合了一个动态双融合模块和一个基于Mamba的主干网络，同时解决了上述问题。具体来说，动态双融合模块利用多个分支融合各种空间和语义信息，从而增强特征多样性。基于Mamba的主干网络利用全局特征融合和局部特征交互，以适应的方式结合特征以生成独特的分类特征。在TT100K（清华-腾讯100K）数据集上进行的广泛实验表明，MDDFNet在保持单阶段模型的实时处理能力的同时，实现了更好的性能。这证实了MDDFNet在检测小交通标志方面的有效性。

发布时间: 5/12/2025

查看原文

FedAvgen：通信系统中的模型聚合元数据

作者: Anthony Kiggundu, Dennis Krummacker, Hans D. Schotten

arXiv:2505.05486v1 宣告类型: cross 摘要: 为了提高业务效率并最小化成本，人工智能 practitioners 们已经从从头构建模型转向共享预训练模型。这些预训练模型随后被聚合到一个具有更高泛化能力的全球模型中，该模型之后被分发到客户端设备上。这种方法称为联邦学习，并且会内在地使用不同的技术来选择用于获得全球模型的候选客户端模型。在通信系统的情况下，这一方法会面临由于设备配置的多样性而带来的挑战。配置的多样性促使我们将一种元启发式算法（FedAvgen）的概念评估应用于基因型和表型，其中预训练模型与其权重空间对应于表型，而权重空间本身对应于基因型。这种父代-子代的遗传进化特性描述了联邦学习中的全局平均步骤。随后，我们比较了我们方法的结果与两种广泛采用的基线联邦学习算法（Federated Averaging (FedAvg) 和 Federated Stochastic Gradient Descent (FedSGD)）的结果。

发布时间: 5/12/2025

查看原文

结构与质量：心灵-身体问题的conceptual和formal基础

作者: Ryan Williams

arXiv:2505.05481v1 类型: cross 摘要：本文从不同的视角探讨了意识这个难解的问题。与其区分物理与心理，本文探讨了更为基础的关系：结构与质量之间的关系。发展了信息论度量来量化结构与质量间的相互决定性，包括一个新颖的Q-S空间，用于分析两个领域之间的忠实度。这种新颖的空间自然指向了结构与质量属性之间可能的五种分类，通过概念和形式模型来阐述每种分类。探讨了每种分类的本体论含义，阐明了关于功能主义、涌现主义、唯心主义、泛心主义和中立一元论的争论。这一新的研究路径为我另一篇论文《质料与自然选择》中探讨的正在进化中的质料系统理论约束提供了框架。

发布时间: 5/12/2025

查看原文

CLAM：连续潜在动作模型用于无标注演示的机器人学习

作者: Anthony Liang, Pavel Czempin, Matthew Hong, Yutai Zhou, Erdem Biyik, Stephen Tu

arXiv:2505.04999v1 宣告类型: cross 摘要：使用模仿学习学习机器人策略需要收集大量昂贵的动作标记专家演示，这从根本上限制了训练数据的规模。解决这一瓶颈的一个有希望的方法是利用大量未标记的观察数据（例如，来自视频演示的数据），以无监督的方式学习潜在的动作标签。然而，我们发现现有方法在应用于需要精细运动的复杂机器人任务时存在困难。我们设计了连续潜在动作模型（CLAM），该模型包含两个我们认为对于从未标记观察数据中学习解决复杂连续控制任务所必要的关键成分：(a) 使用连续潜在动作标签而不是离散表示，(b) 联合训练一个动作解码器，以确保潜在的动作空间可以相对较少的标记示例为基础，容易地与真实动作对应。重要的是，标签示例可以来自非最优游戏数据，从而使 CLAM 能够在不访问任何动作标记专家数据的情况下学习表现良好的策略。我们在 DMControl（运动）和 MetaWorld（ manip 操作）的连续控制基准测试上以及真实 WidowX 机器人臂上展示了 CLAM 显著优于先前最先进的方法，令人惊讶地在任务成功率上提高了 2-3 倍。相关视频和代码可以在 clamrobot.github.io 找到。

发布时间: 5/12/2025

查看原文

神经符号概念

作者: Jiayuan Mao, Joshua B. Tenenbaum, Jiajun Wu

arXiv:2505.06191v1 通告类型: 新摘要: 本文提出了一种以概念为中心的框架，用于构建能够不断学习和灵活推理的代理。概念为中心的代理利用了一套神经符号概念的词汇表。这些概念，如对象概念、关系概念和动作概念，基于感官输入和执行输出。它们还具有组合性，可以通过结构组合创建新的概念。为了促进学习和推理，这些概念被分成了类型，并通过符号程序和神经网络表示的结合来进行表示。利用这样的神经符号概念，代理可以高效地学习和重新组合它们，以解决不同领域中的各种任务，从2D图像、视频、3D场景到机器人操作任务。这种以概念为中心的框架具有多种优势，包括数据效率、组合泛化、连续学习和零样本迁移。

发布时间: 5/12/2025

查看原文

自由公正的硬件：使用LLM实现版权侵犯-free Verilog生成途径

作者: Sam Bush, Matthew DeLorenzo, Phat Tieu, Jeyavijayan Rajendran

arXiv:2505.06096v1 说明类型: 新摘要：大型语言模型（LLM）在硬件设计任务方面的局限性，例如生成功能性Verilog代码，促使研究人员利用开放源代码仓库中精心挑选的硬件数据集进行各种微调优化。然而，这些数据集仍然规模有限，并且在再利用时缺乏版权许可检查，这可能导致微调后的LLM侵犯版权。因此，我们提出了一种评估基准来估算Verilog训练的LLM生成受版权保护代码的风险。为了最小化这种风险，我们提供了一个包含超过22万个文件的开源Verilog数据集FreeSet，同时还提供了自动数据集管理框架，以提供更多关于公平使用Verilog数据的保障。然后，我们执行了一个微调框架，包括持续的预训练，从而获得了一个用于Verilog的微调后Llama模型，称为FreeV。我们的结果显示，FreeV在先前作品中表现出最小的版权侵权风险，仅违反了3%的版权。此外，实验结果还显示，与基准模型相比，FreeV在Verilog生成功能上有所改进，ViVerilogEval pass@10得分提高了超过10%。

发布时间: 5/12/2025

查看原文

Seqret:从事件序列中挖掘规则集

作者: Aleena Siji, Joscha C\"uppers, Osman Ali Mian, Jilles Vreeken

arXiv:2505.06049v1 宣告类型: 新摘要: 摘要：事件序列的总结是数据挖掘的关键方面。大多数现有方法忽略了条件依赖性，仅关注发现序列模式。本文研究了从事件序列数据中发现既条件又无条件依赖性的问题。我们通过发现形如 \(X \rightarrow Y\) 的规则来解决这个问题，其中 \(X\) 和 \(Y\) 是序列模式。这类规则易于理解，并清楚地描述了前提和结果之间的关系。为了发现简明且无重复的规则集，我们从最小描述长度原则的角度形式化了该问题。由于搜索空间巨大且缺乏有帮助的结构，我们提出了Seqret方法以在实践中发现高质量的规则集。通过广泛的实证评估，我们展示了与现有最先进的方法不同，Seqret能够恢复合成数据集中的真实情况，并从真实数据集中发现有用的规则。

发布时间: 5/12/2025

查看原文

你为什么错了？基于3D物体的语言定位反事实解释

作者: Tobias Preintner, Weixuan Yuan, Qi Huang, Adrian K\"onig, Thomas B\"ack, Elena Raponi, Niki van Stein

arXiv:2505.06030v1 Announce Type: 新 Abstract: 将自然语言与几何形状结合起来是机器人技术和基于语言的设计领域中的一个新兴研究领域，具有多种应用。在这个领域中，一个关键任务是对象目标识别，即根据目标的文本描述选择一个3D对象。3D对象的语言描述和空间关系的变异性使这个任务变得复杂，增加了更好地理解在这个领域中神经网络模型行为的需要。然而，在这个领域中进行的研究有限。具体来说，当模型在提供看似正确的对象描述后仍做出错误预测时，实践者会想知道：“模型为什么错了？”在本文中，我们提出了一种方法来回答这个问题，通过生成反事实示例。该方法接受一个分类错误的样本，其中包括两个对象和一个文本描述，并生成一个替代但相似的表述，该表述会导致模型做出正确的预测。我们使用ShapeTalk数据集的数据以及三个不同的模型评估了我们的方法。我们的反事实示例保持了原始描述的结构，具有语义上的相似性和意义。它们揭示了描述中的弱点、模型偏见，并增强了对模型行为的理解。这些见解有助于实践者更好地与系统交互，也有助于工程师改进模型。

发布时间: 5/12/2025

查看原文