arXiv 论文列表

增强加拿大地区的运营风降标定能力：条件沃森生成对抗网络方法的应用

作者: Jorge Guevara, Victor Nascimento, Johannes Schmude, Daniel Salles, Simon Corbeil-L\'etourneau, Madalina Surcel, Dominique Brunet

arXiv:2412.06958v2 宣告类型: 替换-交叉摘要: 风速下尺度处理对于提高天气预报的空间分辨率至关重要，特别是在运营数值天气预报（NWP）。本研究通过将 Annau 等人提出的 DownGAN 框架扩展到全球决定性预测系统（GDPS）和高分辨率决定性预测系统（HRDPS）的运营数据集，改进了风速下尺度处理。该研究涵盖了整个加拿大地域。通过将高分辨率静态协变量（如 HRDPS 获取的地形信息）整合到条件 Wasserstein 生成对抗网络（附加梯度惩罚）中，使用基于 UNET 的生成器实现，进一步提升了模型性能。遵循 DownGAN 框架，我们的方法将 GDPS 低分辨率预报（15 km，10 天视角）与 HRDPS 高分辨率预报（2.5 km，48 小时视角）以及来自计算机视觉领域的频率分离技术进行集成。通过在加拿大地区的稳健训练和推断，我们展示了该方法的运营可扩展性，实现了风速下尺度处理精度的显著提升。统计验证表明，与原始 DownGAN 相比，我们的方法在均方根误差（RMSE）和对数谱距离（LSD）指标上有所改进。高分辨率的条件协变量和频率分离策略对提升模型性能至关重要。本研究强调将高分辨率风速预报扩展到 48 小时以上时段的潜力，填补了 10 天低分辨率全球预报窗口的空白。

发布时间: 2/19/2025

查看原文

DSAI：以数据为中心的AI中的无偏且可解释的隐含特征提取

作者: Hyowon Cho, Soonwon Ka, Daechul Park, Jaewook Kang, Minjoon Seo, Bokyung Son

arXiv:2412.06303v2 数据科学家AI (DSAI)类型: 交叉替换摘要：大型语言模型（LLMs）往往难以客观地在大规模数据集中识别潜在特征，因为它们依赖预训练知识而非实际数据模式。为了解决这一数据关联问题，我们提出了数据科学家AI（DSAI），这是一种框架，通过具有可量化的突出度度量的多阶段管道实现无偏且可解释的特征提取。在具有已知真实特征的合成数据集中，DSAI在识别专家定义的特征方面表现出高召回率，并忠实地反映了底层数据。应用于实际数据集的例子展示了该框架在最少专家监督的情况下发现有意义模式的实际用途，支持可解释分类等应用场景。我们论文的标题是基于DSAI生成的标准从多个候选者中选择的。

发布时间: 2/19/2025

查看原文

BESSTIE：英语变体的情感和讽刺分类基准

作者: Dipankar Srirag, Aditya Joshi, Jordan Painter, Diptesh Kanojia

arXiv:2412.04726v2 宣布类型: replace-cross 摘要: 尽管大型语言模型（LLMs）已知会对非主流方言表现出偏见，但目前还没有用于英语情感分析的标注数据集。为解决这一问题，我们介绍了 BESSTIE，一个针对三种不同英语变体的情感和讽刺分类基准：澳大利亚英语（en-AU）、印度英语（en-IN）和英式英语（en-UK）。利用来自两个领域的网页内容，即 Google 地点评论和 Reddit 讨论，我们使用基于位置和基于话题的筛选方法收集这些语言变体的数据集。该语言变体的母语者手动为这些数据集标注情感和讽刺标签。为了评估数据集是否准确地代表这些变体，我们进行了两个验证步骤：（a）手动标注语言变体和（b）自动语言变体预测。随后，我们对这九个大型语言模型（LLMs）（包括不同编码/解码器和单/多种语言模型的代表）进行了微调，并在两个任务上评估了它们的性能。我们的结果显示，这些模型在内圈变体（即 en-AU 和 en-UK）上的表现更为一致，而 en-IN 的表现显著下降，特别是在讽刺检测方面。我们还报告了跨变体泛化方面的挑战，强调需要像我们的特定于语言变体的数据集。BESSTIE 有望成为一个有用的评价基准，用于未来公平的 LLMs 研究，特别是在语言变体方面。接受后，BESSTIE 数据集、代码和模型将公开提供。

发布时间: 2/19/2025

查看原文

基于统计视角的选择性回顾：AI 中的多臂 bandit 问题

作者: Pengjie Zhou, Haoyu Wei, Huiming Zhang

arXiv:2412.02251v2 宣告类型: 替换-交叉摘要：强化学习（RL）是人工智能中一个广泛研究的领域，专注于通过与环境的交互来训练代理进行决策。其中的关键子领域包括随机多臂 bandit (MAB) 问题和连续多臂 bandit (SCAB) 问题，它们用于在不确定性条件下建模序列决策。本文概述了 bandit 问题的基础模型及其假设，探讨了非渐近理论工具，如集中不等式和最小最大后悔界，并比较了处理探索-利用权衡的频率和贝叶斯算法。此外，本文探讨了 K-armed 上下文 bandit 和 SCAB，重点介绍了它们的方法论及其后悔分析。我们还考察了 SCAB 问题与泛函数据分析之间的联系。最后，本文突出了该领域的最新进展和持续的挑战。

发布时间: 2/19/2025

查看原文

EEG 基模型的图适配器及其参数高效微调

作者: Toyotaro Suzumura, Hiroki Kanezashi, Shotaro Akahori

arXiv:2411.16155v2 宣告类型: replace-cross 摘要: 在从脑电图（EEG）数据诊断神经疾病时，已经采用了基础模型如变压器来捕捉时间动态。此外，图神经网络（GNNs）对于表示EEG传感器之间的空间关系至关重要。然而，为了同时捕捉时间和空间特征，微调这些大规模模型的计算成本通常非常高，尤其是在标注的EEG数据集有限的情况下。我们提出了一种参数高效的微调（PEFT）方法EEG-GraphAdapter (EGA)，旨在解决这些挑战。EGA作为基于GNN的模块集成到预训练的时间骨干模型中，冻结骨干部分，只允许适配器部分进行微调。这使得有效地获取EEG的空间表示成为可能，显著降低了计算开销和数据需求。在两个与医疗保健相关的下游任务（主要抑郁症（MDD）和异常检测（TUAB））上的实验评估表明，与骨干BENDR模型相比，EGA在F1分数上的表现提高了16.1%，突显了其在可扩展和准确的EEG基预测方面的潜力。

发布时间: 2/19/2025

查看原文

ToxiLab: 开源大语言模型生成合成毒性数据的效果如何؟

作者: Zheng Hui, Zhaoxiao Guo, Hang Zhao, Juanyong Duan, Lin Ai, Yinheng Li, Julia Hirschberg, Congrui Huang

arXiv:2411.15175v3 宣布类型: replace-cross 摘要：有效的有毒内容检测高度依赖于高质量和多样化的数据，这些数据是构建稳健内容审核模型的基础。合成数据已成为在各种NLP任务中训练模型的常见方法。然而，对于像仇恨言论检测这样高度主观的任务，其有效性仍然存在不确定性，之前的研究所取得的结果不一。本研究探讨了开源LLM在有害数据合成方面的潜力，利用受控提示和监督微调技术以提高数据质量和多样性。我们系统地评估了6个开源LLM在5个数据集上的表现，评估它们生成多样化、高质量有害数据的能力，同时尽量减少幻觉和重复现象。我们的结果显示，Mistral持续表现出色，而监督微调显著提高了数据可靠性和多样性。我们进一步分析了基于提示和微调的有害数据合成之间的权衡，讨论了实际部署的挑战，并强调了伦理问题。我们的研究结果表明，微调的开源LLM提供了可扩展且低成本的解决方案，以增强有毒内容检测数据集，为更易于访问和透明的内容审核工具铺平了道路。

发布时间: 2/19/2025

查看原文

richer 输出对应更富裕的国家：揭示生成故事和旅行推荐中的地理差异

作者: Kirti Bhagat, Kinshuk Vasisht, Danish Pruthi

arXiv:2411.07320v2 宣告类型: replace-cross 摘要：尽管有大量的研究检查语言模型在性别、种族、职业和宗教方面的偏见，地理性质的偏见相对较少被研究。一些最近的研究衡量大型语言模型在多大程度上编码了地理空间知识。然而，编码的地理知识（或缺乏）对现实应用的影响尚未被记载。在这项工作中，我们研究了两种需要地理知识的常见场景：（a）旅游推荐和（b）基于地理的故事生成。具体地，我们研究了五种流行的语言模型，在大约 10 万个旅游请求和 20 万个故事生成中，我们发现与较贫穷国家相关的旅游推荐较少独特且较少提及具体位置，而这些地区的故事情感上更常表现为艰苦和悲伤，与较富裕国家的故事情感相比。

发布时间: 2/19/2025

查看原文

针对卷积扰动的神经网络验证 via 参数化核

作者: Benedikt Br\"uckner, Alessio Lomuscio

arXiv:2411.04594v2 通知类型: replace-cross 摘要: 我们提出了一种方法，用于高效验证针对卷积扰动（如模糊或锐化）的神经网络。为了定义输入扰动，我们使用了广为人知的相机抖动、箱型模糊和锐化核。我们证明了这些核可以线性参数化，从而在保持所需核性质的前提下，可以调整扰动强度。为了在神经网络验证中利用这些参数化核，我们开发了一种高效的方法来将给定输入和这些参数化核进行卷积。此卷积的结果可以在验证设置中用于编码扰动，方法是在给定网络之前增加一个线性层。这导致了紧致的边界和结果验证步骤的高有效性。我们通过采用输入分割作为分支定界策略来进一步提高精度。我们演示了在一系列标准基准上验证鲁棒性的能力，而基线则无法提供任何安全证明。据我们所知，这是第一个针对特定卷积扰动（如相机抖动）验证鲁棒性的解决方案。

发布时间: 2/19/2025

查看原文

WASHtsApp — 一个基于RAG的WhatsApp聊天机器人，用于支持农村非洲地区清洁水获取、卫生设施和卫生习惯

作者: Simon Kloker, Alex Cedric Luyima, Matthew Bazanya

arXiv:2411.02850v2 通知类型: 替换-交叉摘要：本文介绍了WASHtsApp，这是一种基于WhatsApp的聊天机器人，旨在教育非洲农村社区有关清洁水源、卫生设施和卫生（WASH）原则。WASHtsApp利用检索增强生成（RAG）方法来解决以往方法存在的接触有限或缺乏上下文的问题。论文详细描述了开发过程，采用设计科学研究方法论。评估分为两个阶段：由四位WASH专家进行的内容验证和由潜在用户进行的社区验证。内容验证确认了WASHtsApp提供准确和相关WASH信息的能力。社区验证表明，聊天机器人具有很高的用户接受度和实用性。论文最后一部分讨论了进一步开发的潜力，包括融入当地语言和用户数据分析以实现有针对性的干预措施。此外，还提出了以更广泛的部署为目标并利用用户数据进行教育的研究周期。

发布时间: 2/19/2025

查看原文

Varco球馆：一种参考无损的大语言模型基准测评方法

作者: Seonil Son, Ju-Min Oh, Heegon Jin, Cheolhun Jang, Jeongbeom Jeong, Kuntae Kim

arXiv:2411.01281v2 声明类型: replace-cross 摘要: 大多数现有的大语言模型（LLMs）输出质量评估基准方法依赖于将LLM响应与预定义的参考进行比较。这些基于静态数据集的方法随着LLM能力和应用场景的发展而迅速过时。在本项工作中，我们引入了VARCO Arena——一种新颖、成本效益高且 robust 的基准评估方法，它利用单淘汰赛机制来最小化所需的比较次数，同时消除了对静态参考或昂贵的人工标注的依赖。我们通过两个实验对这种方法进行了验证：(i) 一项模拟研究，探讨其在各种条件下的 robust 性，以及 (ii) 一项使用公开可用的基准提示进行的实际评估。在这两个实验中，VARCO Arena 始终优于当前的LLM基准评估实践，实现了与人类设定的Elo等级更强的相关性。我们的结果显示，VARCO Arena 不仅能产生可靠的LLM排名，还能提供一种可扩展且适应性强的解决方案，适用于多种定制化的定性评估用例。

发布时间: 2/19/2025

查看原文