arXiv 论文列表

作者: Ahmed Aboulfotouh, Elsayed Mohammed, Hatem Abou-Zeid

arXiv:2504.14100v1 无线基础模型类型: 交叉摘要：本文介绍了WavesFM，这是一种新颖的无线基础模型（WFM）框架，能够支持广泛范围的通信、传感和定位任务。我们提出的架构结合了一个共享的视觉变换器（ViT）骨干网和任务特定的多层感知器（MLP）头部，并引入了低秩适应（LoRA）以实现参数高效的微调。此设计在不牺牲性能的情况下实现了任务之间的全面参数共享，显著减少了计算和内存开销。该模型处理包括频谱图和信道状态信息（CSI）在内的图像类无线模态，以及按正交频分复用（OFDM）资源网格排列的同相和正交（IQ）信号。我们通过在四个下游任务上的大量实验展示了WavesFM的强大泛化能力：第五代新无线电（5G NR）定位；多输入多输出正交频分复用（MIMO-OFDM）信道估计；人体活动传感；以及射频（RF）信号分类。与单独训练的监督基线相比，我们的方法在共享其参数的80%的情况下实现了更好的性能。此外，我们还展示了在相关领域数据上的预训练不仅可以提高性能，还能加速收敛，将训练时间最多缩短5倍。这些结果表明，我们统一的WFM能够支持多种任务，并在性能和效率方面取得显著提升，突显了基础模型在驱动未来第六代（6G）网络中的AI原生范式方面的变革潜力。

发布时间: 4/22/2025

查看原文

使用AI驱动的问题推荐提升LMS中的数学学习

作者: Justus R{\aa}munddal

arXiv:2504.14098v1 类型: cross 摘要: 本文介绍了一种基于AI的方法，通过推荐相似的数学问题来增强现代学习管理系统(LMS)中的数学学习。使用Meta的Llama-3.2-11B-Vision-Instruct模型生成数学问题的深度嵌入，并应用余弦相似度、自我组织映射(SOM)和高斯混合模型(GMM)三种推荐方法来识别相似的问题。使用用户互动数据，包括会话时长、响应时间和正确性，来评估这些方法。我们的研究发现，虽然余弦相似度产生几乎相同的题目匹配，但SOM提供了更高的用户满意度，而GMM普遍表现不佳，表明在一定程度上引入多样性可能会提高参与度并进而潜在提高学习效果，直到多样性不再合理平衡为止，我们的数据在所有三种方法的实施中都证明了这一点。

发布时间: 4/22/2025

查看原文

基于概念的模型中的泄漏与可解释性

作者: Enrico Parisini, Tapabrata Chakraborti, Chris Harbron, Ben D. MacArthur, Christopher R. S. Banerji

arXiv:2504.14094v1 类别：交叉科学摘要：概念瓶颈模型旨在通过预测高层中间概念来提高可解释性，这为在高风险场景中部署提供了有希望的方法。然而，它们已知会受到信息泄露的问题困扰，即模型会利用在学习概念中编码的未预期信息。我们引入了一种信息论框架，以严格表征和量度泄露，并定义了两个互补的指标：概念任务泄露（CTL）得分和概念间泄露（ICL）得分。我们表明，这些指标在干预下的模型行为可预测性很强，并且在稳健性和可靠性方面优于现有替代方法。使用此框架，我们识别了泄露的主要原因，并提供了强烈证据表明，无论超参数选择如何，概念嵌入模型都会表现出显著的泄露。最后，我们提出了实用的指导方针，旨在减少泄露并确保概念模型的可解释性。

发布时间: 4/22/2025

查看原文

逻辑树：结构化的证明探索，用于大型语言模型的连贯且严谨的逻辑推理

作者: Kang He, Kaushik Roy

arXiv:2504.14089v1 类型: cross 摘要：大型语言模型（LLMs）在各个领域中已经实现了令人瞩目的多步推理能力。然而，LLMs 在复杂的逻辑推理中仍然面临独特的挑战，具体表现为：（1）寻找证明需要系统性的探索和保持逻辑连贯性；（2）在包含大量前提的任务中，在每一步推理时找到合适的前提组合是固有的挑战。为了解决这些问题，我们提出了 LogicTree，这是一种推理时模块化框架，利用算法引导的搜索来自动化结构化的证明探索并确保逻辑连贯性。超越了思维树（ToT），我们将在 LogicTree 中加入缓存机制，以有效利用历史知识，防止推理停滞并减少冗余。此外，我们通过将前提搜索拆解为线性过程来解决前提搜索的组合复杂性。细化的前提选择限制了后续推理每一步最多只有一个演绎，增强了推理的粒度并强制实施严格的步步为营的推理。此外，我们引入了两种 LLM 完全自由的启发式方法，以实现优先级战略的证明搜索。在五个数据集上的实验结果表明，LogicTree 最优地扩展了推理时间的计算，实现了更高的证明准确性，分别在 GPT-4o 上相较于链式思维（CoT）和思维树（ToT）平均提高了 23.6% 和 12.5%。此外，在 LogicTree 中，GPT-4o 平均优于 o3-mini 7.6%。

发布时间: 4/22/2025

查看原文

通过可用性、用户体验和接受度指标评估MMM-C：一种音乐创作创意AI系统的交互效果

作者: Renaud Bougueng Tchemeube, Jeff Ens, Cale Plut, Philippe Pasquier, Maryam Safi, Yvan Grabit, Jean-Baptiste Rolland

arXiv:2504.14071v1 交叉类型：cross 摘要：随着人工智能（AI）的发展，人们在音乐等各种艺术领域中与AI合作创作的兴趣不断增加，因为AI驱动的系统经常能够生成与人类竞争力相当的艺术品。现在，这些系统对音乐实践的潜在影响正在被研究。我们对Multi-Track Music Machine (MMM)作为音乐创作中的合作AI工具的用户采用情况进行了全面评估。为了实现这一目标，我们在Steinberg的流行数字音频工作站（DAW）Cubase中整合了MMM，通过创建一个名为MMM-Cubase（MMM-C）的“1参数”插件接口，使人类与AI能够共同创作。我们提供了一种方法论组装，这是一种三部分的混合方法研究，用于衡量该系统在两个专业级别的作曲家群体中的可用性、用户体验和技术接受度。结果显示，系统具有积极的可用性和接受度评分。用户报告了使用该系统时的新颖性、惊喜感和易用性体验，同时也指出了生成音乐时接口的可控性和可预测性方面的限制。研究发现，两个用户群体之间没有显著差异。

发布时间: 4/22/2025

查看原文

一个具有就地硬件感知学习的CMOS概率计算芯片

作者: Jinesh Jhonsa, William Whitehead, David McCarthy, Shuvro Chowdhury, Kerem Camsari, Luke Theogarajan

arXiv:2504.14070v1 类型: cross 摘要：本文展示了一种受概率位物理启发的解算器，配置了440个自旋，并以一枚面积为0.44 mm²的芯片实现。通过电流模式实现神经元更新电路、模拟模块与数字模块的带通匹配的标准单元设计，以及为数字和模拟组件共享电源供应，实现了面积效率的最大化。使用基于硬件感知的对比发散算法在训练期间有效缓解了由这种方法引入的过程变异性引起的不匹配。我们验证了该芯片执行概率计算任务的能力，例如模型逻辑门和全加器，以及优化任务，例如最大化割，展示了其在人工智能和机器学习应用中的潜力。

发布时间: 4/22/2025

查看原文

被遮挡顺序语义实例分割

作者: Soroosh Baselizadeh, Cheuk-To Yu, Olga Veksler, Yuri Boykov

arXiv:2504.14054v1 宣告类型: cross 摘要：标准语义实例分割提供了来自单张图像的有用但本质上是二维的信息。为了使分析成为三维分析，通常需要将单目绝对深度估计与实例分割结合起来。然而，单目深度估计是一个困难的任务。相反，我们利用了一个更简单的单图像任务，基于遮挡的相对深度排序，提供更粗糙但有用的三维信息。我们发现相较于绝对深度，相对深度排序从遮挡中获得信息更可靠。我们提出了一种解决基于遮挡的相对深度排序和实例分割联合任务的方法。我们将这一任务称为基于遮挡的有序语义实例分割（OOSIS）。我们开发了一种解决OOSIS的方法，该方法从定向遮挡边界和语义分割中同时提取实例及其遮挡顺序。与流行的基于检测-分割框架的实例分割方法不同，将遮挡排序与实例分割结合起来，使OOSIS作为一个标签问题有了简单明了的表述。作为我们解决OOSIS方案的一部分，我们开发了一种新颖的定向遮挡边界方法，其性能显著优于先前的工作。我们还开发了一种新的联合OOSIS度量标准，该度量标准既基于实例掩码的准确性，也基于其遮挡顺序的正确性。我们在KINS和COCOA数据集上实现了优于强基线模型的性能。

发布时间: 4/22/2025

查看原文

Airbnb评论的情感分析：探索其对多个美国地区接受率和定价的影响

作者: Ali Safari

arXiv:2504.14053v1 交叉发布类型: cross 摘要：这项研究探讨了Airbnb租客的正面和负面评论是否影响六个美国地区的接受率和租金价格：罗得岛州、布劳沃德县、芝加哥、达拉斯、圣地亚哥和波士顿。收集并分析了数千条评论，并使用自然语言处理（NLP）将情感分类为正面或负面，随后进行了统计测试（t检验和基础相关分析）以分析平均评分。研究发现，在每个地区，超过90%的评论是正面的，这表明增加额外的评论并不会显著提高价格。然而，主要具有正面反馈的房源表现出略高的接受率，表明情感极性比评论的数量对房东的成功更为关键。此外，经济型房源通常会收集大量评论并保持竞争力的价格，而高端房源则通过少量但高度正面的评论维持较高的价格。这些结果强调了在大量正面评论的环境中，情感质量比数量对客人行为和定价策略的影响更为重要。

发布时间: 4/22/2025

查看原文

带有温度条件的法国电负荷曲线合成数据集

作者: Tahar Nabil, Ghislain Agoua, Pierre Cauchois, Anne De Moliner, Beno\^it Grossin

arXiv:2504.14046v1 宣布类型：交叉摘要：正在进行的能源转型正在改变用电行为，例如，本地发电的自我消耗或需求控制的灵活性服务。为了更好地理解这些变化及其引发的挑战，访问个人智能电表数据至关重要。然而，这些数据属于欧洲GDPR所规定的个人数据。因此，广泛使用此类数据需要创建合成的、现实且隐私保护的数据样本。本文引入了一个由条件潜在扩散生成的新合成负载曲线数据集。我们还提供了用于生成的数据集的合同功率、用电时间计划和本地温度。数据集的保真度、实用性和隐私性得到了彻底评估，证明了其高质量，并因此支持其在能源建模应用中的利益。

发布时间: 4/22/2025

查看原文

MEQA：一个问题与答案LLM基准的元评估框架

作者: Jaime Raldua Veuthey, Zainab Ali Majid, Suhas Hariharan, Jacob Haimes

arXiv:2504.14039v1 类别: cross 摘要: 随着大型语言模型（LLMs）的发展，它们对社会的广泛影响潜力也在同步增长。因此，严格评估LLMs既是技术上的必要，也是社会上的要求。尽管已经开发了许多评估基准，但在元评估方面仍然存在一个关键缺口：有效地评估基准的质量。我们提出MEQA，一种用于问题和答案（QA）基准的元评估框架，以提供标准化评估、可量化评分并促进基准内部有意义的比较。我们在网络安全基准上展示了这种方法，使用了人类和LLM评估者，指出了这些基准的优点和缺点。我们通过AI模型作为强大防护工具和安全威胁的双重性质来说明选择测试领域的动机。

发布时间: 4/22/2025

查看原文