arXiv:2502.12398v1 宣告类型:交叉学科
摘要:我们提出了一种新的方法,使最终用户能够直接自己解决冷启动问题。冷启动问题是推荐系统中的一个常见问题,许多方法已被提出,用于从提供者的角度解决该问题。然而,当提供者不采取行动时,用户会收到质量不佳的推荐,且没有改进体验的方法。我们提出了一种算法——Pretender,允许最终用户主动解决冷启动问题。Pretender 不需要服务提供者的任何特殊支持,用户可以独立部署。我们将问题形式化为最小化源分布和目标分布之间的距离,并据此优化目标服务中的项目选择。此外,我们基于离散积分问题为Pretender建立了理论保证。我们在现实世界的数据集上进行了实验,以证明Pretender的有效性。
arXiv:2502.12397v1 类型: cross
摘要: 数字信息的访问是经济增长的驱动力。尽管撒哈拉以南非洲地区85%的人口能够接收到移动宽带信号,但只有37%的人使用互联网,而且其中大多数人很少使用网络。我们通过分析469名塞拉利昂教师使用AI聊天机器人的使用情况,探讨AI是否能够弥合这一差距。该聊天机器人可通过一个常见的即时消息应用访问,并与传统的网络搜索进行了对比。教师们比网络搜索更经常使用AI进行教学辅助。数据显示成本是最频繁提及的低互联网使用率的原因之一,在非洲,数据费用是影响互联网使用的主要因素。平均而言,一个网页搜索结果消耗的数据是AI回复的3,107倍,因此AI比网络搜索便宜87%。此外,对应网页搜索的三分之一结果不包含塞拉利昂的内容。在盲测评估中,一组独立的教师样本将AI回复的准确性、相关性和帮助性评分高于网页搜索结果。这些发现表明,基于AI的解决方案能够在低连通性地区有效地弥合信息缺口。
arXiv:2502.12393v1 宣告类型:交叉
摘要:在时间序列数据中估计治疗效应是一项重大挑战,特别是在控制组始终无法观察到的情况下。例如,在分析圣诞节对零售销售的影响时,我们缺乏圣诞节影响下12月下旬如果没有圣诞节效应会发生什么的直接观察。为了解决这一问题,我们尝试在事件期内恢复控制组,同时考虑混杂因素和时序依赖性。在M5沃尔玛零售销售数据上的实验结果表明,可以稳健地估计控制组的潜在结果以及准确预测节日效应。此外,我们还提供了对估计治疗效应的理论保证,证明了其一致性及渐近正态性。提出的这种方法不仅适用于始终缺失的控制组场景,还适用于其他常规时间序列因果推断场景。
arXiv:2502.12386v1 安全类型:交叉
摘要:人工智能(AI)技术与系统已经取得了快速发展。然而,确保这些系统的可靠性对于增强公众对其使用信心至关重要。这需要对AI系统的可靠性数据进行建模和分析。AI可靠性研究中的一个主要挑战,尤其是对于学术界的研究人员来说,是没有现成的可用的AI可靠性数据。为了解决这一缺口,本文集中于对可用的AI可靠性数据进行全面审查,并建立了DR-AIR:一个AI可靠性数据存储库。具体而言,我们介绍了用于评估AI可靠性的关键测量和数据类型,以及收集这些数据的方法学。我们还提供了当前可用数据集的详细描述,并附有示例说明。此外,我们概述了DR-AIR存储库的设置,并展示了其实际应用。该存储库为AI可靠性研究提供了容易访问的数据集。我们认为这些努力将极大地促进AI研究社区,通过提供宝贵的可靠性数据访问途径,并促进跨各种AI学术领域的合作。在论文结尾,我们提出了一个行动号召,鼓励研究社区贡献和分享AI可靠性数据,以进一步促进这一关键领域的研究。
arXiv:2502.12382v1 宣布类型: 交叉
摘要:物联网(IoT)的快速增长已经彻底改变了各个行业,使其具备前所未有的连接性和功能性。然而,这种扩张也增加了脆弱性,使IoT网络面临日益复杂的网络攻击。入侵检测系统(IDS)对于缓解这些威胁至关重要,而最近在机器学习(ML)领域的进展为改进提供了有希望的道路。本研究探索了一种混合方法,将多个独立的机器学习模型,如随机森林(RF)、XGBoost、K-最近邻(KNN)和AdaBoost,结合在一个基于投票的混合分类器中,以有效地进行物联网入侵检测。这种方法利用单一算法的优势,提高了准确性,并解决了数据复杂性和可扩展性方面的挑战。使用广泛引用的IoT-23数据集,一个在物联网网络安全研究中公认的基准,我们评估了我们的混合分类器在二元和多类入侵检测问题中的性能,确保与现有文献进行公平比较。结果表明,我们提出的一系列混合模型,旨在提高鲁棒性和可扩展性,在物联网环境中优于单独的方法。本工作为开发能够应对不断演变的网络威胁的高级智能IDS框架做出了贡献。
arXiv:2502.12373v1 宣告类型: cross
摘要:软机器人技术已成为搜救(SAR)操作中的颠覆性技术,解决了传统刚性机器人在复杂、危险环境中的导航限制问题。本文从适应性、安全性和效率的独特能力角度,批判性地探讨了适用于SAR应用的软机器人技术的进步。通过利用生物启发设计、柔性材料以及爬行、滚动和形状变形等先进的运动机制,软机器人在灾难场景中展现了优异的潜力。然而,仍存在一些重大障碍,包括材料的耐久性、能量效率低、传感器集成以及控制复杂性。本文综述了当前软机器人在SAR中的现状,讨论了仿真方法和硬件验证,并介绍了其评估所需的关键性能指标。通过弥合理论进步与实际部署之间的差距,本研究强调了软机器人系统在变革SAR任务中的潜力,并倡导继续进行跨学科创新以克服现有局限。
arXiv:2502.12372v1 类型:交叉学科
摘要:监测事实不一致性对于确保数据到文本生成(D2T)的信任worthiness至关重要。虽然大规模语言模型(LLMs)在各种D2T任务中表现出色,但之前的扩展定律研究主要集中在通过幂律扩展来衡量LLM规模(即模型参数的数量)上的泛化误差。然而,还没有研究探讨LLM规模对D2T的事实不一致性的影响。在本文中,我们通过探索两种扩展定律:幂律和指数扩展,来研究如何随LLM规模扩展D2T的事实不一致性。为了严格评估和比较这些扩展定律,我们采用了一种统计验证框架,包括三个关键阶段:预测性能估计、拟合优度评估和比较分析。为了进行全面的经验研究,我们分析了五个D2T数据集中广泛使用的三种流行的LLM家族,使用四种最先进的一致度指标逆向衡量事实不一致性。基于详尽的经验结果并通过我们的框架验证,我们的发现表明,与广泛认为的幂律扩展相反,D2T的事实不一致性随着LLM规模遵循指数扩展。
arXiv:2502.12371v1 逆向类型: cross
摘要: 近期在模仿学习领域,特别是使用生成建模技术如扩散模型的方法,使策略能够捕捉到复杂的多模态动作分布。然而,这些方法通常需要大量的数据集和多次推断步骤来生成动作,这在数据采集成本高且计算资源有限的机器人领域提出了挑战。为了解决这个问题,我们引入了IMLE Policy,这是一种基于隐式最大似然估计(Imlicit Maximum Likelihood Estimation, IMLE)的新行为克隆方法。IMLE Policy在数据量较少的情况下表现出色,能够有效从少量示范中学习,并且平均只需要少38%的数据就能达到基线方法的表现。它的基于生成器的简单架构使其能够实现单步动作生成,相较于Diffusion Policy,推理速度提高了97.3%,同时优于单步Flow Matching。我们在模拟和实际环境中的多种操作任务中验证了这种方法的能力,展示了其在数据受限条件下捕捉复杂行为的能力。有关视频和代码可在我们的项目页面获得:https://imle-policy.github.io/。
arXiv:2502.12362v1 宣告类型: cross
摘要:临床试验的数字个体参与者数据(IPD)越来越多地被分配用于潜在的科学研究再利用。然而,识别可用的IPD需要对大型数据库中的数据共享声明(DSS)进行文本解释。计算语言学的最新进展包括预训练语言模型,它们承诺简化基于文本输入的有效分类器的实现。在ClinicalTrials.gov的5,000个文本DSS子集中,我们评估了基于领域特定预训练语言模型的分类器在重现原始可用性类别以及手动标注标签方面的效果。常见的评估指标表明,预测手动标注的分类器表现优于学习输出原始可用性类别的分类器。这表明,DSS描述中包含适用的信息,而这些信息没有反映在可用性类别中,因此这样的分类器有望辅助大型试验数据库中可用IPD的自动识别。
arXiv:2502.12360v1 类型: cross
摘要: 在过去的几年里,由于对构建安全人工智能系统的关注不断增加,研究深度神经网络(DNN)系统性弱点变得尤为重要。切片发现方法(SDMs)是最常见的算法方法之一,用于发现这些系统性弱点。它们识别出一个测试中的DNN在其中表现较低的顶级k个语义一致的数据切片/子集。为了直接有用,例如作为安全论证的证据,切片应该与人类可理解(安全相关的)维度对齐,这些维度可能由安全专家和领域专家定义为操作设计领域(ODD)的一部分。对于结构化数据来说,这是直接的,但对于非结构化数据来说,由于缺乏语义元数据,这些调查变得具有挑战性。因此,我们提出了一种完整的流程,将当代基础模型与考虑结构化数据和DNN错误的组合搜索算法相结合,用于在图像中找到系统性弱点。与现有方法不同,我们发现与预定义的人类可理解维度一致的弱切片。由于该流程包含基础模型,其中间和最终结果可能并不总是精确的。因此,我们在流程中构建了一种方法来应对嘈杂元数据的影响。我们使用包括自动驾驶数据集,如Cityscapes、BDD100k和RailSem19在内的四个流行计算机视觉数据集以及多种最先进的模型作为测试中的DNN进行评估,以衡量该方法的质量。