arXiv:2504.10165v2 提示类型: replace-cross
摘要:直接在无人机上通过高分辨率视频处理进行野生动物的实时跟踪尚未得到广泛探索,绝大多数现有解决方案依赖于将视频流传输到地面站以支持导航。然而,自主跨视距的动物反应飞行控制及/或特定任务的单个动物和行为识别任务在一定程度上依赖于这种能力。为应对这一挑战,我们介绍了WildLive——一种直接在无人驾驶航空器(UAV)上运行的高分辨率图像实时动物检测和跟踪框架。该系统在HD图像上以17fps+的速度和在4K视频流上以7fps+的速度进行多动物检测和跟踪,适用于高海拔飞行操作,以减少对动物的干扰。我们的系统针对Jetson Orin AGX车载硬件进行了优化。它将稀疏光流跟踪的效率与任务特定的采样相结合,并集成了优化的YOLO驱动对象检测和分割技术。本质上,计算资源集中在高不确定性的时间空间区域,以显著提高无人机处理速度,同时保持特定领域的准确性。此外,我们还介绍了WildLive数据集,该数据集包含来自肯尼亚奥尔佩jeta保育区内4K无人机视频的200,000多个标注的动物实例,共有19,000多帧。所有帧均包含真实边界框、分割掩码、以及个体跟踪片段和跟踪点轨迹。我们在OC-SORT、ByteTrack和SORT等当前对象跟踪方法中对我们的系统进行了比较。我们的材料可在以下地址获取:https://dat-nguyenvn.github.io/WildLive/
arXiv:2504.09421v2 宣告类型: replace-cross
摘要:近年来,大型语言模型(LLMs)在推理方面的进展在数学和编程等领域展示了显著的推理能力,但在临床诊断方面的应用仍然未被充分探索。在这里,我们提出了ClinicalGPT-R1,一种用于疾病诊断的增强推理通用大型语言模型。它基于包含20,000份真实临床记录的数据集进行训练,并通过多种训练策略增强了诊断推理能力。为了评估性能,我们收集了MedBench-Hard,一个涵盖七个主要医学专科和代表性疾病的具有挑战性的数据集。实验结果表明,在中文诊断任务中,ClinicalGPT-R1优于GPT-4o,在英语环境中则与GPT-4达到了相当的性能。这种比较研究有效地验证了ClinicalGPT-R1在疾病诊断任务中表现出色。有关资源 avail https://github.com/medfound/medfound。
arXiv:2504.09210v2 宣告类型: 替换-交叉
摘要:公平性一直是图神经网络(GNNs)中的一个重大挑战,因为度偏差往往会导致不同度节点的预测性能不平等。现有的GNN模型专注于预测准确性,经常忽略了不同度组之间的公平性。为解决这一问题,我们提出了一种新颖的GNN框架,即公平感知不对称对比集成(FairACE),该框架结合了不对称对比学习和对抗训练以提高度的公平性。FairACE 捕捉一跳局部邻域信息和两跳单标记相似性,以创建更公平的节点表示,并采用度公平调节器来平衡高度节点和低度节点之间的性能。在模型训练过程中,我们提出了一种新的组平衡公平损失,以最小化不同度组之间的分类差异。此外,我们还提出了一种新的公平性度量,准确度分布差距(ADG),它可以定量评估和确保基于度的节点组之间表现的公平性。在合成和真实世界数据集上的实验结果表明,FairACE 在提高度公平性指标方面显著优于最先进的GNN模型,同时保持了竞争力的准确性。
arXiv:2504.08754v2 公告类型: replace-cross
摘要:会话型推荐系统(CRSs)旨在通过对话与用户互动,提供个性化推荐。传统CRSs主要集中在获取用户偏好和检索物品上,而现实世界的电子商务交互涉及更复杂的决策过程,其中用户会考虑超出简单属性的多种因素。为了弥合这一差距,我们提出了会话销售(CSales),这是一种新型任务,将偏好获取、推荐和说服统一起来,以更好地支持用户的决策。为了对CSales进行现实评估,我们提出了基于现实世界数据构建的CSUser,一个LLM(大型语言模型)用户模拟器,能够建模不同用户的需求和个性。此外,我们提出了CSI,这是一个会话销售代理,通过对话主动推断上下文特征以进行个性化行动规划。广泛的实验表明,CSUser有效地复制了真实用户,并强调了上下文建模对于战略行动选择的重要性,最终推动了电子商务中的成功购买。
arXiv:2504.08670v2 通知类型: 替换-交叉
摘要: 为了构建儿童易于直观理解并使用的AI界面, 设计师需要一种真正服务于儿童发展需求的设计语法规则。本文将面向儿童的人工智能设计——仍处于确立最佳实践阶段的新兴领域——与充满丰富经验的儿童动画领域联系起来, 该领域通过情感共鸣和认知上易于理解的故事叙述方式吸引年轻观众。通过结合皮亚杰发展理论, 并从52部迪士尼动画作品中提取设计模式, 本文提出了六条适用于以儿童为中心的AI界面设计的设计见解:(1)情感表达性和视觉清晰度, (2)音乐和听觉支撑, (3)视听同步以提供情感安慰, (4)同伴式人设, (5)支持象征性玩耍和想象性探索, (6)可预测和支撑的交互结构。这些策略在迪士尼动画中经过长时间的磨练, 作为多模态的支持手段, 有助于注意、理解和情感共鸣, 从而形成了儿童熟悉的结构化设计语法规则, 并适用于AI界面设计。通过将电影叙事重新构想为面向AI的设计逻辑, 本文提供了一些建构直观AI界面的启发性原则, 这些原则符合儿童的认知阶段和情感需求。该研究为面向儿童的适应性人工智能设计提供了理论贡献, 说明了感觉、情感和叙事技术如何影响儿童发展敏感的设计。未来的研究方向包括实证测试、文化适应和参与式共同设计。
arXiv:2504.08626v2 宣告类型: 替换-交叉
摘要:机器学习中的一大挑战是在非稳态环境中保持已部署模型(例如,分类器)的准确性。非稳态环境会导致分布变化,并因此降低准确性。使用新数据不断学习已部署模型可能是解决这一问题的一种方法。然而,问题在于我们该如何使用新的训练数据更新模型,使其在保持对旧数据的准确性的同时适应新数据。在这项工作中,我们提出了一种基于任务条件的模型集合,以维护现有模型的性能。该方法基于任务成员身份信息构建专家模型的集合。基于局部异常概念(不同于专家模型)的任务身份模型(in-domain models)在运行时为每个探查样本提供任务成员身份信息。为了评估所提出的方法,我们进行了三种设置的实验:第一个设置表示任务之间的分布变化(LivDet-Iris-2017),第二个设置表示任务之间和任务内部的分布变化(LivDet-Iris-2020),第三个设置表示任务之间的不相交分布(Split MNIST)。实验突显了所提出方法的优势。源代码可在 https://github.com/iPRoBe-lab/Continuous_Learning_FE_DM 获得。
arXiv:2504.08300v3 更新类型: 交叉替换
摘要:多项选择题(MCQ)基准被广泛用于评估大型语言模型(LLMs),但它们的可靠性受到基准污染的削弱。在本研究中,我们将污染重新构想为学习过程的一个内在方面,并寻求在LLM评估中将真正的能力获得与表面上的记忆化区分开来。首先,通过在不同记忆条件下分析模型的性能,我们发现了一个令人意想不到的趋势:LLMs在记忆型MCQ上的表现比在非记忆型MCQ上要差,这表明并存着两种不同的学习现象,即机械记忆和真正的能力学习。为了将它们区分开来,我们提出了TrinEval,这是一种新的评估框架,将MCQ重新格式化为一种替代的三元格式,减少记忆化同时保持知识评估。实验验证了TrinEval在重新格式化方面的有效性,并且其评估揭示出,常见的LLMs可能在MMLU中机械记忆了20.5%的知识点(平均来说)。
arXiv:2504.08222v2 通告类型: replace-cross
摘要:分析快速、频繁且细节丰富的(F³)事件在视频分析和多模态LLM中提出了重大挑战。当前的方法由于运动模糊和细微的视觉差异等问题,在识别满足所有F³标准的事件时难以达到高精度。为了促进视频理解领域的研究,我们引入了F³Set,这是一个用于精确F³事件检测的数据集基准。F³Set中的数据集以其广泛的规模和详尽的细节为特点,通常包含超过1000种事件类型,具有精确的时间戳,并支持多层次的粒度。目前,F³Set包含了多个体育数据集,该框架还可扩展到其他应用领域。我们在F³Set上评估了流行的时空动作理解方法,揭示了现有技术存在的重大挑战。此外,我们还提出了一种新的方法F³ED,用于F³事件检测,实现了卓越的性能。数据集、模型和基准代码可在https://github.com/F3Set/F3Set获取。
arXiv:2504.05408v2 通知类型: 替换-交叉
摘要:随着前沿人工智能的迅速发展,理解其对网络安全的影响及其固有风险,对于确保安全的人工智能进化(例如指导风险缓解和为政策制定者提供建议)至关重要。尽管有些研究回顾了人工智能在网络安全中的应用,但没有一项研究全面讨论人工智能的未来影响或提供具体的建议以确保其安全和安全的使用。本文对前沿人工智能对网络安全的影响进行了深入分析,并建立了一套系统性的风险评估和缓解框架。为此,我们首先定义并分类了前沿人工智能在网络安全中的边际风险,然后系统性地分析了前沿人工智能当前和未来对网络安全的影响,从定性和定量的角度进行了分析。我们还从等价类、不对称性以及经济影响的角度讨论了为什么在短期内前沿人工智能更有利于攻击者而非防御者。接下来,我们探讨前沿人工智能对未来软件系统开发的影响,包括同时启用复杂混合系统并引入新风险。根据我们的发现,我们提供了安全建议,包括构建细致的基准以进行风险评估、设计用于防御的人工智能代理、构建混合系统的安全机制和可证明的防御措施、增强预部署安全测试和透明度,并加强用户的防御能力。最后,我们提出了理解人工智能未来影响及其防御潜力所需的重要研究问题。
arXiv:2504.04808v2 宣告类型: replace-cross
摘要:随着云数据仓库的广泛应用,从业者们越来越多地转向Extract-Load-Transform (ELT)流水线。然而,设计这些流水线通常需要大量的手动工作来确保正确性。近年来,已经在数据任务中展现出强大能力的人工智能方法,如文本到SQL,为减轻开发ELT流水线的手动努力提供了机会。不幸的是,现有的数据工程基准仅评估孤立的任务,如使用数据工具和编写数据转换查询,这在评估生成端到端ELT流水线的AI代理方面留下了显著的差距。
为了填补这一空白,我们介绍了ELT-Bench,这是一种端到端基准,旨在评估AI代理构建ELT流水线的能力。ELT-Bench包括100条流水线,涵盖各种领域的835个源表和203个数据模型。通过模拟涉及多种数据源集成和使用流行数据工具的现实场景,ELT-Bench评估AI代理在处理复杂数据工程工作流方面的能力。AI代理必须与数据库和数据工具交互、编写代码和SQL查询,并协调每一条流水线的每一个阶段。我们使用ELT-Bench评估了两个代表性的代码代理框架,Spider-Agent和SWE-Agent,以及六种流行的大型语言模型(LLMs)。表现最佳的代理,Spider-Agent Claude-3.7-Sonnet(扩展思考版本),正确生成了3.9%的数据模型,平均每条流水线成本为4.30美元,步骤数为89.3步。我们的实验结果表明了ELT-Bench的挑战,并突显了需要更先进的AI代理以减少ELT工作流中的手动努力。我们的代码和数据可在https://github.com/uiuc-kang-lab/ELT-Bench获得。