arXiv:2504.10146v1 专家类型: cross
摘要:我们提出了GeoUni,这是首个在一个框架内生成问题解决方案和图形的统一几何专家模型,能够创建独特且个性化的几何问题。传统上,在机器学习中解决几何问题和生成图形被分别视为不同的任务,没有任何模型能够成功地将这两者结合在一起以支持问题的创建。然而,我们认为,掌握几何学需要在解决问题、可视化几何关系以及最终创作定制化问题时所有这些技能的无缝整合。我们大量的实验证明,GeoUni,仅包含1.5B参数,其在几何推理任务中的表现与具有671B参数的DeepSeek-R1等大型模型相当。GeoUni在生成精确的几何图形方面也表现出色,超越了文本转图像模型和统一模型,包括GPT-4o的图像生成。最重要的是,GeoUni是唯一能够根据特定知识点成功生成具有匹配图形的文本问题的模型,因此提供了超出当前模型范围的更广泛的能力。
arXiv:2504.10112v1 宣传类型:交叉
摘要:大规模语言模型(LLMs)已成为推动具有攻击性的渗透测试工具的强大方法。本文分析了用于评估大规模语言模型(LLM)驱动攻击的方法学和基准测试实践,重点关注LLM在网络安全中的进攻性使用。我们回顾了16篇研究论文,其中详细介绍了15种原型及其各自的测试平台。我们阐述了我们的发现,并提供了对未来研究的实际建议,强调扩展现有测试平台、建立基线、包括全面的度量标准和定性分析的重要性。我们还指出,安全研究与实践之间的区别,建议基于CTF的挑战可能无法完全代表现实世界的渗透测试场景。
arXiv:2504.10109v1 安全类型:跨域
摘要:在边缘计算系统(ECS)中,尤其是在自主系统传感器网络、工业物联网和智慧城市等资源受限的场景下,确保个体边缘节点中的数据可信性的同时促进协作数据处理面临着一个关键挑战。本文提出了一种轻量级、完全分布式的k-均值聚类算法,专门适应边缘环境,利用分布式平均方法和加法秘密共享技术(一种安全多方计算技术)在聚类中心更新阶段,以确保跨节点的数据准确性和可信性。
arXiv:2504.10106v1 类型: cross
摘要:体育视频分析是计算机视觉中的一个关键领域,通过多视角对应关系实现详细的三维空间理解。在本文中,我们介绍了SoccerNet-v3D和ISSIA-3D,这两个增强且可扩展的数据集,用于足球广播分析中的三维场景理解。这些数据集扩展了SoccerNet-v3和ISSIA,并结合了基于场线的相机校准和多视角同步,通过三角测量实现三维物体定位。我们提出了一个基于三角测量的二维真实球标注的一目测三维球定位任务,并提出了一些校准和重投影指标,以根据需求评估标注质量。此外,我们提出了一种基于单张图像的三维球定位方法作为基线,利用相机校准和球体大小先验估计一目测视角下的球体位置。为了进一步细化二维标注,我们引入了一种边界框优化技术,以确保与三维场景表示的对齐。我们提出的这些数据集为三维足球场景理解设置了新的基准,提高了体育分析中的空间和时间分析能力。最后,我们提供了代码以方便访问我们的标注以及数据集生成流水线。
arXiv:2504.10077v1 类型: cross
摘要: 常识推理涉及人类普遍理解的隐性知识,通常通过与世界的互动获取。近年来,各种大语言模型(LLMs)的常识推理能力和理解能力通过文本任务进行了评估。在本文中,我们论及这种理解可以通过图形结构的代理维持,这种图形结构可以进一步有助于对各种现实世界活动的常识推理能力进行严格的评估。我们为37种日常人类活动创建了一个注释方案,以图形结构的形式捕捉这种隐性知识。我们发现,创建的资源可以用来构建大量的常识查询(~ 10^17 个),从而促进对大语言模型常识推理能力的严格评估。此外,最近大语言模型的卓越表现已经引发了关于这些模型是否真的能够在现实世界中进行推理的问题,以及一般而言这些模型内部如何进行推理的疑问。在本文中,我们通过提出促进类似方向研究的设计机制来弥补这一差距。我们的研究结果表明,在受到常识查询提示时,在大语言模型中起决定性作用的推理组件是局部化的。
arXiv:2504.10068v1 类别: 多模态大型语言模型中的长上下文视频理解面临一个关键挑战:在保持计算效率的同时保留精细的空间-时间模式。现有方法(例如稀疏采样、低分辨率密集采样和标记压缩)在时间动态、空间细节或细微交互方面存在显著信息损失,尤其是在复杂运动或变化分辨率的视频中。为解决这一问题,我们提出了 $\mathbf{Mavors}$,一种新颖的框架,引入了 $\mathbf{M}$ 多 $\mathbf{a}$ 颗粒 $\mathbf{v}$ 视频 $\mathbf{o}$ 表示法,以实现全局长视频建模。具体而言,Mavors 通过两个核心组件直接将原始视频内容编码为潜在表示:1)一种通过 3D 卷积和 Vision Transformers 保留高分辨率空间特征的 Intra-chunk 视觉编码器(IVE),以及 2)一种通过具有切片级旋转位置编码的基于 Transformer 的依赖建模在切片之间建立时间一致性的 Inter-chunk 特征聚合器(IFA)。此外,该框架通过子图像分解将图像视为单帧视频来统一图像和视频理解。在各种基准测试中的实验表明,Mavors 在保持空间保真度和时间连续性方面优越于现有方法,在需要精细空间-时间推理的任务中显著优于其他方法。
arXiv:2504.10063v1 Announce Type: cross
摘要:幻觉,即生成事实错误的内容,仍然是大型语言模型(LLMs)面临的重大挑战。我们提出了TOHA,一种在RAG设置下的基于拓扑的幻觉检测器,利用拓扑发散度度量来量化由注意矩阵诱导的图形的结构性质。通过检查提示子图和响应子图之间的拓扑发散度,可以发现一致的模式:特定注意头的更高发散值与幻觉输出相关联,这与数据集无关。广泛的实验,包括在问答任务和数据到文本任务上的评估,表明我们的方法在多个基准上取得了最先进的或竞争力的结果,其中两个基准是由我们标注并公开发布的,以促进进一步的研究。除了其在领域内的强大表现外,TOHA 在多个开源LLMs之间的领域应用保持了显著的可转移性。我们的研究发现表明,分析注意矩阵的拓扑结构可以作为一种高效且稳健的事实可靠性指标,在LLMs中具有应用价值。
arXiv:2504.10030v1 宣告类型: cross
摘要: 本文介绍了EmbodiedAgent,这是一种用于异构多机器人控制的分层框架。EmbodiedAgent 应对了在不可行任务中幻觉的關鍵限制。我们的方法将下一步行动预测与结构化记忆系统结合起来,将任务分解为可执行的机器人技能,并动态地根据环境约束验证行动。我们提出了MultiPlan+,这是一个包含超过18,000个标记的规划实例的数据集,覆盖了100种场景,包括一部分不可行情况,以减轻幻觉。为了评估性能,我们提出了机器人规划评估方案(RPAS),结合了自动化指标和LLM辅助专家评分。实验表明,EmbodiedAgent 在性能上优于当前最先进的模型,获得了71.85%的RPAS分数。在办公室服务任务中的实地验证突显了其协调异构机器人以实现长远目标的能力。
arXiv:2504.10028v1 交叉类型:cross
摘要:理解支撑决策的认知操作序列是认知神经科学中的一个基本挑战。传统的方法通常依赖于组级统计,这掩盖了试次间认知策略的变化。在本研究中,我们引入了一种新的机器学习方法,该方法结合了隐藏多元模式分析和结构状态空间序列模型,以从脑电图数据中在试次级别解码认知策略。我们将该方法应用于一个决策任务,在该任务中,参与者被指示优先考虑反应的速度或准确性。我们的结果揭示了一个额外的认知操作,称为确认,似乎主要发生在准确性条件下,但在速度条件下也很常见。此操作的发生概率与正确反应的概率较高以及改主意的行为(用电肌图数据作为指标)相关。通过在试次级别成功建模认知操作,我们提供了动态变化的决策策略的实证证据,挑战了实验条件下同质认知过程的假设。我们的方法展示了序列建模在认知神经科学中捕捉通过综合分析掩盖的试次级别变异性的能力。引入的方法为以数据驱动的方式检测和理解认知策略提供了新的途径,对理论研究和许多领域的实际应用都有重要意义。
arXiv:2504.10025v1 宣布类型: cross
摘要: 糖尿病视网膜病变是导致视力损害的主要原因之一,因此通过眼底成像早期诊断对于有效的治疗计划至关重要。然而,由于光照不足、噪声、模糊和其他运动伪影等因素导致的质量不佳的眼底图像,准确的糖尿病视网膜病变筛查成为了重大挑战。在本研究中,我们提出了逐步迁移学习进行多步恢复,以迭代地增强退化的眼底图像质量,确保更可靠的糖尿病视网膜病变筛查。不同于以往专注于单步恢复的方法,通过逐步迁移学习 (PTL) 进行多步恢复可以实现卓越的盲恢复性能,甚至可以改善数据集中大多数质量较好的眼底图像。首先,训练一个Cycle GAN模型来恢复低质量图像,然后在最新的恢复输出上进行PTL诱导的恢复步骤,以在每次迭代中提高整体质量。所提出的方法可以在不需要配对数据的情况下学习盲恢复,通过利用逐步学习和细调策略来最小化失真并保留关键的视网膜特征。为了评估PTL在多步恢复上的效果,我们在DeepDRiD数据集上进行了实验,这是一个专门为糖尿病视网膜病变检测而精心整理的大型眼底成像数据集。我们的结果显示了最先进的性能,展示了PTL在迭代图像质量恢复方面的优越潜力。