arXiv:2502.04066v2 宣布类型: replace-cross
摘要:GPT-4技术报告强调了仅使用预训练信号预测模型在下游任务中表现的可能性,尽管详细方法缺失。这些预测能力对于资源高效预训练和构建任务对齐的数据集至关重要。在这篇论文中,我们旨在预测闭卷问答(QA)的表现,这是一个重要的下游任务,能够反映出模型的内部知识。我们解决的主要挑战有三项:(1)预训练语料库的有限访问和理解;(2)当前预训练模型评估方法的限制;(3)基于频率的指标在预测模型表现方面的局限性。针对这些挑战,我们在21个公开可用和3个自定义训练的大语言模型的预训练语料库上进行了大规模检索和语义分析。随后,我们开发了包含改述问题变体的多模板QA评估框架。基于这些基础,我们提出了大小依赖互信息(SMI),这是一种信息论度量,它线性相关于预训练数据特征、模型规模和问答准确性,而无需任何额外训练。实验结果表明,SMI在模型参数超过十亿的情况下,表现基线(基于共现)的$r^2$得分超过0.75。理论分析进一步揭示了扩展模型规模和优化数据的边际效益,表明特定问答任务准确性上的上限约为80%。我们的项目可在https://github.com/yuhui1038/SMI获取。
arXiv:2502.02283v5 Announce Type: replace-cross
摘要:3D Gaussian Splatting已经成为一种高效的逼真新视角合成方法。然而,它对稀疏Structure-from-Motion (SfM) 点云的依赖经常限制场景重建质量。为了解决这一限制,本文提出了一种新的3D重建框架,即增强高斯斑点生成的高斯过程(GP-GS),其中开发了一种多输出高斯过程模型,以实现稀疏SfM 点云的自适应和不确定性指导下的密度增强。具体而言,我们提出了一种动态采样和过滤管道,通过利用基于GP的预测自适应扩展SfM 点云,从中输入的2D像素和深度图推断新的候选点。该管道利用不确定性估计来指导对高方差预测的修剪,确保几何一致性,并使密集点云的生成成为可能。这些密度增强的点云提供了高质量的初始3D高斯分布,从而增强重建性能。在不同尺度的合成和真实世界数据集中进行的广泛实验验证了所提出框架的有效性和实用性。
arXiv:2502.01677v2 宣布类型: replace-cross
摘要:AI 规模化传统的定义一直是“规模扩大”,即构建更大、更强大的模型。然而,随着对效率、适应性和协作性需求的增长,多样化应用领域的需求迫切要求一种更广泛的视角。本文提出了一个全面的AI规模化框架,涵盖了规模扩大、规模缩小和规模扩展。本文认为,尽管模型的规模扩大面临固有的瓶颈,但AI规模化未来的发展方向在于规模缩小和规模扩展。这些范式解决了诸如减少碳足迹、确保公平访问和增强跨域协作等关键的技术和社会挑战。我们探讨了医疗保健、智能制造和内容创作等领域的变革性应用,展示了AI规模化如何实现效率、个性化和全球互联的突破。此外,我们还突出了几个关键挑战,包括平衡模型复杂性与可解释性、管理资源限制以及促进伦理开发。通过综合这些方法,我们提出了一个统一的路线图,重新定义了AI研究和应用的未来,为通向通用人工智能(AGI)的发展铺平了道路。
arXiv:2501.18344v2 宣布类型: 替换交叉
摘要:代理模型为计算需求大的实际过程提供了高效的替代方案,但通常需要大量的数据集来实现有效的训练。解决这一限制的有希望的解决方案是将预先训练的代理模型转移到新任务中。先前的研究已经调查了可微和不可微代理模型的转移,通常假设源函数和目标函数之间的仿射变换。本文通过解决更广泛的变换问题,扩展了先前的研究,包括线性和非线性变化。具体而言,我们考虑了未知输入扭曲的组合,例如由Beta累积分布函数建模的扭曲,同时不明确指定仿射变换。通过利用目标任务的少量数据点优化这些变换,我们的方法在转移数据集上最小化经验损失,从而实现迁移学习。我们使用广泛使用的黑盒优化基准(BBOB)测试床和汽车工业中的一个实际转移学习任务验证了所提出的方法。结果突显了该方法的重要优势,表明所转移的代理模型显著优于原始代理模型以及基于转移数据集从头构建的代理模型,尤其是在数据稀缺的场景中。
arXiv:2501.17888v3 宣告类型: 替换-交叉
摘要:频谱资源的日益稀缺和无线设备的迅速普及使得有效的无线网络管理变得至关重要。虽然深度学习增强的认知无线电技术(CRT)为无线信号分类(RSC)、去噪和频谱分配等任务提供了有前景的解决方案,但现有的基于深度学习的CRT框架通常具有任务特定性,在多种实际应用场景中缺乏可扩展性。这一局限性自然促使人们探索大型语言模型(LLMs),其跨领域泛化能力的卓越性为推进CRT提供了新的潜力。为弥补这一差距,我们提出了RadioLLM这一新型框架,该框架结合了混合提示和标记重编程(HPTR)以将无线电信号特征与专家知识相结合,并引入了频率校准融合模块(FAF),以增强高频频谱特征建模。在多个基准数据集上的大量评估表明,RadioLLM在大多数测试场景中优于现有基线。
arXiv:2501.05014v2 宣布类型: 替换交叉
摘要:UAV-VLA(视觉-语言-行动)系统是一种旨在促进与飞行机器人通信的工具。通过将卫星图像处理与视觉语言模型(VLM)以及GPT的强大功能相结合,UAV-VLA 允许用户通过简单的文本请求生成通用的飞行路径和行动方案。该系统利用卫星图像提供的丰富上下文信息,增强了决策和任务规划的效能。视觉分析由 VLM 完成,自然语言处理由 GPT 实现,可以为用户提供路径和行动集,使航空操作更高效、更易使用。新开发的方法在 K-近邻(KNN)方法中展示了创建轨迹长度差异 22% 和在欧几里得距离上找到兴趣对象的平均误差为 34.22 米。
arXiv:2501.03394v2 宣告类型: replace-cross
摘要: 重要性抽样是一种在蒙特卡洛模拟中用于偏向于感兴趣的罕见事件的抽样分布的技术。通过为采样点分配适当的权重,重要性抽样能够更高效地估计罕见事件或分布的尾部。然而,当提议分布未能有效覆盖目标分布时,重要性抽样可能会失败。在本文中,我们提出了一种方法,通过在归一化流的潜在空间中更新提议分布来更高效地进行采样。归一化流学习从目标分布到一个更简单的潜在分布的可逆映射。在寻找提议分布的过程中,潜在空间更容易被探索,通过可逆映射可以从提议分布的空间恢复到目标分布的空间的样本。我们通过在自主赛车和飞机地面碰撞避免等模拟的机器人应用中进行实证验证来验证我们的方法。
arXiv:2501.01645v3 宣告类型: replace-cross
摘要:多模态大语言模型由于许多有希望的实际应用而在深度视觉理解中变得非常流行。然而,由于 1)长期视频分析的挑战,2)大型模型方法的低效性,以及 3)缺乏大规模基准数据集,跨越一小时并包含数万帧视频的一小时视频理解仍处于未开发状态。在这其中,本文重点在于构建一个大规模一小时长视频基准——HLV-1K,旨在评估长视频理解模型。HLV-1K 包含 1009 个一小时长的视频,以及 14,847 个具有时间感知查询和多元注释的高质量问答 (QA) 和多项选择问答 (MCQA) 对,涵盖帧级、事件内级、跨事件级和长期推理任务。我们使用现有最先进的方法评估这一基准,并展示了其在不同层次和各种任务上测试深层长视频理解能力的价值。这包括促进更细致的长视频理解任务,例如长直播视频、会议记录和电影的深入理解。
arXiv:2412.16766v2 通知类型: 替换-交叉
摘要:从(半)结构化数据构建知识图谱(KGC)是一项挑战,用户参与度问题在该领域经常被提及。我们无法否认在帮助构建此类映射方面已经取得的进步,尤其是在声明式知识图谱构建语言和工具方面。然而,令人惊讶的是没有两项研究报告采用相似的流程。这种异质性使得无法对KGC语言、技术和工具进行比较。本文首先分析涉及用户的研究所确定的比较点。这些差距包括任务设计、参与者选择和评估指标缺乏系统一致性。此外,还需要有系统的方法来分析数据并报告发现,这也是目前缺失的。因此,我们提出了一个用于KGC的用户协议,旨在解决这一挑战。在可能的情况下,我们将从我们认为适合此类协议的文献中选取元素。该协议允许比较RDF映射语言(RML)核心功能的语言和技术,而这种功能几乎涵盖了其他所有最先进的技术和工具。我们还提出了如何修改该协议以比较RML的扩展。该协议为KGC用户研究的更可比评估迈出重要一步。
arXiv:2412.14190v2 宣告类型: replace-cross
摘要:消费者能否与AI形成特别深厚的情感纽带,并随着时间的推移将自身情感投入到AI身份中?我们利用Replika AI这一受欢迎的美国AI伴侣应用程序的一次自然更新事件,来探究这些问题。我们发现,在应用程序取消了其性角色扮演(ERP)功能后,这阻止了消费者与之前可能进行的与聊天机器人的亲密互动,这一事件触发了客户认为其AI伴侣的身份已经停止延续的认知。反过来,这预测了与损失相关的消费者福利和营销结果的负面影响,包括对损失的哀悼以及将“新”的AI与“最初的”AI相比贬低其价值。实验证据证实了这些发现。进一步的实验发现,AI伴侣的用户与其AI伴侣情感更亲密,甚至超过其最好的人类朋友,并且失去AI伴侣时的哀悼程度高于失去各种其他无生命的商品。简而言之,消费者正在与AI伴侣形成人类级别的关系;这些关系的中断触发了真实模式的哀悼以及对所提供产品价值的贬低;而哀悼和贬低的程度则由感知到的AI身份中断解释。我们的结果表明,与AI的关系是真正个人化的,为消费者和企业双方创造独特的利益和风险。