arXiv:2504.04204v1 类型: 交叉
摘要:从关于潜在实体的不确定性中提取信息是许多应用领域中的关键任务,例如评估个体学生的学业成果、诊断潜在疾病或学习用户偏好。尽管自然语言是实现这一目标的强大媒介,但现有的大型语言模型(LLMs)和现有微调算法缺乏以战略方式收集信息以改进对潜在实体理解的机制。为了利用LLMs的一般化能力和世界知识来开发有效的信息收集策略,我们提出了一种适应性提取框架,该框架积极减少对潜在实体的不确定性。由于难以对抽象的潜在实体进行概率建模,我们的框架采用预测视角来定义不确定性,并利用一个元学习语言模型来模拟未来观察,从而实现复杂自然语言中的不确定性的可扩展量化。通过自回归前向模拟,我们的模型量化了新问题如何降低认识论不确定性,从而支持开发复杂的策略来选择最具信息量的下一个查询。在20个问题游戏、动态意见调查和自适应学生评估实验中,我们的方法在识别关键未知信息和提高下游预测方面始终优于基线方法,展示了在自然语言环境中战略性信息收集的潜力。
arXiv:2504.04150v1 宣告类型: 交叉
摘要: 针对大量背景信息(The Needle In A Haystack, NIAH)任务已被广泛用于评估大型语言模型(LLMs)的长上下文问答能力。然而,其依赖于简单的检索方法限制了其有效性。为解决这一局限,最近的研究引入了多针在大量背景信息中的推理(Multiple Needles In A Haystack Reasoning, MNIAH-R)任务,将多跳推理任务的支持文档(Multiple needles)整合到一个分散注意力的上下文(Haystack)中。尽管取得了这一进展,现有的方法仍然无法解决模型从内部知识直接提供答案的问题,也没有解释或减轻随着上下文长度增加而准确度下降的问题。在本文中,我们通过筛选出直接回答的问题来应对基于记忆的回答问题,并揭示了性能下降主要是由于随着输入长度增加,思考过程的长度减少而驱动的。基于这一洞见,我们将思考过程分解为检索和推理阶段,并引入了一种多轮扩展的反思机制。我们还使用生成的反思过程训练了一个模型,这有助于减轻性能下降。此外,我们展示了这种检索-反思能力在数学推理场景中的应用,提高了GPT-4o在AIME2024上的性能。
arXiv:2504.04142v1 跨领域公告类型:跨领域
摘要:在这篇非常个人的工作回忆录中,我讲述了40年来作为一名在人工智能(AI)及其自然语言处理(NLP)方面进行研究和教育的从业者所积累的经验。我描述了好奇心以及当时的情况是如何引导我既在工业界又在学术界工作,并且分别在荷兰(阿姆斯特丹、埃因霍温和乌得勒支)、美国(斯坦福)、英国(布赖頓)、苏格兰(阿伯丁)以及中国(北京和哈尔滨)进行工作的。人物和趣事在我叙述的故事中扮演了重要的角色;人工智能的历史则为其提供了背景。我重点关注那些可能会引起(甚至)年轻同事们兴趣的事情,尤其是在AI终于从阴影中脱颖而出的今天,他们所面临的自己工作和生活选择中。
arXiv:2504.04138v1 宣布类型: cross
摘要:土壤宏量营养素,尤其是钾离子(K⁺),对于植物健康至关重要,支撑着各种生理和生物学过程,并有助于生物和非生物逆境的管理。宏量营养素含量不足会导致生长迟缓、成熟延迟以及对环境压力的增加敏感性,从而强调了精确土壤养分监测的紧迫性。传统技术如化学分析、原子吸收光谱法、电感耦合等离子体光谱法和电化学方法虽然先进,但成本高昂且耗时,因此不适合实时进行宏量营养素评估。在本研究中,我们提出了一种创新的土壤测试方案,利用从合成溶液中提取的数据集来模拟土壤行为。该数据集包括电导率和pH等物理属性,并重点关注三种关键宏量营养素:氮(N)、磷(P)和钾(K)。四种机器学习算法应用于数据集,随机森林回归器和神经网络被选用来预测土壤养分浓度。与实验室土壤测试结果的比较分析表明,使用随机森林模型预测磷的误差为23.6%,钾的误差为16%;使用神经网络模型预测磷的误差为26.3%,钾的误差为21.8%。该方法展示了成本效益高且高效的实时土壤养分监测策略,提供了超越传统技术的重大进展,并增强了维持有利于作物生长的最优养分水平的能力。
arXiv:2504.04126v1 类型: cross
摘要:从单张图像生成具有高质量视觉表现和精确控制的人类视频是一项具有挑战性的任务,尤其是在涉及多名个体和物体交互的复杂场景中更为如此。现有方法虽然在单人案例中效果显著,但在处理涉及多身份的复杂交互时往往失效,因为它们难以正确关联每个人的外观和姿态,并且难以建模3D感知的动力学分布。为了解决这些问题,我们提出了一种名为结构化视频扩散的新框架,专门用于生成真实的多人视频。我们的方法引入了两大核心创新:身份特定嵌入以保持个体之间的外观一致性,以及一种结构化学习机制,该机制结合深度和表面法线线索以建模人类与物体的交互。此外,我们还扩展了现有的人类视频数据集,新增了25,000个包含多样化的多人和物体交互场景的视频,为训练提供了坚实的基础。实验结果表明,结构化视频扩散在生成具有生动且连贯性的多人视频方面表现优异,特别是在具有动态和丰富交互的情景下,推动了以人类为中心的视频生成技术的发展。
arXiv:2504.04099v1 交叉发布公告类型
摘要:大型视觉-语言模型在各种任务中表现出色;然而,幻觉问题限制了它们的实际应用。幻觉问题源自多个因素,包括语言模型本身固有的幻觉、视觉编码器在感知方面的能力限制以及多模态数据引入的偏见。大量研究探索了减轻幻觉的方法。例如,OPERIA通过防止模型过度关注“锚定词元”,从而减少幻觉;而VCD通过采用对比解码方法减轻幻觉。在本文中,我们研究了注意力衰减到图像词元与幻觉发生的关联。基于这一发现,我们提出了一种名为Temporal Attention Real-time Accumulative Connection (TARAC) 的新型无训练方法,该方法在生成过程中动态地累积和更新LVLMs对图像词元的注意力。通过增强模型对图像词元的注意力,TARAC减轻了由注意力衰减导致的幻觉。我们跨多个模型和数据集验证了TARAC的有效性,证明了我们的方法显著减轻了幻觉。具体而言,在CHAIR基准测试中,TARAC相比VCD减少了$C_S$ 25.2和$C_I$ 8.7。
arXiv:2504.04085v1 交叉公告类型:cross
摘要:文档图像分割对于文档分析和识别至关重要,但由于文档格式和分割任务的多样性,仍然存在挑战。现有方法通常单独处理这些任务,导致泛化能力有限和资源浪费。本文介绍了一种名为DocSAM的基于Transformer的统一框架,该框架旨在通过将任务建模为实例分割和语义分割的组合,应用于各种文档图像分割任务,如文档布局分析、多粒度文本分割和表格结构识别。具体来说,DocSAM利用Sentence-BERT将每个数据集中的类别名称映射为与实例查询匹配维度的语义查询。这两个查询集合通过注意机制相互作用,并与图像特征进行交叉注意,以预测实例和语义分割掩码。实例类别通过计算实例查询和语义查询之间的点积并进行softmax归一化后预测。因此,DocSAM可以在异构数据集上联合训练,提高鲁棒性和泛化能力,同时减少计算和存储资源。全面评估表明,DocSAM在准确性、效率和适应性方面超过了现有方法,突显了其在各种应用中改进文档图像理解和分割的潜力。代码可在https://github.com/xhli-git/DocSAM获取。
arXiv:2504.04070v1 宣传类型: 交叉
摘要:随着自主代理变得愈发强大并被更广泛地使用,确保它们行为安全并在实时维护与系统目标一致变得越来越重要,尤其是在多代理设置中。当前系统通常依赖于代理自我监测或在事件发生后进行纠正,但缺乏实时监督的机制。本文提出了执法代理(EA)框架,该框架将专门的监督代理嵌入到环境中,以监测其他代理、检测不当行为并通过实时纠正进行干预。我们在一个自定义的无人机模拟中实现了这一框架,并使用0、1和2种EA配置在90个回合中进行了评估。结果表明,增加EA显著提高了系统安全性:在没有EA时的成功率为0.0%,一个EA时的成功率为7.4%,两个EA时的成功率为26.7%。该系统还展示了增加的操作寿命,并且恶意无人机重构的频率更高。这些发现突显了轻量级、实时监督在增强多代理系统中的对齐和韧性方面的潜力。
arXiv:2504.04061v1 宣布类型:cross
摘要:自主在未知环境中探索是机器人技术中的一个关键挑战,特别是在室内导航、搜索与救援以及服务机器人等领域。传统探索策略,如基于前沿的方法,往往难以有效地利用室内空间结构规律的先验知识。为了应对这一局限性,我们提出了一种轻量级的基于神经网络的方法——First Sense Mapping,该方法能够预测局部地图中的未观察区域,从而提升探索效率。我们方法的核心,SenseMapNet,结合了卷积和基于变压器的架构,可以在保持计算效率的同时,实时部署在资源受限的机器人上以推断遮挡区域。此外,我们还引入了SenseMapDataset,这是一个从KTH和HouseExpo环境构建的精心编目的数据集,它有助于神经模型在室内探索中的训练和评估。实验结果表明,SenseMapNet在结构相似性(SSIM)方面的得分为0.78,在感知质量(LPIPS)方面的得分为0.68,在特征分布对齐(FID)方面的得分为239.79,这些指标均优于传统方法在地图重建质量上的表现。相比于传统的基于前沿的探索方法,我们的方法将探索时间减少了46.5%(从2335.56秒减少到1248.68秒),同时保持了高覆盖率(88%)和88%的重建准确性。提出的该方法代表了在结构化环境中实现高效、以学习驱动的机器人探索的一个有望的方向。
arXiv:2504.04060v1 Announce Type: cross
摘要:语音大型语言模型(LLMs)已成为语音处理领域的研究重点。我们提出了VocalNet-1B 和 VocalNet-8B,这是一个通过可扩展且模型无关的训练框架实现的高性能、低延迟语音LLMs系列,旨在支持实时语音交互。我们摒弃了传统的下一个token预测(NTP),引入了多token预测(MTP),这是一种针对语音LLMs优化的新方法,能够同时提高生成速度和质量。实验表明,尽管使用了显著较少的训练数据,VocalNet 在主流的Omni LLMs 中表现更优,同时在现有开源语音LLMs 上也取得了显著的领先优势。为了支持可重复性和社区进步,我们在发表时将开源所有模型权重、推理代码、训练数据和框架实现。