arXiv:2504.16791v1 公告类型: cross
摘要: 射电望远镜是射电天文学的关键仪器,构成了几乎全部射电望远镜的主要组件。它们测量电磁辐射的强度,将这种辐射转换为电信号。射电望远镜的主要组件是天线和低噪声放大器(LNA),这是“接收器”链的核心。由于接收器引入的仪器效应通常在校准过程中被修正或移除。然而,天线和接收器之间的阻抗不匹配可能会引入不必要的信号反射和失真。传统的校准方法,如迪克切换,通过交替将接收器输入连接到天线和一个已知特性的参考源来减少错误。近年来,机器学习(ML)的进展提供了有前途的替代方案。使用已知信号源训练的神经网络提供了在传统分析方法难以应对的复杂系统中建模和校准的强大手段。这些方法特别适用于检测高红移处原子氢的微弱天空平均21厘米谱线。这是当今观测宇宙学面临的首要挑战之一。在这里,我们首次引入并测试了一种基于机器学习的校准框架,能够实现用于检测21厘米线的射电望远镜实验所需的精度。
arXiv:2504.16788v1 交叉公告类型
摘要:理解并分析视频动作对于生成洞察性和情境化的描述至关重要,尤其是在基于视频的应用如智能监控和自主系统中。本文提出了一种新的框架,通过结合文本和视觉模态来从视频数据集中生成自然语言描述。所提议的架构使用ResNet50从Microsoft Research Video Description Corpus (MSVD)和Berkeley DeepDrive eXplanation (BDD-X)数据集中获取的视频帧中提取视觉特征,并将提取出的视觉特征转换为补丁嵌入,然后通过基于生成预训练变换器2 (GPT-2) 的编码器-解码器模型进行处理。为了使文本和视觉表示一致并确保高质量描述的生成,该系统使用了多头自注意力和跨注意力技术。通过使用BLEU (1-4)、CIDEr、METEOR和ROUGE-L进行性能评估,展示了该模型的有效性。该提议的框架在BLEU-4上优于传统方法,BDD-X得分为0.755,MSVD得分为0.778;CIDEr上,BDD-X得分为1.235,MSVD得分为1.315;METEOR上,BDD-X得分为0.312,MSVD得分为0.329;ROUGE-L上,BDD-X得分为0.782,MSVD得分为0.795。通过生成人类般、情境相关性的描述,加强可解释性,并改善实际应用,这项研究推进了可解释的人工智能。
arXiv:2504.16787v1 交叉公告类型
摘要:多跳问答(QA)对检索增强生成(RAG)构成了显著的挑战,需要将复杂的查询结构化地分解为逻辑推理路径,并生成可靠的部分结果。然而,在当前的RAG方法中,推理路径中的偏差或中间结果中的错误可能在整个推理过程中传播和累积,从而降低复杂查询答案的准确性。为了解决这一挑战,我们提出了Plan-then-Act-and-Review (PAR RAG) 框架,该框架分为三个关键阶段:规划、执行和审查,旨在通过减轻错误传播提供一个可解释且逐步的推理范式,以实现准确可靠的多跳问答。PAR RAG最初采用自顶向下的问题分解策略,从整体视角构建一个综合的计划,整合多个可执行步骤。这种方法避免了传统RAG方法中常见的局部最优问题,确保整个推理路径的准确性。随后,PAR RAG整合了基于多层次验证的计划执行机制。通过利用粗粒度的相似性信息和细粒度的相关数据,该框架彻底检查和调整中间结果,确保过程的准确性,同时有效管理错误的传播和放大。在多跳问答数据集上的实验结果表明,PAR RAG框架在关键指标,包括EM和F1分数方面,显著优于现有最先进的方法。
arXiv:2504.16778v1 交叉公告类型
摘要:生成式人工智能(GenAI)模型在各个行业中已经变得至关重要,但目前的评估方法尚未适应其广泛应用。传统的评估方法通常依赖于基准测试和固定的数据集,经常无法反映现实生活中的性能,这在实验室测试结果和实际应用之间造成了差距。本文提出了一种全面的框架,说明了我们应如何评估真实的GenAI系统,强调多元、不断变化的输入以及整体、动态和持续的评估方法。论文为从业者提供了指导,说明如何设计能够准确反映实时能力的评估方法,并为政策制定者提供了旨在关注社会影响而非固定性能指标或参数大小的GenAI政策建议。我们倡导将性能、公平性和伦理结合起来的综合性框架,并使用持续、目标导向的方法,该方法结合了人工和自动化评估,同时保持透明性以增强利益相关者的信任。实施这些策略确保GenAI模型不仅是技术上高效的,而且是道德上有责任感并具有影响力的。
arXiv:2504.16768v1 宣布类型: cross
摘要:近年来,基于变压器的大型语言模型(LLMs)已经重塑了自然语言处理(NLP),生成模型为需要上下文感知文本生成的任务开辟了新的可能性。在要求工程(RE)领域,大型语言模型(LLMs)在不同类型的任务中也看到了崭露头角的实验,包括跟踪链接检测、合规性、以及其他任务。要求分类是RE中的一项常见任务。虽然像BERT这样的非生成性LLMs已经被成功应用于这一任务,但对于生成性LLMs的研究却相对有限。这一差距引发了重要问题:生成性LLMs,这种产生上下文感知输出的模型,在要求分类中表现如何?在这个研究中,我们探索了三个生成性LLMs——Bloom、Gemma和Llama,在执行二分类和多分类要求分类任务方面的有效性。我们设计了一项广泛而深入的实验研究,涉及超过400次实验,覆盖了三个广泛使用的数据集(PROMISE NFR、Functional-Quality、SecReq)。我们的研究得出结论,虽然如提示设计和LLM架构等因素除外,其他因素如数据集的差异则具有更多的情境影响,这取决于分类任务的复杂性。这一见解可以指导未来模型开发和部署策略,着重优化提示结构,并且根据特定任务需求对模型架构进行对齐,以提高性能。
arXiv:2504.16763v1 类型: cross
摘要:许多计算机视觉应用在部署后需要适应新的数据分布的能力。适应性要求具备持续学习(CL)能力的算法。持续学习者必须具备弹性,以便在适应新任务的同时尽量减少对先前任务的遗忘。然而,持续学习会为噪声进入训练管道并扰乱持续学习打开途径。这项工作侧重于类增量学习(CIL)中的标签噪声和实例噪声,其中分类器会随时间添加新类,并且无法访问过去类别的外部数据。我们旨在理解通过使用Coresets概念构建记忆库的方法对无关实例噪声的敏感性。我们推导出一个新界,揭示了关于在一般加性噪声威胁模型下此类方法对无关实例噪声的鲁棒性的若干见解。将理论付诸实践,我们创建了两种持续学习算法,以构建抗噪的重放缓冲区。我们在标签噪声和无关实例噪声下,在五个不同的数据集上 empirically 比较了基于记忆的先前持续学习器和所提议算法的效果。我们展示了现有的基于记忆的持续学习器并不鲁棒,而所提议的方法在噪声的CIL设置中在提高分类准确性和减少遗忘方面表现出显著的改进。
arXiv:2504.16754v1 Announce Type: 跨领域
摘要:大型语言模型(LLMs)在处理涉及数百轮对话的连贯性维护方面存在困难,尽管它们在上下文窗口内表现出色。本文介绍了HEMA(海马启发式扩展记忆架构),这是一种受到人类认知过程启发的双重记忆系统。HEMA 结合了 Compact Memory(一个持续更新的一句话总结,保持全局叙述连贯性)和 Vector Memory(通过余弦相似性查询的分块嵌入 episodic 存储)。当与一个 6B 参数的变换器结合使用时,HEMA 能够保持超过 300 轮的连贯对话,同时保持提示长度低于 3,500 个标记。实验结果表明,事实回忆准确率从 41% 提高到 87%,人工评估的连贯性从 2.7 提高到 5 分量表上的 4.3。通过 10K 索引分块,Vector Memory 达到 P@5 >= 0.80 和 R@50 >= 0.74,与仅总结的方法相比,将精确召回曲线下的面积翻倍。消融研究表明了两个关键洞察:语义遗忘通过加权年龄剪枝减少检索延迟 34% 同时几乎不损失召回率,而两级摘要层次结构防止超过 1,000 轮超长对话中的级联错误。HEMA 表明,结合逐字回忆与语义连续性为具备在数月对话中保护隐私且无需模型重新训练的会话AI 提供了务实的解决方案。
arXiv:2504.16738v1 类别:交叉学科
摘要:使用一组预定义技能来规划长期任务是机器人技术与人工智能领域的关键挑战。解决这一挑战需要系统地探索技能组合的方法,以发现任务解决序列,利用通用且易于学习的技能(例如推动和抓取)来泛化到未见过的任务,并避免依赖需要广泛领域和任务特定知识的符号世界表示。尽管取得了显著的进展,但这些要素在现有方法中仍然主要分开,留下了在实现对复杂、长期问题的强大、可扩展解决方案方面的重要缺口。在本工作中,我们提出了MOSAIC,这是一种以技能为中心的框架,通过使用技能本身来引导规划过程来统一这些要素。MOSAIC 使用两种类型的技能:生成器计算可执行轨迹和世界配置,而连接器通过解决边界值问题将这些独立生成的技能轨迹连接起来,从而使任务的完成成为可能。通过摆脱从预定义的起始或目标状态逐步发现技能的传统范式——这种限制极大地限制了探索——MOSAIC 将规划努力集中在技能本身有效的工作区域上。我们在模拟和实际机器人操作任务中展示了MOSAIC 的有效性,展示了其利用生成扩散模型、运动规划算法和特定于操作的模型来解决复杂长期规划问题的能力。访问 https://skill-mosaic.github.io 获取演示和示例。
arXiv:2504.16727v1 交叉公告类型:
摘要:大型视觉语言模型(LVLMs)在各种视觉-语言任务中表现出色。然而,它们在视角和环境变化导致的真实场景中对象固有的位置、尺度、方向和上下文变化方面的鲁棒性仍然很大程度上未被探索。为了解决这一差距,我们提出了一种名为 V$^2$R-Bench 的全面基准框架,用于评估 LVLM 的视觉变化鲁棒性,涵盖自动评估数据集生成和严格评估的原理性度量标准。通过对 21 种 LVLM 的广泛评估,我们揭示了一个令人惊讶的视觉变化脆弱性,即即使在复杂视觉-语言任务中表现出色的模型,在简单的如物体识别这类任务上表现显著不佳。有趣的是,这些模型表现出一种与有效的感受野理论相悖的视觉位置偏见,并展示了类似人类的视觉敏锐度阈值。为了识别这些脆弱性的来源,我们提出了一种系统的组件级分析框架,包括一种新颖的对齐视觉特征的可视化方法。结果表明,这些脆弱性源于管道架构中的错误积累和多模态对齐不足。通过合成数据进行的补充实验进一步表明,这些限制本质上是架构缺陷,突显了未来 LVLM 设计中架构创新的必要性。
arXiv:2504.16723v1 交叉类型公告
摘要:表情包广泛用于幽默和文化评论,但它们也越来越被用于传播仇恨内容。由于它们的跨模态性质,仇恨表情包往往能够逃避传统的仅文本或仅图像检测系统,尤其是在它们使用微妙的或编码的参考时。为了应对这些挑战,我们提出了一种跨模态仇恨检测框架,该框架整合了关键组件:OCR用于提取嵌入的文本、字幕描述视觉内容、子标签分类以精细分类仇恨内容、基于语境的相关检索RAG,以及迭代分析象征性和语境性线索的VQA。这使得该框架能够发现简单管道无法检测到的潜在信号。实验结果表明,提出的框架在准确性和AUC-ROC方面均优于单模态和传统的跨模态模型,特别是在Facebook仇恨表情包数据集上的表现更为突出。