arXiv:2409.13546v1 公告类型: 交叉 摘要: 深度神经网络分类器的可靠应用需要对抗扰动的鲁棒性证书。高斯平滑是一种广泛分析的方法,用于证明对范数有界扰动的鲁棒性,其中认证的预测半径取决于高斯噪声的方差和神经网络在加性高斯噪声下的预测置信水平。然而,在应用于高维图像数据集时,普通高斯平滑的认证半径可能相对较小,因为高方差的高斯噪声会显著损害图像的可见性。在这项工作中,我们提出了基于像素分割的随机平滑(PPRS)方法,以提高神经网络的置信度分数,从而提高认证预测的鲁棒性半径。我们证明,所提出的PPRS算法在加性高斯噪声下提高了图像的可见性。我们讨论了将PPRS应用于标准计算机视觉数据集和神经网络架构的数值结果。我们的实证研究发现,在随机平滑中,加性高斯噪声对预测模型的认证准确性和稳定性有显著改善。
arXiv:2409.13538v1 公告类型: 交叉 摘要: 在本报告中,我们介绍了在第二届感知测试挑战赛中多选视频问答赛道的第一名解决方案。该竞赛提出了一项复杂的视频理解任务,要求模型准确理解和回答有关视频内容的问题。为应对这一挑战,我们利用了强大的QwenVL2(7B)模型,并在提供的训练集上对其进行了微调。此外,我们还采用了模型集成策略和测试时间增强技术以提升性能。通过持续优化,我们的方法在排行榜上达到了0.7647的Top-1准确率。
arXiv:2409.13537v1 公告类型: 交叉 摘要: 大型语言模型(LLMs)的最新进展显著提升了智能对话系统处理复杂查询的能力。然而,当前的LLMs在专业领域知识方面仍存在局限性,特别是在农业等技术领域。为解决这一问题,我们提出了基于检索增强生成(RAG)框架和代理架构的智能农业问答系统ShizishanGPT。ShizishanGPT包含五个关键模块:包括用于回答一般问题的通用GPT-4模块;弥补大型语言模型自身知识无法及时更新的搜索引擎模块;提供领域事实的农业知识图谱模块;使用RAG补充领域知识的检索模块;以及调用专用模型进行作物表型预测、基因表达分析等的农业代理模块。我们使用包含100个专门为此研究设计的农业问题的数据集评估了ShizishanGPT。实验结果表明,该工具由于其模块化设计和不同领域知识源的整合,显著优于通用LLMs,提供了更准确和详细的答案。我们的源代码、数据集和模型权重已在https://github.com/Zaiwen/CropGPT公开。
arXiv:2409.13524v1 公告类型: 交叉 摘要: 本文探讨了上下文感知人工智能在提升网络防御能力方面的潜力,揭示了2015年至2024年间研究成果的显著增长。我们发现研究重点在于鲁棒性、可靠性和集成方法,同时指出在组织信任和治理框架方面存在差距。我们的研究采用了两种由大型语言模型辅助的文献调查方法:(A) 使用ChatGPT 4进行探索,以及(B) 使用Gemma 2:9b进行筛选,并结合Claude 3.5 Sonnet进行全文分析。我们讨论了在学术研究中使用大型语言模型的有效性和挑战,为未来的研究人员提供了见解。
道德价值观在早期文明中根深蒂固,被编码在规范和法律中,以调节社会秩序和公共利益。它们在理解人类行为的心理基础和文化取向中起着至关重要的作用。道德基础理论(MFT)是一个成熟的框架,识别了不同文化塑造个人和社会生活的核心道德基础。自然语言处理的最新进展,特别是预训练语言模型(PLMs),使得从文本数据中提取和分析道德维度成为可能。本调查对基于MFT的PLMs进行了全面回顾,分析了PLMs中的道德倾向及其在MFT背景下的应用。我们还回顾了相关数据集和词典,并讨论了趋势、局限性和未来方向。通过提供PLMs与MFT之间交叉点的结构化概述,这项工作在PLMs领域内架起了道德心理学见解的桥梁,为创建具有道德意识的AI系统铺平了进一步研究和发展的道路。
传统联邦学习(FL)框架严重依赖地面网络,其覆盖范围的限制和日益增加的带宽拥塞显著阻碍了模型的收敛。幸运的是,低地球轨道(LEO)卫星网络的进步为增强传统地面FL提供了有前景的新通信途径。尽管存在这种潜力,卫星与地面之间的有限通信带宽以及地面设备的异构操作环境——包括数据、带宽和计算能力的差异——对有效且稳健的卫星辅助FL构成了重大挑战。为应对这些挑战,我们提出了SatFed,一种资源高效的卫星辅助异构FL框架。SatFed采用基于新鲜度的模型优先级队列来优化高度受限的卫星地面带宽的使用,确保传输最关键的模型。此外,构建了一个多图来捕捉设备之间实时的异构关系,包括数据分布、地面带宽和计算能力。该多图使SatFed能够将卫星传输的模型聚合为对等指导,增强异构环境中的本地训练。通过真实世界的LEO卫星网络进行的广泛实验表明,SatFed在性能和鲁棒性方面优于最先进的基准。
arXiv:2409.13501v1 公告类型: 交叉 摘要: 微调预训练语言模型以适应下游任务在自然语言处理中取得了显著成果。然而,由于模型参数规模的迅速增加,微调所有参数变得不切实际。为此,参数高效微调(PEFT)方法仅更新参数的子集。大多数PEFT方法,如LoRA,使用增量更新,即将学习到的权重矩阵增量添加到原始参数中。尽管有效,这些方法在捕捉复杂的参数动态方面存在局限性,并且无法保持原始参数与更新参数之间的强相关性。为了克服这些挑战,我们提出了直接更新变换(UT)范式,该范式直接从原始参数构建到更新参数的变换。这种方法确保了原始参数与更新参数之间的相关性得以保留,并利用了预训练期间学习到的语义特征。在此范式的基础上,我们提出了Hadamard更新变换(HUT)方法。HUT通过使用两个低秩矩阵的Hadamard变换高效地更新原始权重矩阵,提供了一种更具表现力和灵活性的更新机制。这使得HUT能够通过功能变换捕捉更丰富的参数特征,同时降低计算复杂性并保持或提高模型质量。理论分析和在RoBERTa和GPT-2上的广泛实验验证了HUT的有效性。结果表明,HUT在模型质量方面与其他PEFT方法相当或更优,同时显著降低了计算复杂性。
arXiv:2409.13498v1 公告类型: 交叉 摘要: 近期计算机视觉的进展,特别是在检测、分割和分类方面,已显著影响多个领域。然而,这些进展主要依赖于基于RGB的系统,这在废物分类、制药和防御等行业中是不够的,这些行业需要超越形状或颜色的先进物体表征。高光谱(HS)成像通过捕捉光谱和空间信息,解决了这些局限性,并在速度、成本和安全性方面优于传统的X射线荧光和拉曼光谱技术。本研究评估了将HS成像与深度学习结合用于材料表征的潜力。研究包括:i) 设计带有HS相机、传送带和受控照明的实验装置;ii) 生成包含多种塑料(HDPE、PET、PP、PS)的多物体数据集,采用半自动掩码生成和基于拉曼光谱的标签;iii) 开发基于HS图像训练的深度学习模型,用于像素级材料分类。该模型实现了99.94%的分类准确率,展示了在颜色、大小和形状不变性方面的鲁棒性,并有效处理材料重叠。研究还讨论了黑色物体识别等局限性。将计算机视觉从RGB扩展到HS成像被证明是可行的,克服了传统方法的主要局限性,并展示了未来应用的强大潜力。
arXiv:2409.13496v1 公告类型: 交叉 摘要: 自动驾驶车辆和机器人由于RGB摄像机长时间曝光导致的低光照和运动模糊,在夜间往往难以实现可靠的视觉感知。现有方法通过依次连接现成的预训练低光照增强和去模糊模型来应对这一挑战。然而,这些方法通常会在过曝区域产生明显的伪影(例如,色彩失真),或者使得难以学习暗区域的动态线索。本文中,我们有趣地发现视觉-语言模型,例如对比语言-图像预训练(CLIP),能够全面感知夜间图像的多样退化程度。基于此,我们提出了一种新颖的基于Transformer的联合学习框架,命名为DAP-LED,该框架能够同时实现低光照增强和去模糊,从而有利于下游任务,如深度估计、分割和暗光下的检测。关键在于利用CLIP自适应地从夜间图像中学习退化程度。这巧妙地促进了丰富的语义信息和视觉表示的学习,以优化联合任务。为此,我们首先引入了一个CLIP引导的跨融合模块,从图像嵌入中获取多尺度块级退化热图。然后,通过设计的CLIP增强型Transformer块融合这些热图,以保留有用的退化信息,实现有效的模型优化。实验结果表明,与现有方法相比,我们的DAP-LED在暗光条件下达到了最先进的性能。同时,增强结果在三个下游任务中被证明是有效的。有关演示和更多结果,请访问项目页面:\url{https://vlislab22.github.io/dap-led/}。
arXiv:2409.13484v1 公告类型: 交叉 摘要: 大型语言模型 (LLMs) 正越来越多地被用于生成各种语言的文本,用于翻译、客户支持、教育等任务。尽管取得了这些进展,LLMs 在英语中表现出显著的性别偏见,当生成像印地语这样相对较少代表性的语言内容时,这种偏见变得更加明显。本研究探讨了印地语文本生成中的隐性性别偏见,并将其与英语中的偏见进行了比较。我们开发了受 WinoBias 启发的印地语数据集,以检查 GPT-4o 和 Claude-3 sonnet 等模型在响应中的刻板模式。我们的结果显示,印地语中的性别偏见高达 87.8%,而英语 GPT-4o 生成中的偏见为 33.4%,印地语响应经常依赖于与职业、权力等级和社会阶层相关的性别刻板印象。这项研究强调了不同语言间性别偏见的差异,并为在生成性人工智能系统中应对这些偏见提供了考虑因素。