LLM2D

arXiv 论文列表

arXiv:2505.08834v1 交叉类型: cross 摘要:我们的研究主要集中在人群场景分析的两个主要应用:人群计数和异常检测。近年来,人群计数领域的研究呈指数增长。我们在这个领域中解决了两个主要挑战:1)深度学习模型依赖大量数据,总是需要大量的标记数据来进行算法的训练。标注如此大量的数据是一项耗时且成本高昂的任务。自我监督训练被提出以应对这一挑战;2)MCNN由具有不同尺寸滤波器的多列CNN组成,我们提出了一种基于自我监督训练和多列CNN结合的新方法,这使得模型能够在不同层次学习特征,并使其能够有效应对遮挡场景、不均匀密度、复杂背景和尺度不变性等挑战。所提出的模型在公开可用的数据集如上海Tech和UCFQNRF上通过MAE和MSE进行了评估。基于VGG19的时空模型被提出用于人群异常检测,以应对光照环境条件、意外物体和可扩展性等挑战。该模型提取空间和时间特征,使其能够泛化到真实场景中。空间特征使用CNN学习,而时间特征使用LSTM块学习。该模型进行二分类,可以检测正常或异常行为。通过用密集残差块取代全连接层,模型性能得到了提升。对冰球斗殴数据集和SCVD数据集的实验表明,我们的模型优于其他先进方法。
发布时间: 5/15/2025
查看原文
作者: Wenhao Jiang, Yuchuan Luo, Guilin Deng, Silong Chen, Xu Yang, Shihong Wu, Xinwen Gao, Lin Liu, Shaojing Fu
arXiv:2505.08830v1 宣告类型: cross 摘要:大型语言模型(LLMs)和联邦学习(FL)的结合为在分布式数据上进行联合培训提供了前景,同时保持隐私并解决数据孤岛问题。然而,这一新兴领域,即联邦大型语言模型(FLLM),面临诸多挑战,包括通信和计算开销、异构性、隐私和安全问题。当前的研究主要集中在FLLM的可能性上,但未来趋势预计将更侧重于增强系统的稳健性和安全性。本文对FLLM的最新进展进行了全面的回顾,从四个关键视角审视挑战:可行性、稳健性、安全性和未来方向。我们对现有关于FLLM可行性的研究进行了详尽的综述,介绍了在资源、数据和任务异构性面前增强稳健性的方法,并分析了该集成带来的新型风险,包括隐私威胁和安全挑战。我们还回顾了最新的防御机制进展,并探讨了如少样本学习、机器遗忘和知识产权保护等有前途的未来研究方向。本文突出了进一步研究的紧迫需求,旨在增强系统的稳健性和安全性,同时解决联邦学习与大型语言模型集成所带来的独特挑战。
发布时间: 5/15/2025
查看原文
arXiv:2505.08829v1 类型: cross 摘要:一个输出有关世界状态预测的算法几乎总是会被隐含或明确地设计为输出准确的预测(即,预测很可能是正确的)。此外,由于近年来人工智能革命带来了越来越强大的预测算法,人们开始重视构建预测算法,这些算法在意义上是公平的,即它们的预测不会系统性地表现出偏见或对特定个人或群体造成伤害。这种局面提出了两个概念性的挑战。首先,准确性和公平性的目标有时是矛盾的,当它们发生冲突时,并没有明显的规定来管理这两项需求之间的权衡。其次,在衡量准确性和公平性方面,存在多种不同的方式;同样,在如何将满足不同公平性和准确性的度量标准的预测算法的偏好聚合起来以不同程度上满足这些标准方面,也没有明显的规定。本文的目标是通过论证使用准确性和公平性度量的线性组合来衡量同时关心准确性和公平性的代理全方面的价值是有充分理由的,从而解决这些问题。我的论证在偏好聚合文献中依赖于哈尔西尼的经典结果。在进行这一形式论证之后,我将我的结果应用于安吉文等人编制的COMPAS数据集的准确性和公平性权衡分析中。
发布时间: 5/15/2025
查看原文
作者: Eduardo Araujo Oliveira, Madhavi Mohoni, Sonsoles L\'opez-Pernas, Mohammed Saqr
arXiv:2505.08828v1 交叉类型: cross 摘要:随着人类与AI在教育领域的协作越来越多,理解和衡量这种互动的范围和性质提出了重大的挑战。本研究探讨了使用作者身份验证(AV)技术,不仅仅作为一种惩罚措施,而是作为一种量化学术写作中AI辅助手段的方法,重点在于促进透明度、可解释性和学生发展。在前人工作的基础上,我们将研究划分为三个阶段:数据集选择和扩充、AV方法开发以及系统评估。利用三个数据集——包括一个公共数据集(PAN-14)和来自墨尔本大学不同课程的学生数据——我们扩充了数据,包括生成式语言模型(LLM)生成的文本,总计包括1,889份文档和540个作者身份问题,涉及506名学生。我们开发了一种适应性的特征向量差异AV方法,用于为学生构建稳健的学术写作档案,旨在捕捉他们写作中具有重要意义的个体特征。该方法在多个场景下进行了评估,包括区分学生作者和LLM生成的文本,并测试其抵抗LLM模仿学生写作风格的能力。结果表明,改进的AV分类器能够识别风格统计上的差异,并在单词和句子层级上衡量人类与AI的合作程度,同时为教育工作者提供了一个透明的工具来支持学术诚信调查。这项工作推进了AV技术的发展,提供了有关AI驱动时代学术写作动态的实际见解。
发布时间: 5/15/2025
查看原文
作者: Toby Simonds, Kevin Lopez, Akira Yoshiyama, Dominique Garmier
arXiv:2505.08827v1 宣言类型: cross 摘要:我们演示了大型语言模型可以通过自我评判有效地自我提高,而无需参考答案,利用生成和验证答案之间的固有不对称性。我们在 Countdown 拼图和 MIT 积分竞赛问题上的实验表明,模型可以在没有真实答案的情况下提供可靠的奖励信号,从而在以前不可能的领域实现强化学习。通过实施自我评判,我们在保持与正式验证一致的情况下实现了显著的性能提升。在与合成问题生成结合使用时,我们建立了一个完整的自我改进循环,其中模型生成练习问题、解决这些问题并评估自己的表现,Qwen 2.5 7B 在基准之上实现了 8% 的改进,并在积分任务上超越了 GPT-4o 的性能。我们的研究结果表明,LLM 判定者可以为训练模型提供有效的奖励信号,解锁了许多由于难以创建程序奖励而受限的强化学习环境。这暗示了一个潜在的范式转变,即通过自我导向学习而非人工指导训练来实现 AI 系统的持续改进,这可能加快了在稀缺训练数据或复杂评估要求领域的进步。
发布时间: 5/15/2025
查看原文
作者: Pedro Antonio Alarcon Granadeno, Theodore Chambers, Jane Cleland-Huang
arXiv:2505.08825v1 类别: cross 摘要: 工业灾难如博帕尔灾难(1984年)和阿利索峡谷天然气泄漏(2015年)表明,快速可靠的烟雾追踪算法对于保护公共健康和环境至关重要。传统方法,如梯度基方法或受生物学启发的方法,往往在现实的湍流条件下失效。为了应对这些挑战,我们提出了一种用于利用小型无人驾驶航空系统(sUAS)集群定位多个空气污染源的多智能体强化学习(MARL)算法。该方法将问题建模为部分可观测马尔可夫游戏(POMG),并采用基于长短期记忆(LSTM)的动作特定双深循环Q网络(ADDRQN),使用全部的历史动作-观察对序列,有效地近似潜在状态。与以往工作不同,我们基于高斯烟雾模型(GPM)构建了一个通用仿真环境,包含三维环境、传感器噪声、多个相互作用的智能体和多个烟雾源等现实元素。将行动历史作为输入的一部分进一步增强了模型在复杂、部分可观测环境中的适应性。广泛的仿真结果显示,我们的算法显著优于传统方法。具体来说,我们的模型仅让智能体探索环境的1.29%即可成功定位污染源。
发布时间: 5/15/2025
查看原文
作者: Cody Steinmetz, Gavin Childress, Aaron Herbst, Gavin Jones, Jasdeep Singh, Eli Vang, Keagan Weinstock
arXiv:2505.08823v1 Announce Type: cross 摘要:大规模语言模型(LLMs)已经改变了自然语言处理,但它们的规模使得实际部署成本高昂。后训练量化减少了内存和计算,但经常会降低准确性,而量化感知训练则可以在增加额外训练成本的情况下恢复性能。将量化推到三值(2位)领域可以带来更大的节省,但众所周知非常不稳定。基于最近的研究,研究工作表明,在无偏差、RMS归一化的Transformer中使用直通估计可以达到1.58位精度,我们证明,通过在每个线性投影之前插入RMS归一化并在层基础上应用渐进的量化计划,可以稳定地将全精度检查点微调为三值LLMs。我们的方法在标准语言模型基准上达到了或超过了更复杂的知识蒸馏管道的效果,而无需增加模型复杂性。这些结果表明,单独的仔细归一化可以缩小三值和全精度LLMs之间大部分的准确性差距,使超低位数推理变得可行。
发布时间: 5/15/2025
查看原文
作者: Meryem Altin Karagoz, Marc D. Breton, Anas El Fathi
arXiv:2505.08821v1 交叉发布类型: cross 摘要:准确的血糖预测可以为1型糖尿病的治疗引入新的干预措施,包括个性化的胰岛素和饮食调整。尽管基于变换器的架构在复杂多变量时间序列预测中展示了注意力机制的强大能力,但它们在血糖(BG)预测中的潜力尚未充分探索。我们对变换器模型进行了比较分析,针对4小时内的多时区血糖预测,并检查了长达1周的输入历史。公开可用的DCLP3数据集(n=112)按(80%-10%-10%)的比例分为用于训练、验证和测试,而OhioT1DM数据集(n=12)用作外部测试集。我们使用CGM、胰岛素和餐食数据训练了基于点、块、序列和混合嵌入的网络。对于短期血糖预测,一种块级变换器架构Crossformer实现了30分钟预测的最佳RMSE(OhioT1DM上的15.6 mg/dL)。对于更长期的预测(1小时、2小时和4小时),另一个块级变换器PatchTST取得了最低的RMSE(OhioT1DM上的24.6 mg/dL、36.1 mg/dL和46.5 mg/dL)。总体而言,使用块进行标记化处理的模型在较长的输入大小下显示出了更高的准确性,最好的结果是使用一周的历史数据得到的。这些发现突显了基于变换器的架构在捕获并利用多变量时间序列数据中的季节性模式以提高预测准确性方面的潜力。
发布时间: 5/15/2025
查看原文
arXiv:2505.08818v1 类型: cross 摘要:视觉语言模型(VLM)的开发、适应和应用的复杂性和多面性要求在高风险的医疗环境中建立清晰和标准化的报告规范。由于涉及VLM的研究性质多样,从新的VLM开发到领域对齐的微调,再到针对特定诊断和预测任务的现成使用VLM,定义这些报告标准本身就具有挑战性。在这篇立场声明中,我们认为传统的机器学习报告标准和评估指南需要重新调整,以适应多阶段的VLM研究;同时也需要组织得当,让用户易于理解,同时保持可复制性的严格标准。为促进社区采用,我们提出了VLM研究的分类框架,并概述了相应的报告标准,这些标准全面涵盖了性能评估、数据报告规范以及关于文章编写建议。这些指南是根据提出的分类方案组织的。最后,我们提出了一个检查表,汇集了报告标准,提供了一个标准化工具,以确保VLM相关研究发表的一致性和质量。
发布时间: 5/15/2025
查看原文
作者: Wenkai Li, Xiaoqi Li, Yingjie Mao, Yishun Wang
arXiv:2505.08814v1 Announce Type: cross 摘要:深度神经网络(DNNs)在人工智能领域发挥着关键作用,其安全相关测试已成为研究的重点。通过输入测试案例,检测模型的行为异常,并利用覆盖率指标来确定这些测试案例覆盖的神经元程度。随着DNNs的广泛应用和不断进步,不同类型神经行为引起了关注,导致出现了各种神经网络覆盖率指标。然而,目前缺乏对这些覆盖率指标的实证研究,特别是在分析模型深度、配置信息与神经网络覆盖率之间的关系和模式方面。本文旨在探讨四种覆盖率指标:主要功能、边缘、层次结构和结构覆盖率之间的关系和模式。进行了一系列实证实验,选择了LeNet、VGG和ResNet作为不同的DNN架构,以及从5层到54层的10个不同深度的模型,以比较和研究不同深度、配置信息与各种神经网络覆盖率指标之间的关系。此外,还探讨了修改后的决定/条件覆盖率与数据集大小之间的关系。最后,提出了三个潜在的未来方向,以进一步贡献于DNN模型的安全测试。
发布时间: 5/15/2025
查看原文