LLM2D

arXiv 论文列表

作者: Song Kyung Yu, Da Eun Lee, Yunyong Ko, Sang-Wook Kim
arXiv:2502.05827v1 通知类型: cross 摘要:高阶关系预测是一个基于观测网络结构来预测未来高阶关系的基本任务。然而,现有的高阶关系预测方法面临着数据稀疏性的问题。为了缓解这一问题,可以使用负样本方法,这种方法利用不存在的高阶关系作为模型训练的对比信息。然而,以下重要挑战很少被研究:(C1) 缺乏生成负样本的指导和 (C2) 产生假负样本的可能性。为了解决这些问题,我们提出了一种新颖的高阶关系预测方法 HyGEN,该方法采用 (1) 一种负高阶关系生成器,利用正高阶关系作为指导生成更现实的高阶关系,以及 (2) 一种正则化项,防止生成的高阶关系成为假负样本。在六个真实世界的高阶关系图上的广泛实验表明,HyGEN 一致地优于四种最先进的高阶关系预测方法。
发布时间: 2/11/2025
查看原文
arXiv:2502.05826v1 宣告类型: cross 摘要: MindCraft 是一个现代平台,旨在通过利用人工智能(AI)来革命化印度农村地区的教育,创造个性化学习体验,提供导师指导,并促进资源共享。在教育资源的质量很大程度上受到地理和社会经济状况影响的国家,农村学生在教育旅程中往往面临巨大的障碍。MindCraft 旨在通过利用 AI 来创建定制化的学习路径,连接学生与导师,并建立跨越物理和数字鸿沟的教育资源协作网络。本文探讨了农村学生面临的挑战、人工智能的转变潜力,以及 MindCraft 如何提供一种可扩展且可持续的解决方案,以实现公平的教育体系。通过关注包容性、个性化学习和导师指导,MindCraft 致力于赋能农村学生,使他们具备在日益数字化的世界中生存所需的知识、技能和机会。最终,MindCraft 希望创造一个未来,在这个未来中,技术不仅弥合了教育鸿沟,还能成为实现更包容和赋能社会的动力。
发布时间: 2/11/2025
查看原文
arXiv:2502.05825v1 类型: cross 摘要:大型语言模型(LLMs)在自然语言处理方面展现了强大的能力,但在生成事实错误或伪造内容方面仍然容易出现幻觉。这一问题削弱了它们的可靠性,特别是在医疗保健和法律咨询等高风险领域。为了解决这一挑战,我们提出了一种名为Delta的推理时方法,该方法可以在不需重新训练模型或增加额外数据的情况下减少幻觉。Delta通过随机遮挡输入提示的部分内容,并对比原始输入和遮挡输入的输出分布,有效地通过仅推理计算来抑制幻觉。我们在上下文丰富的问答基准上评估了Delta,分别在SQuAD v1.1和v2上实现了约3和6个百分点的绝对改进,并在TriviaQA和Natural Questions下采样解码上分别达到了7和2个百分点的改进。Delta还在SQuAD v2上提高了无答案精确匹配分数超过10个百分点,表明其在减少由上下文歧义引起的幻觉方面具有有效性。这些结果突显了Delta作为一种计算效率高且可扩展的方法,在实际应用中提高LLM可靠性的潜力。
发布时间: 2/11/2025
查看原文
作者: Wenfang Sun, Xinyuan Song, Pengxiang Li, Lu Yin, Yefeng Zheng, Shiwei Liu
arXiv:2502.05795v1 命名类型: cross 摘要: 在本文中,我们引入了“深度诅咒”这一概念,该概念突出、解释并解决了现代大型语言模型(LLMs)中的一项最近观察结果,其中近一半的层比预期的更不有效。我们首先确认了这一现象在最流行的LLM家族(如Llama、Mistral、DeepSeek和Qwen)中普遍存在。我们的分析(理论和实证)表明,大语言模型中深层层无效的根本原因是前期层规范化(Pre-LN)的广泛应用。虽然Pre-LN稳定了Transformer LLM的训练,但其输出方差随模型深度呈指数增长,这无意中导致深层Transformer块的导数为单位矩阵,从而对训练几乎没有贡献。为了解决这一训练缺陷,我们提出了一种层规范化缩放(LayerNorm Scaling)的方法,该方法通过层规范化输出的方差与深度的平方根成反比进行缩放。这种简单的修改缓解了更深的Transformer层的输出方差爆炸,提高了它们的训练贡献。我们的实验结果显示,从130M到1B规模的模型,层规范化缩放显著提升了LLM预训练性能,而且这种改进无缝地转移到了监督微调中。所有这些收益都可以归因于层规范化缩放使得深层层在训练过程中可以更有效地贡献。
发布时间: 2/11/2025
查看原文
作者: Xing Jiang, Xiting Zhuang, Jisheng Chen, Jian Zhang
arXiv:2502.05788v1 宣布类型: cross 摘要:在本研究中,我们通过将通道和空间注意力机制集成到YOLOv8的骨干网络中,利用FasterNeXt中的点卷积为FasterPW模型应用点wise卷积,并利用BiFPN启发的WFPN结构中的加权拼接来增强跨尺度连接和鲁棒性。通过使用CARAFE进行细化特征重组,我们的框架解决了水下图像退化问题,在URPC2019和URPC2020数据集上分别实现了0.5 IOU阈值下的mAP为76.7%和79.0%,这两项指标分别比原始YOLOv8高2.3%和0.7%,展示了在检测海洋生物方面的增强精度。
发布时间: 2/11/2025
查看原文
作者: Ying Lei, Yancheng Cao, Will Wang, Yuanzhe Dong, Changchang Yin, Weidan Cao, Ping Zhang, Jingzhen Yang, Bingsheng Yao, Yifan Peng, Chunhua Weng, Randy Auerbach, Lena Mamykina, Dakuo Wang, Yuntao Wang, Xuhai Xu
arXiv:2502.05783v1 宣布类型: cross 摘要: 尽管即时干预(JITIs)已经有效地针对了常见的健康行为,但个人往往需要特定的干预措施来纠正那些会对身心和社会福祉产生负面影响的个人不良行为。我们提出了一种基于智能手表的即时干预系统WatchGuardian,使用户能够通过少量样本定义自定义干预措施。为了使模型能够基于有限的新数据样本检测新的行为,我们开发了一种 few-shot 学习流水线,在公共手势数据集上对预训练的惯性测量单元(IMU)模型进行了微调。然后,我们设计了一个数据增强和合成过程,用于培训额外的分类层以实现个性化。我们对26名参与者的离线评估结果显示,在三种、五种和十种示例下,我们的方法分别实现了平均准确率为76.8%、84.7%和87.7%,以及F1分数74.8%、84.2%和87.2%。随后,我们在四小时的干预研究中将WatchGuardian与基于规则的干预进行了比较。我们的结果表明,我们的系统在不良行为减少方面达到了64.0 ± 22.6%,显著优于基线的29.0%。我们的研究结果强调了可定制的、以人工智能驱动的即时干预系统对于需要行为干预的个人的有效性。我们设想我们的工作可以启发更加广泛的应用,即通过先进的AI解决方案实现用户定义的个性化干预。
发布时间: 2/11/2025
查看原文
arXiv:2502.05777v1 事故类型: cross 摘要:传统的自动化事故分析系统 heavily rely on 高度依赖 静态统计模型和历史数据,需要大量的手动解释,并且缺乏实时预测能力。本研究提出了一种通过集成集成学习方法和多模态数据融合来进行实时事故风险评估和预测的创新性分析方法。我们的主要贡献在于开发了一个层次化的严重程度分类系统,该系统结合了时空事故模式与环境条件,相对于传统的统计方法实现了显著的改进。该系统显示出0.893的平均精确度(mAP),相比于当前最先进的方法(基线mAP: 0.776)提高了15%。我们引入了一种新颖的功能工程技术,将事故位置数据与事件报告和天气条件相结合,实现了92.4%的风险预测准确率和89.7%的热点识别精确度。通过使用500,000个初始事故记录筛选出59,496个高质量样本的广泛验证,我们的解决方案在预测准确性和计算效率方面均表现出显著改进。关键创新包括一个稳健的数据清洗管道、自适应特征生成以及一个可处理每秒1,000个并发请求并保持亚100毫秒响应时间的可扩展实时预测系统。
发布时间: 2/11/2025
查看原文
作者: Junbo Li, Zhangyang Wang, Qiang Liu
arXiv:2502.05773v1 标题类型: cross 摘要:对于语言模型如直接偏好优化(DPO)而言,离线偏好对齐因其有效性和简单性而受到青睐,消除了昂贵的强化学习需求。各种离线算法已经为不同的数据设置开发出来,但它们缺乏统一的理解。 在这项研究中,我们引入了基于先验信息的偏好对齐(PIPA),这是一种无需强化学习的统一概率框架,将语言模型偏好对齐问题形式化为具有先验约束的最大似然估计(MLE)问题。该方法有效地兼容了成对和非成对数据,以及答案和步骤级别的注释。我们展示了DPO和KTO是我们在框架内的不同先验约束下的特殊案例。通过整合不同类型的先验信息,我们开发了PIPA的两种变体:PIPA-M和PIPA-N。这两种算法在所有配置下均在GSM8K和MATH基准上表现出3%至10%的性能提升,并且在与现有算法相比无需额外的训练或计算成本的情况下实现了这些改进。
发布时间: 2/11/2025
查看原文
作者: Yijun Yang, Lichao Wang, Xiao Yang, Lanqing Hong, Jun Zhu
arXiv:2502.05772v1 安全类型: 横向 摘要:视觉大型语言模型(VLLMs)整合了视觉数据处理,扩展了其现实世界的应用,但也增加了生成不安全响应的风险。为应对这一问题,领先公司已实施多层次的安全防御,包括校准训练、安全系统提示和内容审查。然而,它们对复杂对手攻击的有效性尚未得到充分探索。在本文中,我们提出了一种新的攻击框架——Multifaceted Attack,旨在系统地绕过VLLMs中的多层次防御。该框架包括三个互补的攻击面:视觉攻击,通过利用VLLMs的多模态性质,在图像中注入有毒系统提示;对齐破坏攻击,操纵模型的对齐机制,使其优先生成对立的响应;以及对抗签名,通过在响应末尾放置误导性信息欺骗内容审查员。在黑盒设置下,对八个商用VLLMs的广泛评估表明,Multifaceted Attack 的攻击成功率达到了61.56%,比最先进的方法高出至少42.18%。
发布时间: 2/11/2025
查看原文
作者: Kaizhen Zhu, Mokai Pan, Yuexin Ma, Yanwei Fu, Jingyi Yu, Jingya Wang, Ye Shi
arXiv:2502.05749v1 类型: cross 摘要: 近年来,在扩散桥模型方面的进展利用了Doob的h-变换来在分布之间建立固定端点,这一方法在图像翻译和修复任务中展现了有前途的结果。然而,这些方法经常生成模糊或过度平滑的图像细节,并且缺乏一个全面的理论基础来解释这些不足。为了解决这些局限性,我们提出了基于随机最优控制(SOC)的统一扩散桥框架UniDB。UniDB通过基于SOC的优化问题进行了建模,并推导出了最优控制器的闭合形式解,从而统一和泛化了现有的扩散桥模型。我们证明了现有使用Doob的h-变换的扩散桥模型构成我们框架的特殊情况,当SOC代价函数中的终端惩罚系数趋向无穷大时出现。通过引入可调的终端惩罚系数,UniDB在控制成本和终端惩罚之间实现了最佳平衡,显著提高了细节保留和输出质量。值得注意的是,UniDB无缝地与现有的扩散桥模型集成,只需要少量的代码修改。广泛的实验在不同类型的图像修复任务中验证了所提出框架的优越性和适应性。我们的代码可在https://github.com/UniDB-SOC/UniDB/获得。
发布时间: 2/11/2025
查看原文