LLM2D

arXiv 论文列表

作者: Juan David Salazar Rodriguez, Sam Conrad Joyce, Julfendi
arXiv:2504.13948v2 宣告类型: 交叉替换 摘要:本研究探讨了定制化的 GPT 模型如何增强建筑学学生在生成 AI 驱动图像时的提示技巧。由于生成 AI 工具的广泛应用,提示工程在建筑学教育中的重要性逐年增加。本研究采用混合方法实验设计,将建筑学学生分为三个不同的小组:一个控制组不提供任何结构化支持,一个提供结构化提示指南的小组,以及一个同时提供结构化指南和互动 AI 人格的小组。学生们参与逆向工程任务,首先猜测提供的图像提示,然后生成自己的提示,旨在提高他们的批判性思维和提示技巧。研究中考虑的变量包括花费在提示上的时间、字数、提示相似度和具体性。定量分析包括这些变量之间的相关性评估和单因素方差分析,以评估不同组之间的差异。虽然有几个相关性显示出重要的关系,但并非所有关联都具有统计学意义。方差分析结果表明,在使用 AI 人格和结构化提示指南支持的组中,字数、相似度和具体性有统计学上的显著改善。定性反馈补充了这些发现,显示学生们的信心和批判性思维技能有所提升。研究结果表明,量身定制的 GPT 互动显著提高了学生清晰有效地传达建筑概念的能力。
发布时间: 4/28/2025
查看原文
作者: Sebastian Seidel, Uwe M. Borghoff
arXiv:2504.12446v2 通告类型: replace-cross 摘要:人工智能(AI)已经因其深度学习和自然语言处理的进步,以及大规模数据和计算资源的支持,成为推动各行业变革的力量。尽管其快速普及,但AI系统的不透明性给信任和接受带来了重大挑战。 本文探讨了连接主义和符号方法在人工智能领域的交汇,重点关注从前向神经网络(FNN)推导出可解释的符号模型,如决策树。决策树提供了一个透明的框架,用于阐明神经网络的操作,同时保留其功能。推导过程以逐步的方式进行,并通过几个示例进行了说明。提出了一种系统的方法,通过利用FNN中的分布式表示来识别符号组件,包括填充项、角色及其相互关系。该过程跟踪网络层中神经元激活值和输入配置的变化,将激活及其底层输入映射到决策树的边。由此产生的符号结构有效地捕捉了FNN的决策过程,并通过迭代优化每个隐藏层的子路径来实现对更深网络的扩展性。 为了验证理论框架,使用Keras .h5-data并在Java JDK/JavaFX环境中模拟TensorFlow开发了一个原型。该原型证明了从神经网络中提取符号表示的可行性,增强了对AI系统的信任,并促进了责任性。
发布时间: 4/28/2025
查看原文
作者: Akram Mustafa, Usman Naseem, Mostafa Rahimi Azghadi
arXiv:2504.08040v2 宣告类型: replace-cross 摘要:临床文档分类对于将未结构化的医疗文本转换为标准的ICD-10诊断至关重要,但由于复杂的医疗语言、隐私限制和有限的标注数据集,它面临着挑战。大型语言模型(LLMs)在这一任务上提供了一种有希望的精确度和效率的改进方式。这项研究评估了八种LLMs的表现和一致性;其中包括四种推理型(Qwen QWQ,Deepseek Reasoner,GPT o3 Mini,Gemini 2.0 Flash Thinking)和四种非推理型(Llama 3.3,GPT 4o Mini,Gemini 2.0 Flash,Deepseek Chat)模型,在使用MIMIC-IV数据集分类临床出院摘要时的表现。通过cTAKES结构化临床叙述,模型在三个实验运行中进行了评估,最终预测通过多数投票确定。结果表明,推理型模型在精确度(71% vs 68%)和F1分数(67% vs 60%)上优于非推理型模型,Gemini 2.0 Flash Thinking在精确度(75%)和F1分数(76%)上表现最优。然而,非推理型模型在一致性方面表现更为稳定(91% vs 84%)。不同ICD-10代码的表现各异,推理型模型在复杂案例中表现突出,但在抽象类别方面却表现不佳。研究结果表明,在精确度和一致性之间存在权衡,这表明混合方法可能在临床编码中优化表现。未来的研究应探索多标签分类、领域特定微调和集成方法,以增强模型在实际应用中的可靠性。
发布时间: 4/28/2025
查看原文
作者: Zhiwei Xu, Yujuan Wu, Shiheng Wang, Jiabao Gao, Tian Qiu, Ziqi Wang, Hai Wan, Xibin Zhao
arXiv:2504.07839v2 通告类型: replace-cross 摘要:入侵检测系统(IDS)一直是网络安全社区的热点话题。近年来,随着深度学习(DL)技术的引入,IDS由于其不断增强的通用性取得了显著进步。这一进步背后的原因是通过学习已知系统行为的底层模式,IDS检测可以推广到利用零日漏洞的入侵行为。在这篇综述中,我们将这种类型的IDS称为基于深度学习的IDS(DL-IDS)。从深度学习的角度出发,这篇综述系统地回顾了DL-IDS的所有阶段,包括数据收集、日志存储、日志解析、图总结、攻击检测和攻击调查。为了适应当前的研究者,还包括了一部分内容,描述了现有的公开可用基准数据集。此外,这篇综述进一步讨论了当前面临的挑战和可能的未来研究方向,旨在帮助研究者理解DL-IDS研究的基本思想和愿景,并激发他们的研究兴趣。
发布时间: 4/28/2025
查看原文
arXiv:2504.06643v3 宣告类型: replace-cross 摘要:无监督多变量时间序列异常检测(UMTSAD)在金融、网络和传感器系统等多个领域发挥着关键作用。近年来,由于深度学习在一般顺序任务中的出色表现,许多模型专门用于深度UMTSAD任务并取得了令人印象深刻的成果,特别是基于Transformer和自我注意力机制的模型。然而,这些模型底层的序列异常关联假设往往局限于特定预定义的模式和场景,如集中的或峰值的异常模式。这些限制阻碍了它们在各种异常情况下的泛化能力,尤其是标签缺乏的情况下构成了重大挑战。为了应对这些问题,我们提出了AMAD,它将**A**uto**M**asked Attention 结合到UMTS**AD** 场景中。AMAD 引入了一种基于AutoMask机制的新结构和注意力mixup模块,形成了一个简单且通用的异常关联表示框架。该框架通过最大最小训练策略和局部-全局对比学习方法进一步增强。通过结合多尺度特征提取与自动相对关联建模,AMAD 提供了一种针对UMTSAD挑战的 robust 和可适应的解决方案。大量实验结果表明,该提出的模型在多种数据集上与最先进的基准相比,达到了具有竞争力的性能结果。
发布时间: 4/28/2025
查看原文
作者: Szymon Mazurek, Jakub Caputa, Jan K. Argasi\'nski, Maciej Wielgosz
arXiv:2504.05341v2 宣告类型: replace-cross 摘要:在脉冲神经网络(SNNs)中出现的三因子学习规则已成为传统希伯尔学习和时间依赖突触可塑性(STDP)的关键扩展,通过引入神经调节信号来提高适应性和学习效率。这些机制增强了生物可行性,并促进了人工神经系统的责任归因改进。本文从机器学习的角度探讨了这一主题,概述了近来在三因子学习方面的进展,讨论了其理论基础、算法实现及其与强化学习和神经形态计算的相关性。此外,我们还探讨了跨学科方法、可扩展性挑战以及在机器人技术、认知建模和AI系统中的潜在应用。最后,我们强调了关键的研究空白,并提出了弥合神经科学与人工智能之间差距的未来方向。
发布时间: 4/28/2025
查看原文
作者: Kidist Amde Mekonnen, Yubao Tang, Maarten de Rijke
arXiv:2504.05181v2 宣布类型: replace-cross 摘要:生成式信息检索(GenIR)是一种有前途的神经检索范式,将文档检索建模为文档标识符(docid)生成任务,从而实现面向统一全局检索目标的端到端优化。然而,现有的GenIR模型存在token级别的对齐问题,其中训练模型预测下一个token往往难以有效捕捉文档级别的相关性。虽然基于强化学习的方法,如相关反馈强化学习(RLRF),试图通过奖励建模来解决这种对齐问题,但它们引入了显著的复杂性,需要优化一个辅助奖励函数,随后进行强化学习微调,这在计算上非常昂贵且往往不稳定。为了解决这些挑战,我们提出直接文档相关性优化(DDRO),通过直接优化来使token级别的docid生成与文档级别的相关性估计对齐,从而消除显式的奖励建模和强化学习的需要。在MS MARCO文档和自然问题等基准数据集上的实验结果表明,DDRO在MS MARCO上的MRR@10上优于基于强化学习的方法,提升了7.4%,在自然问题上的提升则达到了19.9%。这些发现突显了DDRO在简化优化方法下增强检索效果的潜在价值。通过将对齐问题视为直接优化问题,DDRO简化了GenIR模型的排名优化流水线,同时为基于强化学习的方法提供了可行的替代方案。
发布时间: 4/28/2025
查看原文
作者: Haowei Lin, Xiangyu Wang, Ruilin Yan, Baizhou Huang, Haotian Ye, Jianhua Zhu, Zihao Wang, James Zou, Jianzhu Ma, Yitao Liang
arXiv:2504.02810v2 更新类型: 替换交叉 摘要:随着强大语言模型(LLMs)展现出超人的推理能力,一个关键问题出现了:LLMs 是否真正进行了推理,还是仅仅回忆起了它们广泛抓取的训练数据集中的答案?一旦公开发布的基准被纳入后续LLMs的训练集,它们作为可靠评估工具的有效性就会受到削弱。为了解决这个问题,我们引入了KUMO,这是一种专门用于评估LLMs推理能力的生成性评估框架。KUMO 独特地结合了LLMs与符号引擎,动态生成多样化、多回合的推理任务,这些任务部分可观察并且可以调整难度。通过自动化的工作流程,KUMO 不断生成跨开放式领域的新型任务,促使模型展示真正的泛化能力而不是记忆能力。我们在KUMO生成的100个领域中的5000个任务上评估了23种最先进的LLMs,并将它们的推理能力与大学生进行了基准测试。我们的研究发现,许多LLMs在简单的推理任务上超过了大学水平的表现,而推理调整过的LLMs在复杂的推理挑战上达到了大学水平。此外,LLMs在KUMO任务上的表现与其在新发布的现实世界推理基准上的结果之间具有强烈的关联性,这突显了KUMO作为一种强大的持久性评估工具的价值,用于评估真正的LLMs推理能力。
发布时间: 4/28/2025
查看原文
arXiv:2503.14976v3 公告类型: 替换-横跨 摘要:线性回归(LR)方法的优点在于可以相对容易地计算出最优参数,尽管其表示能力有限,不及深度学习技术。为了改进深度强化学习,Levine等人提出了最少二乘深度Q网络(LS-DQN)方法,该方法将深度Q网络(DQN)与LR方法结合在了一起。然而,LS-DQN方法假设动作是离散的。在本研究中,我们提出了双重最少二乘深度确定性策略梯度(DLS-DDPG)方法来解决这一限制。该方法结合了LR方法和深度确定性策略梯度(DDPG)技术,后者是用于连续动作情况的代表性深度强化学习算法之一。对于批评网络的LR更新,DLS-DDPG使用了一种类似于调整后的Q迭代的算法,这是LS-DQN所采用的方法。此外,我们使用拟牛顿方法计算出了最优动作,并将其作为代理动作和行动者网络的LR更新的训练数据。在MuJoCo环境中进行的数值实验表明,所提出的方法至少在某些任务中提高了性能,尽管存在如正则化项难以减小等困难。
发布时间: 4/28/2025
查看原文
作者: Felipe Azua, Leopoldo Bertossi
arXiv:2503.14469v2 通知类型: 交叉替换 摘要: 已经提出了不同的归因得分来量化数据库元组对查询答案的相关性。其中,我们发现了因果责任、Shapley值、Banzhaf权力指数和因果效应。它们主要从计算属性的角度进行了分析。在本文中,我们在基于手头的查询的基础上开始调查这些得分的一致性;也就是说,它们是否诱导元组的兼容排序。我们能够识别出一些查询类别的元组对,在这些类别中,某些得分总是对齐的,而在其他类别中则不是。值得注意的是,外生元组的存在在这方面的存在性差异起到了关键作用。
发布时间: 4/28/2025
查看原文