arXiv:2407.18875v2 公告类型: 替换-交叉 摘要: 学习表现数据,如智能辅导系统(ITSs)中对问题的正确或错误回答,对于跟踪和评估学习者的进步和知识掌握至关重要。然而,数据稀疏性问题,表现为未探索的问题和缺失的尝试,阻碍了准确的评估和在ITSs中提供量身定制的个性化指导。本文提出使用生成对抗插补网络(GAIN)框架来插补稀疏的学习表现数据,将其重构为跨学习者、问题和尝试三个维度的三维(3D)张量表示。我们定制的基于GAIN的方法计算过程在3D张量空间中插补稀疏数据,其输入和输出层显著增强了卷积神经网络。这种适应还包括使用最小二乘损失函数进行优化,并使输入和输出的形状与学习者维度上的问题-尝试矩阵的维度对齐。通过对来自AutoTutor、ASSISTments和MATHia等不同ITSs的六个数据集进行广泛实验,我们证明GAIN方法在插补准确性方面通常优于现有的方法,如张量分解和其他基于生成对抗网络(GAN)的方法。这一发现增强了基于人工智能的教育中的综合学习数据建模和分析。
幽默,深深植根于社会意义和文化细节,对机器来说是一个独特的挑战。尽管自然语言处理领域取得了进展,但现实世界中的幽默往往在多模态环境中蓬勃发展,尤其是通过表情包独特地体现出来。本文特别强调了多图像对表情包字幕生成的影响。随后,我们介绍了\textsc{XMeCap}框架,这是一种新颖的方法,采用基于创新奖励模型的监督微调和强化学习,该模型综合考虑了视觉和文本之间的全局和局部相似性。我们的结果在与当代模型的基准测试中显示,无论是单图像还是多图像表情包,以及不同类别的表情包,字幕生成都显著改善。\textsc{XMeCap}在单图像表情包上的平均评分为75.85,在多图像表情包上的平均评分为66.32,分别比最佳基线高出3.71%和4.82%。这项研究不仅在表情包相关研究中开辟了新的前沿,还强调了机器在多模态环境中理解和生成幽默的潜力。
利用大型语言模型(LLMs)的显著进步,人们正积极探索利用LLMs进行指令跟随的机器人导航。这一趋势突显了LLMs在泛化导航推理和多样化语言理解方面的潜力。然而,与之前的下游专业模型相比,在视觉与语言导航(VLN)任务中集成LLMs时,代理性能存在显著差异。此外,语言在解释和促进代理交互中的固有能力在这些集成中往往未被充分利用。本文旨在弥合VLN专业模型与基于LLM的导航范式之间的差距,同时保持LLMs在生成语言导航推理方面的解释能力。通过在冻结的LLM中对齐视觉内容,我们实现了LLMs对视觉观察的理解,并探索了一种将LLMs与导航策略网络结合以进行有效动作预测和导航推理的方法。我们展示了所提出方法的数据效率,并消除了基于LM的代理与最先进的VLN专家之间的差距。
自然语言处理(NLP)研究传统上主要集中在英语上,这主要归因于资源的可用性、研究社区的规模以及市场需求。近年来,NLP领域明显转向多语言研究,认识到在不同语言和文化中实现包容性和有效性的必要性。单语调查通过提供基础见解和资源,有可能补充NLP向多语言趋势的扩展,这些资源对于有效应对全球交流中的语言多样性至关重要。然而,单语NLP调查在文献中极为罕见。本研究通过引入一种创建系统性和全面单语NLP调查的方法填补了这一空白。该方法具有结构化的搜索协议,可用于选择出版物并通过NLP任务的分类法组织它们。我们根据语言资源的可用性及其数据集的注释,对语言资源(LRs)进行了分类,以突出公开可用且机器可操作的LRs。通过应用我们的方法,我们对2012年至2022年间的希腊语NLP进行了系统的文献综述,提供了希腊语NLP研究现状和挑战的全面概述。我们讨论了希腊语NLP的进展,并概述了遇到的希腊语LRs,按可用性和可用性分类。正如我们所展示的,我们提出的方法有助于避免常见陷阱,如数据泄露和污染,并评估每个NLP任务的语言支持。我们认为,对希腊语NLP的系统文献综述是我们方法的一个应用实例,展示了单语NLP调查的益处。类似的应用可以关注那些在NLP进展上落后于充分支持语言的众多语言。
随着人工智能的普及,需要积累和数字传播的数据量大幅增加。由于数据在具有复杂和先进基础设施的数字环境中在线可用,因此实施基于网络安全的各种防御机制至关重要。生成对抗网络(GANs)作为一种深度学习模型,已成为应对不断变化的安全问题的强大解决方案。本调查研究了深度学习模型,特别是GANs,在加强网络安全防御中的重要性。我们的调查旨在探讨GANs在各个领域的已完成工作,如入侵检测系统(IDS)、移动和网络入侵、僵尸网络检测和恶意软件检测。重点是探讨GANs如何在这些领域成为加强网络安全防御的有力工具。此外,本文还讨论了在这些领域使用GANs的挑战和限制,并提出了未来的研究方向。总体而言,本文强调了GANs在增强网络安全措施方面的潜力,并指出了该领域进一步探索的必要性。
本研究探讨了人工智能领域中大型语言模型(LLMs)所涉及的伦理问题。它不仅探讨了LLMs和其他AI系统共同面临的伦理挑战,如隐私和公平性,还特别关注了LLMs独有的伦理问题,如幻觉、可验证的责任归属以及解码审查复杂性。研究强调了应对这些复杂性以确保责任归属、减少偏见并增强LLMs在信息传播中的透明度的重要性。研究提出了缓解策略和LLM伦理的未来方向,倡导跨学科合作,并建议针对特定领域制定伦理框架和适应不同情境的动态审计系统。这一路线图旨在指导LLMs的负责任开发和整合,设想一个由伦理考量主导社会中AI进步的未来。
arXiv:2406.08959v3 公告类型: 替换-交叉 摘要: 人工智能有望在高风险领域如航空中提升人类决策能力,但其应用常受制于不恰当的依赖和与用户决策过程的不匹配等挑战。近期研究表明,许多人工智能系统的核心问题在于其以推荐为中心的设计,即它们提供端到端的推荐,而忽略了决策过程的其他部分。替代的支持范式较为罕见,且现有范式与推荐中心支持的比较尚不明确。在本研究中,我们旨在实证比较推荐中心支持与替代范式——持续支持在航空改航情境下的效果。我们进行了一项包含32名专业飞行员的真实场景混合方法研究。为确保研究场景的质量,我们在研究前进行了由四名额外飞行员参与的焦点小组讨论。我们发现,持续支持能够推动飞行员决策向前发展,使其思维超越系统的限制,并在结合推荐时更快地做出决策,尽管前向支持可能会被打断。参与者的陈述进一步表明,设计目标应从提供推荐转向支持快速信息收集。我们的结果展示了设计更有效、更有帮助的人工智能决策支持系统的方法,超越了端到端的推荐。
arXiv:2406.08805v2 公告类型: 替换-交叉 摘要: 在设计奖励函数困难的情境中,示范是学习代理任务规范的有效替代方案。然而,当机器人具有复杂且不直观的形态时,在代理的动作空间中展示专家行为变得繁琐。我们考虑一个实际情境,其中代理拥有与环境先前交互的数据集,并提供仅观察到的专家示范。典型的观察学习方法通常需要学习逆动态模型或判别器作为训练的中间步骤。这些中间一步模型的错误会在下游策略学习或部署中累积。我们通过直接学习一个多步效用函数来克服这些限制,该函数量化每个动作如何影响代理与专家访问分布的偏离。利用对偶原理,我们推导出DILO(从观察中对偶模仿学习),一种算法,能够利用任意次优数据学习模仿策略,而无需专家动作。DILO将观察学习问题简化为仅学习一个参与者和一个评论者,其复杂性与普通的离线强化学习相似。这使得DILO能够优雅地扩展到高维观察,并在各方面展示出改进的性能。项目页面(代码和视频):$\href{https://hari-sikchi.github.io/dilo/}{\text{hari-sikchi.github.io/dilo/}}$
大型语言模型(LLMs)在网络安全应用中展示了潜力,但也因幻觉和缺乏真实性等问题导致信心下降。现有基准提供了普遍评估,但未能充分解决LLMs在网络安全特定任务中的实际应用方面。为填补这一空白,我们引入了SECURE(安全提取、理解与推理评估),这是一个旨在评估LLMs在现实网络安全场景中表现的基准。SECURE包括六个专注于工业控制系统领域的数据集,用于评估基于行业标准来源的知识提取、理解和推理。我们的研究评估了七种最先进的模型在这些任务中的表现,揭示了它们在网络安全环境中的优缺点,并提供了提高LLMs作为网络安全咨询工具可靠性的建议。
模拟学习并将所学策略转移到现实世界中,具有实现通用机器人的潜力。这种方法的关键挑战在于解决模拟到现实(sim-to-real)的差距。以往的方法通常需要先验的领域特定知识。我们认为,获取此类知识的直接方式是让人类在现实世界中观察并协助机器人策略执行。机器人随后可以通过向人类学习来缩小各种模拟到现实的差距。我们提出了TRANSIC,一种基于人在回路框架的数据驱动方法,以实现成功的模拟到现实转移。TRANSIC允许人类通过干预和在线修正来增强模拟策略,从而全面克服各种未建模的模拟到现实差距。残差策略可以从人类的修正中学习,并与模拟策略集成以实现自主执行。我们展示了我们的方法可以在复杂的接触丰富的操作任务(如家具组装)中实现成功的模拟到现实转移。通过模拟中学习的策略与人类策略的协同整合,TRANSIC作为一种全面的方法,能够有效应对各种常常并存的模拟到现实差距。它展示了与人类努力相适应的扩展性等吸引人的特性。视频和代码可在https://transic-robot.github.io/获取。