LLM2D

arXiv 论文列表

作者: Jianren Wang, Yifan Su, Abhinav Gupta, Deepak Pathak
arXiv:2503.19037v1 宣布类型: cross 摘要:尽管强化学习的随策略方法具有极端的样本效率低下,但已成为现实世界应用中的基本工具。随着基于GPU的模拟技术的最新进展,为强化学习训练收集大量数据的能力已呈指数级增长。然而,研究表明,当前的随策略方法,如PPO,在达到一定规模后无法充分利用并行环境的优势,导致性能饱和。相比之下,进化算法(EAs)通过随机化有效地增加多样性,使它们成为强化学习的自然补充。然而,现有的EvoRL方法因极端的样本效率低下而难以广泛采用。为了解决这些挑战,我们引入了一种新的策略梯度算法——进化策略优化(EPO),该算法结合了进化算法和策略梯度的长处。我们展示了EPO在各种复杂环境中的性能显著提升,并且在并行化模拟中展现了更优的可扩展性。
发布时间: 3/26/2025
查看原文
arXiv:2503.19007v1 公告类型:交叉 摘要:大规模语言模型(LLMs)在推理和决策方面展现了显著的潜力,但它们与强化学习(RL)在复杂机器人任务中的集成仍然未被充分探索。本文提出了一种基于LLM的层次化RL框架,称为LDSC,该框架利用LLM驱动的子目标选择和选项重用,以提高采样效率、泛化能力和多任务适应性。传统的RL方法通常面临探索效率低下和计算成本高的问题。层次化RL有助于解决这些问题,但现有方法在面对新任务时往往无法有效地重用选项。为了解决这些局限性,我们引入了一个三阶段框架,该框架利用LLMs根据任务的自然语言描述生成子目标、一种可重用选项的学习和选择方法以及一个动作级策略,从而在多种任务中实现更有效的决策。通过将LLMs用于子目标预测和策略指导,我们的方法提高了探索效率并增强了学习性能。LDSC在平均奖励上平均优于基线55.9%,证明了其在复杂RL设置中的有效性。更多细节和实验视频可在 \href{https://raaslab.org/projects/LDSC/}{该链接\footnote{https://raaslab.org/projects/LDSC}} 中找到。
发布时间: 3/26/2025
查看原文
arXiv:2503.19006v1 宣告类型:交叉 摘要:对计算机科学(CS)课程各个级别的学生来说,培养人工智能领域的专业能力变得越来越重要。然而,大多数前期研究重点关注高级CS课程,因为传统的入门课程很少提供发展AI技能和知识的机会。本文介绍了一门针对入门级CS课程,通过计算机视觉(AI的一个子领域)学习计算思维的应用背景课程。该课程旨在同时达到计算思维和批判性思维的目标,使学生了解AI方法及其社会影响。通过诸如个人项目和阅读讨论等体验性活动,我们的课程寻求平衡技术学习和批判性思维的目标。基于课前和课后调查的评估结果显示,学生们对归属感、自我效能感以及AI伦理意识都有所提高。结果表明,以AI为中心的背景可以提高参与度和就业能力,学生自己选择的项目支持自我效能感,并且道德导向的AI教学对跨学科受众有效。学生的阅读任务讨论展示了他们对当今AI领域复杂挑战的深刻参与。最后,我们分享了在更大班级规模下开展此类课程的见解以及提高入门级CS学生学习体验的方法。
发布时间: 3/26/2025
查看原文
作者: Kangwei Liu, Junwu Liu, Yun Cao, Jinlin Guo, Xiaowei Yi
arXiv:2503.19001v1 Announce Type: cross 摘要:近期在生成面部表情方面的进展显著提高了面部动画合成的质量。然而,现有的方法面临着根本性的局限性:基于3DMM的方法能够保持时间一致性,但缺乏精细区域的控制,而基于Stable Diffusion的方法则允许空间操作,但会遭受时间不一致性的问题。将这两种方法结合起来受到不兼容控制机制和面部表示的语义纠缠的阻碍。本文提出了DisentTalk,引入了一种数据驱动的语义解纠缠框架,将3DMM表情参数分解为有意义的子空间,以实现精细的面部控制。基于这种解纠缠表示,我们开发了一种分层潜空间扩散架构,该架构在3DMM参数空间中操作,并结合了区域意识的注意力机制,以确保空间精度和时间连贯性。为了解决高质量中文训练数据的稀缺问题,我们引入了CHDTF,这是一种高分辨率的中文生成面部表情数据集。广泛的实验表明,DisentTalk在多个指标上(包括嘴唇同步、表情质量和时间一致性)超过了现有方法。项目页面:https://kangweiiliu.github.io/DisentTalk。
发布时间: 3/26/2025
查看原文
arXiv:2503.18998v1 Announce Type: cross 摘要:跨被试EEG情绪识别受到显著的被试间变异性以及复杂的被试内变异性挑战。现有工作主要通过领域适应或泛化策略来应对这些挑战。然而,它们通常需要大量的目标被试数据,或者在未见过的被试上的泛化性能有限。近期的少量样本学习范式试图解决这些局限性,但在特定被试的适应过程中,由于样本有限,往往会发生灾难性的过拟合。本文介绍了一种结合交叉视角融合方法FACE的少量样本适应器,该方法利用动态多视角融合和有效的特定被试适应策略,以提供互补的情绪信息。此外,提出了少量样本适应器模块,通过增强适应器结构以提高元学习的能力,实现对未见过的被试的快速适应,同时减少过拟合。在三个公开的EEG情绪识别基准测试上的实验结果表明,FACE在泛化性能上优于现有最先进的方法。FACE为限标数据下的跨被试场景提供了一个实际的解决方法。
发布时间: 3/26/2025
查看原文
作者: Jos\'e Alberto Ben\'itez-Andrades, Camino Prada-Garc\'ia, Nicol\'as Ord\'as-Reyes, Marta Esteban Blanco, Alicia Merayo, Antonio Serrano-Garc\'ia
arXiv:2503.18996v1 交叉公告类型 摘要:本研究提出了一种先进的机器学习方法,通过结合过采样技术(oversampling techniques)和网格搜索优化(grid search optimization)来预测脊柱手术的结果。研究测试了包括GaussianNB、ComplementNB、KNN、决策树(Decision Tree)以及通过RandomOverSampler和SMOTE优化版本的多种模型,数据集包含244名患者的信息,其中包括术前、心理测量学、社会经济和分析变量。增强的KNN模型达到了最高76%的准确性以及67%的F1分数,而网格搜索优化进一步提高了性能。研究结果强调了这些先进技术在辅助医疗专业人员决策方面的潜力,未来的研究需要在更大和更多样化的数据集上细化这些模型。
发布时间: 3/26/2025
查看原文
作者: Gavin Witsken, Igor Crk, Eren Gultepe
arXiv:2503.18995v1 交叉公告类型 摘要:我们随机部署了使用和未使用LLM工具构建的问题,并衡量学生能否正确回答以及他们能否正确区分人类编写的和LLM编写的题目。为了确定使用ChatGPT辅助编写的问题是否与教师的问题和来源文本一致,我们使用SBERT生成了人类和ChatGPT问题的代表向量,并将余弦相似度与课程教科书进行了比较。非显著的曼 Whitney U测试(z = 1.018,p = .309)表明,学生们无法察觉问题是否使用了ChatGPT辅助编写。然而,对于LLM编写的问题,学生的得分几乎低了9%(z = 2.702,p < .01)。这一结果可能表明,要么AI问题更难,要么学生们更熟悉教师的问题风格。总体而言,这项研究建议,虽然可以利用LLM工具辅助构建评估,但在确保问题公平、构成良好且与课程内容相关方面仍需谨慎。
发布时间: 3/26/2025
查看原文
作者: Paolo Ceravolo, Ernesto Damiani, Maria Elisa D'Amico, Bianca de Teffe Erb, Simone Favaro, Nannerel Fiano, Paolo Gambatesa, Simone La Porta, Samira Maghool, Lara Mauri, Niccolo Panigada, Lorenzo Maria Ratto Vaquer, Marta A. Tamborini
arXiv:2503.18994v1 交叉类型: cross 摘要:本文介绍了HH4AI方法论,这是一种评估人工智能系统对人权影响的结构化方法,重点关注欧盟AI法案的合规性,并解决技术、伦理和监管挑战。文章突出了AI的转型特性,由自主性、数据和目标导向的设计驱动,并讨论了欧盟AI法案如何促进透明性、问责制和安全。一个主要的挑战是如何在各个行业中定义和评估“高风险”AI系统,这复杂化了由于缺乏普遍接受的标准和AI的快速发展造成的困境。 为了应对这些挑战,文章探讨了ISO/IEC和IEEE标准的相关性,重点关注风险管理和数据质量、偏见缓解和治理。它提出了一个基本权利影响评估(FRIA)方法论,这是一种基于门的框架,旨在通过包括AI系统概述、人权检查清单、影响评估和最终输出阶段在内的阶段来隔离和评估风险。过滤机制针对系统的特性进行评估,着眼于问责制、AI素养、数据治理和透明性等领域的目标。 文章通过一个虚构的自动化医疗服务分诊案例研究,展示了FRIA方法论。结构化的方法允许系统化的过滤、全面的风险评估和缓解规划,有效地优先考虑关键风险,并提供清晰的补救策略。这促进了更好的人权原则对接并提高了监管合规性。
发布时间: 3/26/2025
查看原文
arXiv:2503.18991v1 类型: cross 摘要:使大规模语言模型(LLMs)与人类的偏好和价值观保持一致对实际应用至关重要。然而,当前的对齐方法面临着三个主要限制:(1) 依赖于昂贵的人工注释;(2) 对齐税;(3) 浅层对齐容易受到囚徒突变攻击。此外,当前的对齐数据集常常存在分布不均的问题,导致某些话题的过度代表性和其他话题的忽视。为了解决这些问题,我们提出了SRMIR(基于反省推理的阴影奖励模型),灵感来源于成员推理攻击中的阴影模型。我们首先利用LLMs的反省推理能力,构建了一个包含7种有害类型且结构化提示的安全链草案(CoD)数据集,然后通过组相对策略优化(GRPO)训练一系列专门的奖励模型来引导策略优化。我们采用了两种策略——线性组合和分类方法——将阴影奖励模型集成到策略优化中。通过比较,我们发现尽管后者的计算成本较高,但它在对齐方面取得了更优的结果。在多个LLMs上的实验表明,SRMIR显著优于现有方法。
发布时间: 3/26/2025
查看原文
作者: Haoliang Shang, Hanyu Wu, Guangyao Zhai, Boyang Sun, Fangjinhua Wang, Federico Tombari, Marc Pollefeys
arXiv:2503.18988v1 类型:cross 摘要:场景图捕捉对象间的复杂关系,充当内容生成和操控的强大先验。然而,合理地操纵场景图——无论是添加节点还是修改边——仍然是一项具有挑战性和尚未解决的任务。任务如向图中添加节点或推断节点与其他节点的关系都是计算上不可行的,即使是单个边的修改也可能由于图内的复杂相互依赖性而导致冲突。为了解决这些挑战,我们引入了SG-Tailor,这是一种自回归模型,用于预测任何两个节点之间的无冲突关系。SG-Tailor不仅推断对象之间的关系,包括为新添加的节点生成常识边,还能解决由于边修改而产生的冲突,以生成连贯且被操纵的图以供下游任务使用。对于节点添加,模型从图中查询目标节点和其他节点来预测适当的关系。对于边修改,SG-Tailor采用剪切和缝合策略解决冲突并全局调整图。广泛的经验表明,SG-Tailor在性能上大幅超过了竞争方法,并且可以无缝集成为场景生成和机器人操作任务的插件模块。
发布时间: 3/26/2025
查看原文