LLM2D

arXiv 论文列表

作者: Huanhuan Ma, Haisong Gong, Xiaoyuan Yi, Xing Xie, Dongkuan Xu
arXiv:2503.20182v1 宣告类型: cross 摘要: 近期大型语言模型 (LLMs) 的发展使得它们越来越广泛地融入人类生活。随着从简单的工具转变为类人的助手,理解它们的心理学方面——比如情绪倾向和人格特质——变得至关重要,以确保它们的可信度。然而,目前对LLMs的心理评估通常基于人类心理评估方法,如BFI问卷,面临着显著的限制。这些方法得出的结果在预测LLMs在现实生活中的行为方面常常缺乏可靠性且有效性有限。在此工作中,我们介绍了一种专门为LLMs设计的新评估工具,称为核心情感量表 (CSI)。CSI是一种双语工具,涵盖了英语和汉语,能够隐含地评估模型的情感倾向,提供了一个从乐观、悲观和中立三个维度对LLMs进行深入心理学画像。通过大量实验,我们证明了:1) CSI有效地捕捉到了微妙的情感模式,揭示了不同语言和背景下LLMs之间的显著差异;2) 相比于当前的方法,CSI在可靠性上有了显著提高,得出了更一致的结果;3) CSI分数与LLMs实际输出情感的关联超过了0.85,证明了其在预测LLMs行为方面的强效预测能力。我们通过以下链接将CSI公开展示:https://github.com/dependentsign/CSI。
发布时间: 3/27/2025
查看原文
作者: RuiXi Qiao, Jie Cheng, Xingyuan Dai, Yonglin Tian, Yisheng Lv
arXiv:2503.20176v1 类型: cross 摘要:技能已被引入到 Offline Reinforcement Learning (RL) 中,作为一种时间上的抽象,以应对复杂的、长期的任务,促进一致的行为并使有意义的探索成为可能。虽然在 Offline RL 中技能主要在连续的潜在空间中建模,但离散技能空间的潜力仍然很大程度上被未探索。在本文中,我们提出了一种用于 Offline RL 任务的紧凑型离散技能空间,该空间由最先进的基于变压器的编码器和基于扩散的解码器支持。结合一种通过 Offline RL 技术训练的高度政策,我们的方法建立了一个分层 RL 框架,其中训练好的扩散解码器扮演着关键角色。实证评估表明,所提出算法 Discrete Diffusion Skill (DDS) 是一种强大的 Offline RL 方法。DDS 在 Locomotion 和 Kitchen 任务上的表现竞争力很强,并在长期任务上表现出色,与现有 Offline RL 方法相比,在 AntMaze-v2 标准测试中实现了至少 12% 的改进。此外,DDS 相比于之前的基于技能的方法提供了更好的可解释性、训练稳定性和在线探索能力。
发布时间: 3/27/2025
查看原文
arXiv:2503.20139v1 类别: cross 摘要: 基于模型的强化学习(MBRL)在样本效率上优于基于模型的自由学习(MFRL),但在存在不准确模型的情况下,可能会在策略学习过程中引入偏差,导致误导性的轨迹。挑战在于由于有限的多样化的训练数据,特别是那些很少访问的区域(不确定区域),难以获得准确的模型。现有的方法在样本生成后被动地量化不确定性,未能积极收集不确定样本以增强状态覆盖并提高模型准确性。此外,MBRL 在进行准确的多步预测方面常常存在困难,从而影响整体性能。为了解决这些限制,我们提出了一种用于基于模型的探索性规划的认知不确定性的策略优化框架。在基于模型的规划阶段,我们引入了认知不确定性的k步远期规划方法,以指导每一步的动作选择。这个过程涉及模型不确定性与价值函数近似误差之间的权衡分析,有效地提升了策略性能。在策略优化阶段,我们利用以不确定性为导向的探索性策略积极收集多样化的训练样本,从而提高模型准确性并增强RL代理的整体性能。我们的方法在不同状态/动作空间和奖励结构的任务中具有灵活性和适用性。我们通过在复杂的机器人操作任务和Atari游戏中进行实验验证了其有效性,并通过较少的交互超越了最先进的方法,从而实现了显著的性能提升。
发布时间: 3/27/2025
查看原文
作者: Junyi Zhu, Ruicong Yao, Taha Ceritli, Savas Ozkan, Matthew B. Blaschko, Eunchung Noh, Jeongwon Min, Cho Jung Min, Mete Ozay
arXiv:2503.20138v1 宣告类型: cross 摘要:人工智能(AI)技术已经革新了众多领域,但其应用往往依赖于成本高昂且耗时的数据收集过程。联邦学习(FL)提供了一种有前景的替代方案,通过在分散的数据上训练AI模型,其中数据分散在各个客户端(分布式节点)上。然而,现有的FL方法由于异质数据分布和通信延迟等挑战,难以达到集中训练的性能,从而限制了其实现突破的潜力。我们观察到许多实际应用场景涉及混合数据模式,在这种模式中,服务器(中心节点)可以访问某些数据,而大量数据则分布在相关客户端上。为了解决这种模式下分散数据的利用问题、处理数据异质性问题,并促进服务器与客户端之间的异步通信,我们提出了一种双学习方法,利用服务器上的集中数据引导客户端模型更新的合并。我们的方法适用于服务器数据相对于分散客户端数据不在域内的场景,使其适用于广泛的应用场景。我们提供了理论分析,证明了我们的方法比现有方法具有更快的收敛速度。此外,各种场景下的实验结果表明,我们的方法显著优于现有技术,突显了其潜在价值,可以解锁大量分散数据的价值。
发布时间: 3/27/2025
查看原文
作者: Pooja Rani, Jan-Andrea Bard, June Sallou, Alexander Boll, Timo Kehrer, Alberto Bacchelli
arXiv:2503.20126v1 Announce Type: 横向研究 摘要:快速的技术进步加速了各种领域和应用场景中的软件开发,从而增加了全球碳排放的比例。尽管最近的大语言模型(LLMs)声称能够帮助开发者优化代码以提高性能和能源效率,但在实际应用场景中的效果仍然有待探索。在这项工作中,我们研究了LLMs在减少实际项目环境足迹方面的有效性,重点关注广泛应用于学术界和工业界的 Matlab 代码,这些代码用于科学和工程应用。我们分析了来自 100 个顶级 GitHub 仓库的 400 个脚本的能源焦点优化。我们检查了来自领先的大语言模型,如 GPT-3、GPT-4、Llama 和 Mixtral,以及一位资深的 Matlab 开发者的推荐的 2,176 个优化建议,这些优化涉及能源消耗、内存使用、执行时间消耗和代码正确性。开发者作为实际基准,用于比较典型的人类和 LLM 生成的优化。 我们将这些优化映射到 13 个高层次主题后,发现大语言模型提出了广泛范围的改进--不仅仅是能源效率,还包括提高代码可读性和可维护性、内存管理、错误处理等方面。然而,我们的统计测试揭示出,能源焦点的优化意外地对内存使用产生了负面影响,且没有明显的执行时间或能源消耗方面的益处。我们对能源-时间权衡的定性分析表明,某些主题,如向量化预分配,是这些权衡的主要形成因素。随着大语言模型在现代软件开发中的普及,我们的研究呼吁优先评估常见的编程实践,以识别那些环保的做法。
发布时间: 3/27/2025
查看原文
作者: Yuke Lou, Yiming Wang, Zhen Wu, Rui Zhao, Wenjia Wang, Mingyi Shi, Taku Komura
arXiv:2503.20118v1 宣告类型: cross 摘要:人类-物体交互(HOI)合成在各种应用中都非常重要,从虚拟现实到机器人技术。然而,由于其复杂性和高成本,获取3D HOI数据具有挑战性,限制了现有方法仅局限于训练数据集中狭窄的对象类型和交互模式的多样性。本文提出了一种新型的零样本HOI合成框架,该框架不依赖于当前受限的3D HOI数据集的端到端训练。我们的方法的核心理念在于利用预训练的多模态模型中的广泛HOI知识。给定一段文本描述,我们的系统首先使用图像或视频生成模型获取时空一致的2D HOI图像序列,然后将其提升为人类和物体姿态的3D HOI里程碑。我们利用预训练的人体姿态估计模型提取人体姿态,并引入一种可泛化的类别级6自由度估计方法,从2D HOI图像中获得物体姿态。我们的估计方法适应于从文本到3D模型或在线检索获得的各种不同物体模板。进一步应用基于物理的3D HOI运动链跟踪,以细化人体动作和物体姿态,从而获得更加物理合理的HOI生成结果。实验结果表明,我们的方法能够生成具有物理真实性和语义多样性的开放词汇HOI。
发布时间: 3/27/2025
查看原文
作者: Pin-Jie Lin, Rishab Balasubramanian, Fengyuan Liu, Nikhil Kandpal, Tu Vu
arXiv:2503.20110v1 交叉公告类型:cross 摘要:现代大规模语言模型在高效更新方面面临挑战,每次新的预训练模型版本都需要重复昂贵的对齐过程。这一挑战同样适用于领域特定或语言特定的模型,其中,对专门数据进行微调必须在每次发布新基础模型版本时重新进行。在这篇论文中,我们探讨了不同模型版本之间微调更新的转移。具体来说,我们从一个源模型版本中推导出差分向量,该向量代表微调的权重变化,并将其应用于不同目标版本的基础模型。通过对多种开源模型版本进行实验评估,我们展示了转移差分向量可以显著提高目标基础模型的性能,通常能达到与其微调版本相当的性能。例如,使用Llama 3.0 8B的微调更新在GPQA上的绝对准确性提高了10.7%,而在不进行额外训练的情况下超过了Llama 3.1 8B Instruct。在多语言模型开发环境中,我们展示了这种方法可以在不重新训练的情况下显著提高目标语言任务的性能,分别在马达加斯加语和土耳其语的Global MMLU上实现了4.7%和15.5%的绝对性能提升,相较于Llama 3.1 8B Instruct。我们的受控实验表明,当源模型和目标模型在参数空间中呈线性连接时,微调转移最为有效。此外,我们证明了微调转移为进一步微调提供了更强且更计算高效的起点。最后,我们提出了迭代回收再微调的方法,用于持续模型开发,该方法提高了效率和效果。我们的研究结果表明,微调转移是一种可行的策略,可以降低训练成本同时保持模型性能。
发布时间: 3/27/2025
查看原文
作者: Mayssam Tarighi Shaayesteh, Sara Memarian Esfahani, Hossein Mohit
arXiv:2503.20099v1 宣告类型: cross 摘要:本研究探讨了AI身份如何影响大学生的心理赋权和不道德的AI行为,同时探讨了IT敏感性在其中的调节作用。研究结果表明,强大的AI身份可以增强心理赋权和学业参与度,但也可能导致不道德的AI行为增加。 crucial的是,IT敏感性起到了道德保护的作用,促进了对道德问题的敏感性,并减少了AI的滥用。这些见解对教育者、政策制定者和AI开发者具有重要意义,强调了In For Peer Review 需要采取平衡的方法,鼓励数字参与同时不损害学生的责任。此外,研究还为关于心理代理的哲学讨论做出了贡献,表明通过AI获得的赋权可能会带来积极和消极的结果。敏感性在指导道德的AI互动中显得尤为重要。总体而言,该研究为教育和AI中的伦理争论提供了新的洞见,提供了技术进步与伦理责任和负责任使用相一致的策略。
发布时间: 3/27/2025
查看原文
arXiv:2503.20084v1 宣告类型: 综合 摘要:在生成模型高度发达的时代,深度伪造检测仍然是一个关键挑战,尤其是随着合成媒体变得更加复杂。在本研究中,我们探索了最新的多模态(推理)大规模语言模型(LLMs)在深度伪造图像检测中的潜力,例如(OpenAI O1/4o、Gemini thinking Flash 2、Deepseek Janus、Grok 3、llama 3.2、Qwen 2/2.5 VL、Mistral Pixtral、Claude 3.5/3.7 sonnet)。我们在多个数据集上将12款最新的多模态LLMs与传统的深度伪造检测方法进行了基准测试,这些数据集包括近期发布的实际世界深度伪造图像。为了提高性能,我们采用了提示调优,并对模型的推理路径进行了深入分析,以确定其决策过程中的关键因素。我们的研究结果表明,最佳的多模态LLMs即使在零样本情况下也能实现竞争力的表现,甚至在某些离散数据集中的性能超过了传统的深度伪造检测管道,而其余的LLM家族则表现极其不佳,有的甚至比随机猜测还差。此外,我们发现,在这类特定的深度伪造检测任务中,新的模型版本和推理能力并不能提高性能,而模型大小在某些情况下确实有助于性能提升。本研究强调了将多模态推理集成到未来深度伪造检测框架中的潜在可能性,并为现实世界场景中的模型可解释性提供了见解。
发布时间: 3/27/2025
查看原文
作者: Volkan Ustun, Soham Hans, Rajay Kumar, Yunzhe Wang
arXiv:2503.20078v1 多代理强化学习类型:跨领域 摘要:多代理强化学习(MARL)在动态和适应性强的合成角色训练中日益普遍,这些角色用于针对特定地理环境的交互式模拟。诸如Unity的ML-Agents框架有助于使此类强化学习实验更易为模拟社区所用。军事训练模拟也从MARL的进步中受益,但由于它们复杂、连续的、随机的、部分可观测的、非稳定的和依据教义的特点,它们具有巨大的计算需求。此外,这些模拟需要特定地理环境的地形,进一步加剧了计算资源的问题。在我们的研究中,我们利用Unity的航点自动生成多层表示抽象,以扩展强化学习的应用规模,同时仍允许在不同的表示之间转移已学习的策略。我们在一个新颖的MARL场景中进行的初步探索结果,其中每一方都有不同的目标,表明基于航点的导航能够更快更高效地学习,并生成与CSGO游戏环境中专家级玩家所采取的轨迹相似的轨迹。这项研究指出了在军事训练模拟中,其中特定地理环境和不同目标至关重要,基于航点的导航在降低开发和训练MARL模型的计算成本方面的潜在价值。
发布时间: 3/27/2025
查看原文