LLM2D

arXiv 论文列表

作者: Ayoung Lee, Ryan Sungmo Kwon, Peter Railton, Lu Wang
arXiv:2504.10823v2 宣告类型: replace-cross 摘要: 在涉及冲突价值观的高风险困境中导航是一个挑战,即使是人类也难以处理,更不用说AI了。然而,先前对大规模语言模型(LLMs)在这些情境下的推理能力进行评估的工作主要局限于日常生活场景。为填补这一空白,本工作首先引入了CLASH(基于角色视角的大规模语言模型在高风险情境下的评估数据集),该数据集包含345个高影响力困境以及3,795个涉及多种价值观的独特视角。特别地,我们设计CLASH,以支持研究此前工作缺失的关键方面的价值观决策过程,包括理解决策的犹疑和心理不适,以及捕捉角色视角中价值观的动态变化。通过基准测试10个开放和封闭的前沿模型,我们发现了几个关键发现:(1)即使是最强的模型,如GPT-4o和Claude-Sonnet,在识别本应犹豫的决策场景方面仅能达到不到50%的准确性,而在明确的情境中表现更好;(2)虽然LLMs能够合理预测由人类标记的心理不适,但它们对涉及价值观变化的视角理解不足,表明LLMs需要能够处理复杂的价值观推理;(3)我们的实验还揭示了LLMs的价值偏好与其向特定价值观导向的可控性之间存在显著的相关性;(4)最后,当LLMs从第三方视角进行价值推理时,它们比从第一人称视角设置中表现得更具可控性,尽管某些价值观对从第一人称视角设置中受益更多。
发布时间: 5/16/2025
查看原文
作者: Erica van der Sar, Alessandro Zocca, Sandjai Bhulai
arXiv:2504.08210v2 通告类型: replace-cross 摘要:由于可再生能源的集成水平不断提高以及需要更具适应性的控制策略,电网操作正变得越来越复杂。强化学习(RL)已 emergence 为一种有前景的电力网络控制(PNC)方法,能够通过提高在动态和不确定环境中的决策能力来增强控制。电力网络运行挑战赛(L2RPN)競賽在加速研究方面发挥了关键作用,通过提供标准化的比赛建议和问题表述,推动了基于RL方法的快速进展。本文综述了RL在电力网络拓扑优化中的应用,对现有技术进行了分类,突出了关键设计选择,并指出了当前研究中的空白。此外,还呈现了一项比较数值研究,评估了常用RL方法的影响,提供了对其实际有效性的见解。通过整合现有研究并概述开放挑战,本文旨在为基于RL的电力网络优化未来进步提供基础。
发布时间: 5/16/2025
查看原文
作者: Zhouyang Liu, Ning Liu, Yixin Chen, Jiezhong He, Dongsheng Li
arXiv:2504.06533v2 宣告类型:替换交叉 摘要:图编辑距离(GED)提供了一种原理明确且灵活的图相似性度量,因为它量化了将一个图转换为另一个图所需的最小成本,并且可以根据需要自定义编辑操作的成本。尽管近年来通过向量空间表示已经努力近似GED,但现有的方法在适应变化的操作成本方面存在问题。此外,由于依赖于孤立的节点级距离作为指导,它们还面临着响应性映射改进效率低下的问题。为了应对这些问题,我们提出了一个新颖的学习方法GEN,用于灵活的GED近似。GEN通过在匹配建立之前整合操作成本,解决了适应变化成本的问题,使映射能够动态适应成本变化。此外,GEN引入了一种主动指导优化策略,捕捉匹配之间的图级依赖性,允许在一步中做出知情的匹配决策,而无需昂贵的迭代改进。在真实世界和合成数据集上的广泛评估表明,GEN在GED近似误差和推理时间上分别比最先进的方法减少了37.8%和72.7%,并且在不同的成本设置和图大小下持续保持鲁棒性。
发布时间: 5/16/2025
查看原文
arXiv:2503.20291v2 通报类型: replace-cross 摘要:提高中分辨率(4-8 Å)冷冻电子显微镜(cryo-EM)3D密度图对于蛋白质结构确定至关重要。近年来,深度学习的进步导致了增强实验cryo-EM密度图的自动化方法的发展。然而,这些方法并没有专门针对中分辨率的密度图进行优化,仅依赖于密度特征。为了解决这一问题,我们提出了一种名为CryoSAMU的新方法,该方法利用结构感知的多模态U-Nets,并在精心挑选的中分辨率密度图上进行训练,用于增强蛋白质结构的3D cryo-EM密度图。我们在多种指标上全面评估了CryoSAMU,并展示了其与最先进的方法相比具有竞争力的表现。值得注意的是,CryoSAMU实现了显著更快的处理速度,显示出在未来实际应用中的潜力。我们的代码可在https://github.com/chenwei-zhang/CryoSAMU 获取。
发布时间: 5/16/2025
查看原文
作者: Liming Liu, Jiangkai Wu, Haoyang Wang, Peiheng Wang, Zongming Guo, Xinggong Zhang
arXiv:2503.16112v2 Announce Type: replace-cross 摘要:传统视频压缩算法在极低比特率下会显著降低视频质量。Promptus 引入了一种新的视频流媒体范式,大幅减少了流媒体所需的关键带宽。然而,Promptus 计算密集,无法在移动设备上实时运行。本文提出了一种名为 PromptMobile 的高效加速框架,专门为设备端的 Promptus 进行优化。具体来说,我们提出了(1)一种两阶段高效生成框架,计算成本降低8.1倍,(2)细粒度的帧间缓存,减少冗余计算16.6%,(3)系统级优化以进一步提升效率。评估结果表明,与原始的 Promptus 相比,PromptMobile 的图像生成速度提升了13.6倍。与其它流媒体方法相比,PromptMobile 在 LPIPS 上平均改善了0.016(相比 H.265),减少了60%严重失真帧(相比 VQGAN)。
发布时间: 5/16/2025
查看原文
作者: Messi H. J. Lee, Calvin K. Lai
arXiv:2503.11572v2 宣告类型: replace-cross 摘要:隐性偏差是指影响感知、判断和行为的自动化心智过程。之前关于LLM中的“隐性偏差”研究主要集中在输出上,而非输出背后的处理过程。我们提出了推理模型隐含关联测试(RM-IAT)来研究推理模型中的类似隐性偏差的处理过程,这些推理模型使用逐步推理来完成复杂任务。使用RM-IAT,我们发现o3-mini和DeepSeek R1在处理关联不兼容信息时需要更多的 token,这反映了人类隐性偏差的模式。相反,Claude 3.7 Sonnet在种族和性别测试中展现出相反的模式,在处理关联兼容信息时需要更多的 token。这种反转似乎与安全性机制的激活差异相关,在敏感情境中增加了仔细考虑。这些发现表明,AI系统可以表现出类似于人类隐性偏差及其修正机制的处理模式。
发布时间: 5/16/2025
查看原文
作者: Dongping Li, Tielong Cai, Tianci Tang, Wenhao Chai, Katherine Rose Driggs-Campbell, Gaoang Wang
arXiv:2503.08604v2 宣告类型: replace-cross 摘要:开发受自然语言控制的家庭机器人一直是人类追求的目标。虽然大规模语言模型(LLMs)和体态智能的进步使这一目标变得更加接近,但仍存在一些挑战:缺乏统一的基准来评估更复杂的机器人任务、评估方法和度量的局限性以及语言模型与移动操作轨迹之间的数据不兼容性。为了应对这些问题,我们提出了开放环境下的体态移动操作基准(EMMOE),该基准要求代理理解和执行连续空间中的长期展望日常任务。EMMOE 将高层和低层的体态任务无缝地整合到一个统一的框架中,并引入了三种新的度量标准以进行更全面的评估。此外,我们收集了包含各种任务属性、详细的工序注解、失败后的重新计划以及用于大规模语言模型训练的两个子数据集的数据集。进而我们设计了模型~\model,该模型包含具有直接偏好优化(DPO)的大型语言模型、轻量级的导航和操作模型以及多个错误检测机制。最后,我们展示了模型的表现,并对不同模型和策略进行了评估。
发布时间: 5/16/2025
查看原文
作者: Haoran Xu, Peixi Peng, Guang Tan, Yiqian Chang, Yisen Zhao, Yonghong Tian
arXiv:2503.07338v2 通知类型: replace-cross 摘要: 世界模型旨在学习或构建环境的表示,从而支持未来的场景预测,进而支持智能运动规划。然而,现有的模型往往难以产生精细的预测,并且难以实现实时操作。在这项工作中,我们提出了T$^3$Former,这是一种新颖的4D 占有世界模型,用于自主驾驶。T$^3$Former首先通过预训练一种紧凑的\emph{三平面}表示,高效地编码3D 占有信息。然后,它从历史三平面中提取多尺度的时间运动特征,并采用自回归的方法,逐步预测未来三平面的变化。最后,这些三平面的变化与先前的状态结合,解码未来占有和 ego 运动轨迹。实验结果表明,T$^3$Former实现了1.44倍的速度提升(26 FPS),平均IoU提高到36.09,平均绝对规划误差降低到1.0米。演示内容可参见附录材料。
发布时间: 5/16/2025
查看原文
作者: Gokul Puthumanaillam, Melkior Ornik
arXiv:2503.05760v3 公告类型: 交叉替换 摘要:本文对大型语言模型(LLMs)完成一整学期的本科控制系统课程的能力进行了全面调查。通过评估115项课程成果,我们使用ChatGPT在一种模拟现实学生使用模式的“最小努力”协议下,评估LLM的表现。该调查采用了多种严格的测试方法,从自动评分的多项选择题到复杂的Python编程任务和长篇分析性写作。我们的分析提供了关于AI在处理控制系统工程中的数学公式、编码挑战和理论概念方面的优势和局限性的定量洞察。LLM的表现达到了B级(82.24%),接近但未超过班级平均分(84.99%),在结构化任务上表现最佳,在开放性项目上表现最弱。这些发现有助于讨论课程设计适应人工智能发展的话题,从简单的禁止转向对这些工具在工程教育中进行深思熟虑的整合。附加材料包括教学大纲、考试试卷、设计项目和示例回答,可在项目网站:https://gradegpt.github.io获取。
发布时间: 5/16/2025
查看原文
作者: Marcin Spoczynski, Marcela S. Melara, Sebastian Szyller
arXiv:2502.19567v2 公告类型: replace-cross 摘要: 开源机器学习(ML)数据集和模型的快速采用使今天的人工智能应用在整个机器学习生命周期中面临诸如数据污染和供应链攻击等关键风险。随着监管压力不断增加,要求通过提高透明度来解决这些问题,机器学习模型供应商面临着在满足这些要求的同时平衡数据和知识产权保密性的挑战。我们提出了一种名为Atlas的框架,该框架使全可验证的机器学习管道成为可能。Atlas利用开放的数据和软件供应链溯源规范来收集可验证的模型构件真实性记录和端到端的元数据。Atlas结合了可信硬件和透明日志,以增强元数据的完整性,保持数据的保密性,并在从训练到部署的机器学习管道操作过程中限制未经授权的访问。我们对Atlas的原型实现结合了几个开源工具,构建了一个机器学习生命周期透明系统,并通过两个案例研究的机器学习管道评估了Atlas的实际可行性。
发布时间: 5/16/2025
查看原文