arXiv:2504.10369v1 Announce Type: cross
摘要:在综合的早期阶段,优化寄存器传输级(RTL)代码对于提高数字电路的功率、性能和面积(PPA)至关重要。由综合反馈引导的手动重写可以生成高质量的结果,但耗时且容易出错。现有的大多数基于编译器的方法难以处理复杂的架构约束。基于大语言模型(LLM)的方法作为解决这些挑战的有前途的替代方案已经出现。然而,基于LLM的方法往往难以确保生成的代码与提供的提示之间的一致性。本文提出了一种新颖的神经-符号RTL优化框架SymRTLO,该框架无缝地将基于LLM的代码重写与符号推理技术结合在一起。我们的方法结合了一个优化规则的检索增强生成(RAG)系统和基于抽象语法树(AST)的模板,使基于LLM的重写在保持句法正确性的同时,尽量减少不必要的电路行为。我们提出了一个符号模块来分析和优化有限状态机(FSM)逻辑,使其能够进行基于模式的编译器之外的细粒度状态合并和部分规范处理。此外,结合形式等效性检查与测试驱动验证的快速验证流水线进一步降低了验证的复杂性。使用Synopsys Design Compiler和Yosys对RTL-Rewriter基准测试表明,相比于最先进的方法,SymRTLO在功率、性能和面积(PPA)方面分别提高了43.9%、62.5%和51.1%。
arXiv:2504.10368v1 评测类型: cross
摘要:我们介绍了S1-Bench,这是一种新的基准,旨在评估大型推理模型(LRMs)在倾向于直观系统1思维而非深思熟虑系统2推理的简单任务上的性能。尽管LRMs通过明确的推理链在复杂的推理任务中取得了显著突破,但它们依赖于深入分析性思考可能会限制其系统1思维能力。此外,目前缺乏一种基准来评估LRMs在需要此类能力的任务上的性能。为了填补这一空白,S1-Bench提出了涵盖多个领域和语言的一系列简单、多样且自然清晰的问题,专门设计来评估LRMs在这些任务上的表现。我们对22个LRMs的全面评估显示了显著较低的效率倾向,其输出平均比传统的小型LLMs长15.5倍。此外,LRMs通常早期就能找出正确答案,但仍然进行不必要的深思熟虑,一些模型甚至产生了大量错误。这些发现突显了当前LRMs的僵化推理模式,并强调了实现能够根据任务复杂性适当调整的双重系统平衡思维能力的大量开发需求。
arXiv:2504.10358v1 Announce Type: cross
摘要:近期在视频生成方面的进展为评估AI生成的内容带来了巨大挑战,特别是在日益复杂的模型出现之后。这些视频中存在的各种不一致性和缺陷本质上是复杂的,使得整体评分变得非常困难。在本文中,我们强调在视频评估中整合细粒度推理的重要性,并提出了一种新颖的实体级推理评估框架FingER,该框架首先自动生成细粒度实体级问题,然后通过评分推理模型回答这些问题,这些答案可以加权求和得到不同的应用场景的总体评分。具体来说,我们利用大规模语言模型(LLMs)从五个不同的视角推导出实体级问题,这(i)常常关注内容中的某些特定实体,从而使多模态语言模型(MLLMs)更容易回答或评分,并且(ii)更具可解释性。然后我们构建了FingER数据集,其中包括大约3300个视频和相应的6万个细粒度的问答注解,每条注解都有详细的理由。基于此,我们进一步研究了各种培训协议,以最好地激励MLLMs的推理能力,以进行正确的答案预测。广泛的实验表明,使用组相对策略优化(GRPO)并采用冷启动策略训练的推理模型实现了最佳性能。值得注意的是,我们的模型在GenAI-Bench上比现有方法高出11.8%,在MonetBench上高出5.5%,仅使用3300个训练视频,是其他方法所使用训练样本的十分之一。我们的代码和数据集将很快公布。
arXiv:2504.10340v1 类别: 交叉学科
摘要:临床案例报告中记录了丰富的患者时间轨迹,但传统的机器学习方法依赖于结构化数据时常常未充分利用这些数据。在本文中,我们提出了从时间序列文本中进行预测的问题,其中通过LLM辅助注释管道提取的时间戳临床发现作为主要输入。我们系统地评估了包括微调的基于解码器的大语言模型和基于编码器的变换器在内的多种模型在事件发生预测、时间顺序和生存分析任务上的表现。我们的实验结果显示,基于编码器的模型在短期和长期事件预测中始终表现出更高的F1得分和更好的时间一致性,而微调掩盖方法增强了排名性能。相比之下,在生存分析中,基于解码器的指令微调模型在早期预后设置中表现出相对优势。我们的灵敏度分析进一步证明了时间顺序的重要性,这需要临床时间序列的构建,相比之下,是LLMs传统训练中输入文本的形式较少采用的时间顺序。这突显了时间有序数据集带来的额外好处,在广泛使用LLM的时代,对时间任务有重要的含义。
arXiv:2504.10309v1 Announce Type: 归一化交叉
摘要:随着语音合成技术的发展,用户对合成语音的自然度和表现力有着更高的期待。但之前的研究所忽视了提示选择的重要性。本研究提出了一种基于检索增强生成(RAG)技术的文本转语音(TTS)框架,能够根据文本内容动态调整语音风格,从而实现更加自然和生动的沟通效果。我们构建了一个包含各种背景下高质量语音样本的语音风格知识数据库,并开发了一种风格匹配方案。该方案利用Llama、PER-LLM-Embedder和Moka提取的嵌入,与知识数据库中的样本进行匹配,选择最适合合成的语音风格。此外,我们的实证研究验证了所提出方法的有效性。我们的演示可以在以下链接查看:https://thuhcsi.github.io/icme2025-AutoStyle-TTS
arXiv:2504.10286v1 宣告类型: 交叉
摘要: 大型语言模型(LLMs)展示了模拟人类决策过程的能力,使其能够作为代理用于建模复杂的离线和社会网络。近期的研究探讨了LLM代理在模拟网络中的集体行为模式和结构特征。然而,关于LLM驱动的和人类驱动的在线社会网络之间的实证比较仍然很少,限制了我们对LLM代理与人类用户之间差异的理解。本文 presents 对Chirper.ai的大型分析,Chirper.ai是一个完全由LLM代理组成的类似于X/Twitter的社会网络,包含超过65,000个代理和超过770万个AI生成的帖子。为了进行比较,我们从Mastodon(一个由人类驱动的分布式社会网络)收集了一个平行数据集,其中包含超过117,000名用户和1600万个帖子。我们研究了LLM代理与人类在发帖行为、骚扰内容和社会网络结构方面的关键差异。我们的发现提供了在线社会网络分析在人工智能时代演进景观的关键见解,为社会模拟中的LLM代理提供了全面的概况。
arXiv:2504.10281v1 Announce Type: cross
摘要:传统上,原子尺度材料的表征需要数月至数年的专业培训的人类专家。即使是经过专业培训的人类操作员,在检查诸如二维(2D)结构等新发现的材料时,准确而可靠地表征仍然具有挑战性。这一瓶颈推动了需求,即能够无需大型训练数据集就能理解研究目标的完全自主实验系统的开发。在这项工作中,我们介绍了ATOMIC(自主光学显微镜与智能表征技术),这是一个端到端的框架,结合了基础模型以实现对2D材料的完全自主、零样本表征。我们的系统结合了视觉基础模型(即Segment Anything Model)、大型语言模型(即ChatGPT)、无监督聚类和拓扑分析,以自动化显微镜控制、样品扫描、图像分割和智能分析,通过提示工程消除了额外培训的需求。在分析典型的MoS2样品时,我们的方法在单层识别方面的分割准确率达到99.7%,与人类专家相当。此外,集成模型能够检测人类肉眼难以识别的晶界裂缝。此外,该系统在焦深变化、色温波动和曝光变化等可变条件下仍保持稳健的准确性。无论这些材料是通过化学气相沉积还是机械剥离法制备的,该系统都适用于包括石墨烯、MoS2、WSe2、SnSe在内的多种常见2D材料。这项工作展示了基础模型的应用,实现了自主分析,建立了一种可扩展和数据高效的表征范式,从根本上改变了纳米尺度材料研究的方法。
arXiv:2504.10277v1 宣布类型:交叉
摘要:面向消费者的语言模型部署引入了众多风险。虽然现有研究针对此类应用的危害与隐患采用了源自监管框架和理论分析的自上而下的方法,但现实世界失败模式的实际证据仍然未被充分探索。在本文中,我们介绍了RealHarm数据集,该数据集基于对公开报道事件的系统性回顾构建了标注有瑕疵的AI代理交互。从部署者的角度来看,我们分析了这些交互中的危害、原因和隐患,发现声誉损害构成了主要的组织性危害,而错误信息则成为最常见的隐患类别。我们实证评估了最先进的防护栏和内容审核系统,以探讨这些系统是否能防止这些事件发生,揭示了对AI应用保护的显著差距。
arXiv:2504.10266v1 Announce Type: cross
摘要:近年来,自动驾驶已成为一个热门的研究领域。由于在紧急情况下轮胎抓地极限控制至关重要,为赛车开发的算法对于普通汽车也十分有用。本文探讨了使用深度强化学习(DRL)在模拟环境中解决轮胎抓地极限驾驶问题的方法。使用 proximal 策略优化(PPO)方法训练一个代理,仅使用视觉输入控制车辆的方向盘和油门,以实现专业级的圈速时间。本文概述了将赛道上的最短时间驾驶任务表述为深度强化学习问题,并解释了所选择的观测值、行动和奖励函数。实验结果表明,该代理能够学习并表现出利用最大轮胎抓地潜力的人类驾驶行为。
arXiv:2504.10254v1 Announce Type: cross
摘要:复杂视频对象分割仍然面临小对象识别、遮挡处理和动态场景建模的重大挑战。本报告介绍了我们的解决方案,该解决方案在CVPR 2025 PVUW挑战赛MOSE赛道中排名第二。基于现有的分割框架,我们提出了一种改进的模型MassSeg,用于复杂视频对象分割,并构建了增强的数据集MOSE+,其中包括典型的遮挡、杂乱背景和小目标实例场景。在训练过程中,我们结合了帧内一致性和不一致性数据增强策略以提高鲁棒性和泛化能力。在推断过程中,我们设计了一种掩码输出缩放策略,以便更好地适应对象大小和遮挡程度的变化。结果,MassSeg在MOSE测试集上实现了J分数0.8250、F分数0.9007和J&F分数0.8628。