arXiv:2504.08312v1 类型:交叉学科
摘要:排序是一项对人类智能来说既繁琐又简单的任务,可以比较容易地通过算法解决。然而,对于大型语言模型(LLMs),这项任务出人意料地困难,因为排序的一些属性是已知的LLM弱点之一:忠于输入数据、值之间的逻辑比较以及严格区分语法(用于排序)和语义(通常通过嵌入学习)。在本文中,我们描述了一种新的SortBench基准测试,适用于LLMs,该基准测试具有不同的难度,且可以容易地根据难度进行扩展。我们将这一基准测试应用于七种最先进的LLMs,包括当前的测试时推理模型。结果显示,虽然o3-mini模型在一般排序上表现出色,但在字符串定义混杂了语法和语义方面时,即使是这种模型也会被误导,例如,通过要求对以单词形式写的数字进行排序。此外,所有模型在处理长列表的忠实性方面存在困难,即它们会遗漏项目并添加新的项目。我们的结果还表明,测试时推理有过度思考问题的倾向,这导致性能下降。最后,没有测试时推理的模型,如GPT-4o,其表现并不比推理模型差多少。
arXiv:2504.08300v1 交叉公告类型
摘要:多项选择题(MCQ)基准广泛用于评估大型语言模型(LLMs),但这些基准的可靠性受到基准污染的削弱。在本研究中,我们将污染重新定义为学习的一个内在方面,并寻求在LLM评估中分离真实的能力获得与表面的机械记忆。通过在不同记忆条件下的模型性能分析,我们揭示了一个令人意外的趋势:LLMs在记忆性的MCQ上表现比在非记忆性的MCQ上更差,这表明了两种不同学习现象的并存,即机械记忆和真实的技能学习。为了分离它们,我们提出了TrinEval,一种新的评估框架,将MCQ重新制定为替代的三位一体格式,减少记忆同时保持知识评估。实验验证了TrinEval在重新制定方面的有效性,评估结果显示,在MMLU上,常见的LLMs可能机械记忆了20.5%的知识点(平均值)。
arXiv:2504.08281v1 交叉发布公告类型
摘要:情绪感知语言处理的进步正在逐步重塑来自对话AI和情感计算到计算心理学和创意内容生成等至关重要的NLP应用。现有的情绪数据集要么缺乏情绪细腻度,要么无法捕捉必要的风格多样性,限制了有效情绪条件下的文本生成系统的进步。为了弥合同等化细腻度和风格多样性之间的这一关键缺口,本文介绍了一种新型系统构建数据集,名为ELSA情绪和语言风格对齐数据集,利用来自现有来源如dair ai情绪数据集和GoEmotions分类法的细腻情绪分类法。该数据集包含通过先进的大规模语言模型(LLM)在不同的语境风格(如对话、正式、诗歌和叙述)中重新生成的原始句子的多种情绪精细变化版本。使用诸如困惑度、嵌入方差、可读性、词汇多样性以及语义连贯性等严格计算评估指标,验证了数据集的情感真实性、语言流畅性和文本多样性。全面的指标分析证实了其支持对情绪条件下的样式适应性文本生成进行更深入探索的潜力。通过提供精确调整的情绪细腻语言建模能力,我们的数据集为涉及LLM的情感精细控制、提示驱动解释、可解释性以及样式适应性表达性语言生成的研究奠定了基础。
arXiv:2504.08259v1 交叉类型: cross
摘要:草图作为艺术创作的基本蓝图,因为对绘画艺术家来说,草图编辑比像素级别的RGB图像编辑更容易且更直观,尽管生成模型取得了进展,但草图生成仍未被探索。我们提出了一种新的框架CoProSketch,利用扩散模型提供出色的控制能力和细节处理能力。一种简单的方法是使用二值化草图图像微调预训练的图像生成扩散模型。然而,我们发现扩散模型无法生成清晰的二值图像,这使得生成的草图变得杂乱无章。因此,我们提出使用无符号距离场(UDF)表示草图,UDF是连续的,可以通过轻量级网络轻松解码为草图。借助CoProSketch,用户可以从边界框和文本提示生成一个粗略的草图。这个粗略的草图可以手动编辑并反馈给模型进行迭代细化,最终将被解码为详细的草图。此外,我们还整理了第一个大规模的文本-草图配对数据集作为训练数据。实验结果显示了在基线方法上更优越的语义一致性和可控性,提供了一种将用户反馈整合到生成工作流中的实用解决方案。
arXiv:2504.08258v1 宣传类型: 技术交叉
摘要:材料的热电性能表现出复杂非线性的元素类型及其比例依赖性,这使得传统的试错方法在材料发现过程中效率低下且耗时。在这项工作中,我们提出了一种深度学习模型,可以直接从化学式预测掺杂材料的热电性质,实现了最先进的性能。为了增强可解释性,我们进一步引入了敏感性分析技术,以阐明物理描述符如何影响热电性能指标(zT)。此外,我们建立了一个结合了代理模型和多目标遗传算法的框架,以高效探索高性能候选材料的广泛组成空间。实验验证确认发现了一种在中温区具有优异zT值的新型热电材料。
arXiv:2504.08257v1 宣传类型:交叉
摘要:随着人工智能的快速发展,贝叶斯网络在数据挖掘、推理和概率推理中扮演着越来越重要的角色。在本文中,我们通过证明性实验展示了如何使用自旋轨道扭矩磁隧道结(SOT-MTJs)进行贝叶斯网络推理。不仅可以通过条件概率表精确地形式化贝叶斯网络的目标概率分布函数(PDF),还可以通过概率前向传播神经网络量化表示该概率分布函数。此外,网络参数还可以通过简单的逐点训练算法逼近最优值,利用这一点,我们无需记住所有历史数据,也无需统计总结其背后的条件概率,从而显著提高存储效率并减少数据预处理。此外,我们使用SOT-MTJ作为随机数生成器和采样器开发了一个简单的医疗诊断系统,展示了基于SOT-MTJ的贝叶斯推理的应用。基于SOT-MTJ的贝叶斯推理在人工智能概率神经网络领域展现了巨大的潜力,扩展了自旋电子器件的应用范围,并为复杂的推理任务提供了高效且占用存储空间少的解决方案。
arXiv:2504.08256v1 宣告类型: cross
摘要: 近期大型语言模型(LLMs)的进步为虚拟现实(VR)中的上下文理解提供了新的机会。然而,VR上下文往往是高度局部化和个性化的,限制了通用型LLMs的有效性。为了解决这一挑战,我们提出了RAG-VR,这是首个结合检索增强生成(RAG)的3D问答系统,通过将外部知识从局部化的知识数据库中检索出来,增强语言模型,从而提高答案质量。RAG-VR包括一个从虚拟环境和用户条件中提取全面知识的管道,以实现准确的答案生成。为了确保高效的检索,RAG-VR将检索过程卸载到附近的边缘服务器,并在检索过程中仅使用关键信息。此外,我们训练检索器在与问题相关的相关、无关和难以区分的信息之间有效地区分。与两个基线系统相比,RAG-VR将答案准确性提高了17.9%-41.8%,并将端到端延迟降低了34.5%-47.3%。
arXiv:2504.08242v1 交叉类型:跨领域
摘要:生成型大规模语言模型(LLMs)因其在各种AI任务中的出色能力而受到广泛关注。传统上部署在云数据中心的LLMs现在越来越多地转向更易于访问的边缘平台,以保护敏感用户数据和确保隐私保护。然而,个体边缘设备的有限计算资源可能导致推理延迟过长和内存使用过度。尽管现有研究探索了协作边缘计算以突破个体设备的资源瓶颈,但这些解决方案仍然面临巨大的通信开销和边缘资源利用率不足的问题。此外,它们专注于优化预填充阶段,而忽略了生成型LLMs至关重要的自回归解码阶段。为了解决这一问题,我们提出了Jupiter,一种快速、可扩展且资源高效的协作边缘AI系统,用于生成型LLMs推理。Jupiter引入了一种灵活的流水线架构作为基本原理,并根据预填充和解码阶段的不同特性对系统设计进行了差异化设计。对于预填充阶段,Jupiter提交了一种新颖的序列内流水线并行性,并开发了一种细致的并行性规划策略,以最大化资源效率;对于解码阶段,Jupiter设计了一种有效的基于大纲的流水线并行解码机制,并结合了推测性解码,进一步提高了推理加速效果。基于现实部署的广泛评估表明,Jupiter在各种边缘环境配置下显著优于最先进的方法,在实现相同的生成质量的同时,端到端延迟降低了26.1倍。
arXiv:2504.08222v1 Announce Type: cross
摘要:分析快速、频繁且细粒度(F$^3$)事件在视频分析和多模态LLMs中是一个重大挑战。当前的方法由于运动模糊和细微的视觉差异等挑战,在以高精度识别所有F$^3$标准的事件方面存在困难。为促进视频理解的研究,我们引入了F$^3$Set,这是一个基准,包含用于精确F$^3$事件检测的视频数据集。F$^3$Set中的数据集以其广泛的规模和综合的细节为特点,通常包括超过1000种事件类型,具有精确的时间戳,并支持多层次的粒度。目前,F$^3$Set包含几个体育数据集,而该框架也可以扩展到其他应用。我们在F$^3$Set上评估了流行的时间动作理解方法,揭示了现有技术的重大挑战。此外,我们提出了一种新的方法F$^3$ED,用于F$^3$事件检测,取得了优越的性能。数据集、模型和基准代码可在https://github.com/F3Set/F3Set获取。
arXiv:2504.08211v1 通知类型: cross
摘要: 在本文中,我们对三款著名的语言模型(LLM)——GPT-3.5、PaLM2 和 Llama2——进行了多视角比较叙事分析(CNA)。我们使用了相同的提示,并在特定任务上评估了它们的输出,确保了对各种 LLM 进行公平和无偏见的比较。我们的研究发现,面对相同的提示,这三个 LLM 产生的响应不同,表明它们在理解和分析给定任务的能力上存在显著差异。人类评估被用作黄金标准,根据四个视角来分析 LLM 性能的差异。