arXiv:2502.02456v1 Announce Type: 横向
摘要:教学设计师面临着令人应接不暇的设计选择,这使得识别最有效的干预措施变得具有挑战性。为了解决这一问题,我提出了模型人类学习者的概念,这是一种统一的计算学习模型,可以帮助设计师评估候选干预措施。本文呈现了这一概念的第一个成功演示,展示了计算模型能够准确预测两个人类A/B实验的结果——一个是测试问题排序干预,另一个是测试项目设计干预。此外,还展示了这种模型可以在不需要人类数据的情况下生成学习曲线,并提供理论见解,解释为什么某种教学干预是有效的。这些发现为未来结合认知和学习理论的模型人类学习者奠定了基础,以支持跨多种任务和干预措施的教学设计。
arXiv:2502.02444v1 宣布类型: 交叉
摘要:价值观是个体和集体感知、认知和行为的核心驱动力。价值观体系,例如施瓦茨的基本人类价值观理论,定义了这些价值观之间的层次结构和相互作用,从而促进了跨学科对决策和社会动态的研究。最近,大型语言模型(LLMs)的发展引发对其隐含价值观的担忧。尽管在评估、理解和对齐LLM价值观方面已经做出了越来越多的努力,但基于心理理论的LLM价值观体系仍然未被充分探索。本研究通过引入生成心理语义方法(GPLA),填补了这一空白,GPLA是一种可扩展、灵活且基于理论的方法,用于构建价值观体系。利用GPLA,我们提议了一个基于心理理论的五因素价值观体系,适用于LLM。为了系统的验证,我们提出了三项基准任务,这些任务将心理学原则与前沿的人工智能优先事项相结合。我们的结果显示,提议的价值观体系符合标准的心理学标准,更能捕捉LLM的价值,提高LLM的安全预测,增强LLM的对齐,与经典的施瓦茨价值观相比。
arXiv:2502.02441v1 Announce Type: cross
摘要:将大型语言模型(LLMs)如GPT-4与扩展现实(XR)技术结合,有可能构建真正沉浸的XR环境,通过自然语言与人类用户进行互动,例如从音频输入生成和动画化3D场景。然而,XR环境的复杂性使得从大量的XR艺术作品中准确提取相关背景数据和场景/对象参数变得困难。这不仅导致了使用按次付费模式增加的成本,还提高了生成错误的风险。此外,现有侧重于代码脚本生成的方法往往容易出现生成错误,导致有缺陷或无效的脚本、应用程序崩溃,并最终降低用户体验。为了克服这些挑战,我们引入了LLMER这一新框架,使用由LLMs生成的JSON数据创建互动的XR世界。不同于以往侧重于代码脚本生成的方法,LLMER将自然语言输入转化为JSON数据,显著降低了应用程序崩溃和处理延迟的可能性。它采用多阶段策略,仅提供适应用户请求的必要背景信息,并且设计了适用于各种XR任务的多个模块。我们初步的用户研究表明,与现有最先进的方法相比,该系统的有效性更高,消耗的令牌数量减少了80%以上,任务完成时间减少了约60%。用户反馈的分析还指出了进一步优化的一系列方向。
arXiv:2502.02438v1 交叉公告类型: cross
摘要: 医疗多模态大型语言模型(MLLMs)正成为医疗卫生系统的重要组成部分,协助医疗专业人员进行决策和结果分析。用于放射学报告生成的模型能够解释医学图像,从而减轻放射学家的工作负担。由于医学数据稀缺且受隐私法规保护,医疗MLLMs代表了有价值的知识产权。然而,这些资产可能面临模型窃取的威胁,攻击者旨在通过黑盒访问复制其功能。到目前为止,医疗领域的模型窃取主要集中在分类上;然而,现有攻击对MLLMs无效。在本文中,我们引入了对抗领域对齐(ADA-STEAL),这是一次针对医疗MLLMs的首次窃取攻击。ADA-STEAL依赖于自然图像,这些图像公开且广泛可用,与医学图像相反。我们展示了对抗噪声的数据增强足以克服自然图像与受害者MLLMs领域特定分布之间的数据分布差距。在IU X-RAY和MIMIC-CXR放射学数据集上的实验表明,对抗领域对齐使攻击者能够在无需访问医学数据的情况下窃取医疗MLLMs。
arXiv:2502.02431v1 宣布类型: 横跨领域
摘要: 深度学习优化领域的近期进展引入了新的算法,如无计划优化器、AdEMAMix、MARS 和 Lion,这些算法修改了传统的动量机制。在同一研究领域中,通过将动量系数与当前梯度的权重分离,已经在噪声主导的环境下实现了随机梯度下降(SGD)的理论加速。在本文中,我们建立了这两条研究路径之间的明确联系。我们通过在一个包含150兆语言建模任务的初步实验中验证了我们的理论发现。我们发现,AdEMAMix,最接近加速版本的随机梯度下降,表现出更优越的性能。基于这些见解,我们提出了一种对AdEMAMix的改进,称为Simplified-AdEMAMix,它在大批次和小批次设置中保持与AdEMAMix相同的性能,同时消除了需要两个不同动量项的需求。Simplified-AdEMAMix的代码可以在下面的仓库中获得:https://github.com/DepenM/Simplified-AdEMAMix/。
arXiv:2502.02421v1 类型: cross
摘要: 模型合并是一种将多个微调大型语言模型(LLMs)的参数和嵌入结合的方法,它提供了在各种任务上增强模型性能的同时保持计算效率的有前景的方法。本文介绍了激活信息驱动合并(Activation-Informed Merging, AIM),这是一种将LLMs的激活空间信息整合到合并过程中的技术,以提高性能和稳健性。AIM设计为一种灵活的、互补的解决方案,适用于任何现有的合并方法。它旨在保留基础模型中的关键权重,借鉴了持续学习(CL)和模型压缩的原则。利用一个任务无关的校准集,AIM在合并过程中有选择地优先处理关键权重。我们实证证明,AIM显著提高了多个基准下的合并模型性能。我们的研究结果表明,考虑激活空间信息可以在LLMs的模型合并策略中提供显著改进,最多可提高40%的基准性能。
arXiv:2502.02406v1 交叉注意力类型:跨模态
摘要:交叉注意力在多模态大规模语言模型(MLLMs)中广泛采用,用于将视觉信息整合进语言骨干。然而,在处理大量视觉输入的应用中,如视频理解,交叉注意力层中处理大量的视觉标记会导致高内存需求,并且常常需要在多个GPU之间进行分布式计算。现有的分布式注意力机制面临显著的通信开销,使得交叉注意力层成为MLLMs高效训练和推理的关键瓶颈。为了解决这个问题,我们提出了一种名为LV-XAttn的分布式、精确的交叉注意力机制,具有最小的通信开销。我们观察到,在涉及大量视觉输入的应用中,查询块的大小通常远小于键值块的大小。因此,在LV-XAttn中,我们将大的键值块保留在每个GPU上,而通过GPU之间交换较小的查询块。我们还引入了一种高效的激活重新计算技术,以支持更长的视觉上下文。我们从理论上分析了LV-XAttn的通信优点,并证明了它可以在广泛范围的模型中实现加速。我们的评估使用了mPLUG-Owl3和OpenFlamingo模型,发现LV-XAttn相比现有方法可以实现高达5.58倍的端到端加速。
arXiv:2502.02391v1 声明类型:交叉
摘要:我们引入了FewTopNER,这是一种新颖的框架,将少量样本命名实体识别(NER)与主题感知上下文建模相结合,以应对跨语言和低资源场景中的挑战。FewTopNER 利用基于 XLM-RoBERTa 的共享多语言编码器,并通过语言特定的校准机制加以增强,生成稳健的上下文嵌入。该架构包括一个基于原型的实体识别分支,采用双向 LSTM 和条件随机场进行序列标注,以及一个通过混合概率和神经方法提取文档级语义特征的主题建模分支。跨任务桥梁实现了实体和主题表示之间的动态双向注意和特征融合,从而通过引入全局语义上下文来增强实体消歧。在英语、法语、西班牙语、德语和意大利语的多语言基准上的实证评估表明,FewTopNER 显著优于现有最先进的少量样本 NER 模型。特别是在 F1分数上,该框架实现了2.5-4.0个百分点的改进,并通过归一化点互信息度量显示出增强的主题一致性。消融研究进一步证实了共享编码器和跨任务集成机制对总体性能的贡献。这些结果强调了将主题感知上下文整合到少量样本 NER 中的有效性,并突显了FewTopNER在低资源条件下实现稳健跨语言应用的潜力。
arXiv:2502.02390v1 文本类型: cross
摘要:大规模语言模型(LLM)技术的研究正迅速发展,大多数技术采用“快速思考”方法进行推理。大多数LLM基于单次查询和LLM的推理能力生成最终结果。然而,随着OpenAI-o1的出现,“慢思考”技术逐渐引起了关注,因为其过程更接近人类的思考过程。受到人类在思考过程中不断关联和补充知识的能力的启发,我们开发了新颖的关联思考链(CoAT)框架,引入了蒙特卡洛树搜索(MCTS)算法与一种动态的新关键信息集成机制,称为“关联记忆”。通过结合MCTS的结构化探索能力和关联记忆的自适应学习能力,CoAT极大地扩展了LLM的搜索空间,使我们的框架能够探索多种推理路径,并实时动态更新其知识库。这使得框架不仅能够重新访问和完善早期推理,还能适应性地纳入不断变化的信息,确保最终输出既准确又全面。为了验证我们框架的有效性,我们在多种生成和推理任务中进行了广泛的实验。这些实验表明,我们的框架在精确性、连贯性和多样性方面优于传统的推理过程。框架能够迭代扩展其搜索空间同时保留上下文相关信息的能力得到了验证。
arXiv:2502.02380v1 宣告类型:交叉
摘要:我们研究了预算受限的批准型流动性民主模型,旨在集中选择投票者以确保选民的完全代表。从计算复杂性的角度来看,我们重点关注整体成本最小化、保持短的委托路径以及防止投票权过度集中。此外,我们探讨了战略控制的计算方面,特别是外部代理是否能够改变选举组件以影响某些投票者的投票权。