LLM2D

arXiv 论文列表

arXiv:2504.12012v1 宣布类型:新 摘要:大型语言模型(LLMs)中的幻觉通常被认为是错误,即与事实准确性相偏离的输出。然而,在创造性和探索性的情境中,这些“错误”可能代表了创新的新途径。我们提出了有意诱导精神病(PIP)这一新颖的方法,该方法旨在放大LLM的幻觉,用于诸如科幻推想、互动故事讲述和混合现实模拟等富有想象力的任务。借鉴哈伯特·梅尔维尔的《白鲸记》中皮普的“疯狂”,我们重新将幻觉视为计算想象力的来源,而非瑕疵。我们的方法是对LLM进行微调,以鼓励产生推测性、隐喻性和离奇的输出——当事实准确性不是首要目标时,这些幻觉是有用的。PIP受到剧场和舞台魔术共有的幻觉的启发,将这些创造性的失误置于用户愿意放下怀疑的语境中,从而将“错误”转变为思维新方式的催化剂。我们讨论了潜在的应用场景、确保用户同意的设计原则、初步观察结果以及更广泛的人工智能伦理和人机合作的意义。
发布时间: 4/17/2025
查看原文
作者: Sofia Krylova, Fabian Schmidt, Vladimir Vlassov
arXiv:2504.11977v1 通知类型: 新颖 摘要:许多现有的数字分诊系统是基于问卷的,根据患者提供的信息(例如症状、医疗历史和紧迫性)指导患者接受适当级别的护理。此类系统通常使用确定性的模型和预定义的规则来确定护理级别。由于它只能帮助完成该过程的患者,因此它面临着分诊访谈不完整带来的挑战。在本研究中,我们探索使用机器学习(ML)来预测未完成访谈的结果,以提升患者护理和服务质量。从不完整数据预测分诊结果对于患者安全和医疗服务效率至关重要。我们的研究结果显示,决策树模型,特别是LGBMClassifier和CatBoostClassifier,在预测完整访谈结果时准确率超过80%,并且预测准确率与访谈完成度程度呈线性关系。例如,LGBMClassifier在100%完整度的访谈中达到了88.2%的预测准确率,在80%完整度的访谈中达到了79.6%的准确率,在60%完整度的访谈中达到了58.9%的准确率,在40%完整度的访谈中达到了45.7%的准确率。TabTransformer模型在所有完成度程度上都显示出了超过80%的准确率,但需要大量的训练时间,这表明需要更强大的计算资源。研究突出了决策树模型的预测能力与访谈完成度之间的线性关系。
发布时间: 4/17/2025
查看原文
arXiv:2504.11942v1 宣布类型: 新 摘要: 当前的手语机器翻译系统依赖于识别手部动作、面部表情和身体姿态,并结合自然语言处理,将手语转换为文本。最近的方法使用 Transformer 架构通过位置编码来建模长距离依赖性。然而,它们在识别以高帧率捕获的手势之间的细微、短距离时间依赖性方面缺乏准确性。此外,其高计算复杂性导致训练效率低下。为了解决这些问题,我们提出了一种自适应 Transformer (ADAT),它结合了增强特征提取和通过门控机制进行自适应特征加权的组件,以强调上下文相关特征,同时减少训练开销并保持翻译准确性。为了评估 ADAT,我们引入了 MedASL,这是第一个公开的医疗美国手语数据集。在手语到手写词再到文本的实验中,ADAT 在 PHOENIX14T 上将训练时间减少了 14.33%,并将 BLEU-4 准确度提高了 0.1%,在 MedASL 上将训练时间减少了 3.24%,并将 BLEU-4 准确度提高了 0.1%。在手语到文本的实验中,它在 PHOENIX14T 上将准确度提高了 8.7%,将训练时间减少了 2.8%,在 MedASL 上准确度提高了 4.7%,训练时间加快了 7.17%。与手语到文本中的仅编码器和仅解码器基准相比,尽管 ADAT 的双流结构使其慢了最高 12.1%,但其准确率提高了至少 6.8%。
发布时间: 4/17/2025
查看原文
作者: Qianjin Yu, Keyu Wu, Zihan Chen, Chushu Zhang, Manlin Mei, Lingjun Huang, Fang Tan, Yongsheng Du, Kunlin Liu, Yurui Zhu
arXiv:2504.11919v1 宣告类型: 新 摘要: 最近,DeepSeek-R1 (671B) (DeepSeek-AI等, 2025) 在复杂任务中展示了其出色的推理能力,并公开分享了其方法。这为激发小型大规模语言模型 (LLM) 的推理能力提供了潜在高质量的链式思考 (CoT) 数据。为了为不同大小的LLM生成高质量的CoT数据,我们寻求一种高效的方法来生成具有LLM自适应问题难度级别的高质量CoT数据。首先,我们根据LLM自身的推理能力来划分问题的难度,并构建一个LLM自适应的问题数据库。第二,我们根据问题难度分布来采样问题数据库,然后使用DeepSeek-R1 (671B) (DeepSeek-AI等, 2025) 来生成相应高质量的CoT数据和正确答案。通过构建具有LLM自适应难度级别的CoT数据,我们显著降低了数据生成的成本,并增强了模型监督微调 (SFT) 的效率。最后,我们在复杂数学竞赛和代码生成任务领域验证了所提方法的有效性和普适性。值得注意的是,仅使用2k高质量的数学CoT数据,我们的ZMath-32B在数学推理任务中超过了DeepSeek-Distill-32B。同样,仅使用2k高质量的代码CoT数据,我们的ZCode-32B在代码推理任务中超过了DeepSeek-Distill-32B。
发布时间: 4/17/2025
查看原文
arXiv:2504.11882v1 宣告类型: 新 摘要: 解决土地利用分配问题有助于我们应对一些最紧迫的全球环境问题。由于这些问题属于NP难问题,因此需要有效的优化器来处理。关于变量依赖性的知识有助于提出这样的工具。然而,在这项工作中,我们考虑了一个标准变量依赖性发现技术无法适用的真实世界的多目标问题。因此,使用基于链接的变异操作符是不可行的。为了解决这一问题,我们提出了一种特定于问题的变量依赖性的定义。在此基础上,我们提出了一种获取依赖变量掩码的方法。使用这些掩码,我们构建了三种新的交叉操作符。关于真实世界测试案例的结果表明,在两个著名多目标优化器(NSGA-II,MOEA/D)中引入我们的建议,显著提高了它们的有效性。
发布时间: 4/17/2025
查看原文
arXiv:2504.11864v1 优化类型: 新颖 摘要: 灰盒优化提出了一种有效且高效的通用优化器。为此,它利用了变量依赖性信息和基于子函数的问题表示。这些方法已经通过允许在多个依赖变量需要修改的情况下在局部最优解之间进行“隧穿”来证明其有效性。隧穿在解决最大满足性问题(MaxSat)中非常有用,该问题可以重新表述为Max3Sat。由于许多实际问题都可以归结为解决MaxSat/Max3Sat实例,有效地解决它们变得非常重要。因此,我们专注于隧穿无法在局部最优高质量解和全局最优解区域之间引入改进移动的Max3Sat实例。我们基于相变分析这些实例的特征。基于这些观察结果,我们提出了一种操作方式,允许连接在解空间中相距较远的高质量解。我们利用从典型灰盒机制构建的优化器中的多满足性特征。实验研究显示,所提出的优化器可以解决那些超出最先进的灰盒优化器能力范围的Max3Sat实例。同时,它对已经通过灰盒成功解决的实例仍然有效。
发布时间: 4/17/2025
查看原文
作者: Tom Everitt, Cristina Garbacea, Alexis Bellot, Jonathan Richens, Henry Papadatos, Sim\'eon Campos, Rohin Shah
arXiv:2504.11844v1 通知类型: 新 摘要: 语言模型在实现给定目标的过程中利用其能力到什么程度?我们将这一点视为其目标导向性的指标。我们在涉及信息收集、认知努力和计划执行的任务中评估目标导向性,通过子任务来推断每个模型的相关能力。我们对来自Google DeepMind、OpenAI和Anthropic的语言模型的评估显示,目标导向性在不同任务中相对一致,但与任务表现不同,也只有中度受到动机提示的影响。值得注意的是,大多数模型并不是完全目标导向的。我们希望我们的目标导向性评估能够更好地监控语言模型的进步,并促进对语言模型代理属性的更慎重设计选择。
发布时间: 4/17/2025
查看原文
作者: Md Sultan Al Nahian, Chris Delcher, Daniel Harris, Peter Akpunonu, Ramakanth Kavuluru
arXiv:2504.11792v1 宣布类型: 新颖 摘要:预测患者医疗记录中的药物过量风险对于及时干预和预防至关重要。传统的机器学习模型在通过分析纵向医疗记录进行这项任务时展现了一定的前景。然而,近期大规模语言模型(LLMs)的进步提供了通过利用它们处理长文本数据的能力及其在各种任务中的先验知识来增强预测性能的机会。在这项研究中,我们评估了Open AI的GPT-4o LLM在使用患者纵向保险理赔记录预测药物过量事件方面的有效性。我们评估了其在微调和零样本设置下的性能,并将其与强大的传统机器学习方法作为基线进行对比。我们的结果显示,LLMs不仅在某些设置下优于传统模型,还可以在无需特定任务训练的情况下预测过量风险。这些发现突显了LLMs在临床决策支持中的潜力,特别是在药物过量风险预测方面。
发布时间: 4/17/2025
查看原文
arXiv:2504.11765v1 公告类型: 新 摘要: 随着输入上下文长度和模型规模的不断增长,近期的大规模语言模型(LLMs)面临着不断增加的推理延迟。特别是检索增强生成(RAG)技术,通过引入外部知识来增强LLM的响应,通过显著增加输入令牌的数量恶化了这一问题。这种令牌长度的扩展导致了计算开销的大幅增加,尤其是在预填充阶段,导致了更长的首个令牌时间(TTFT)。为了解决这一问题,本文提出了一种方法,通过利用基于磁盘的键值(KV)缓存来减轻预填充阶段的计算负担,从而减少TTFT。我们还介绍了一种名为Shared RAG-DCache的基于磁盘的共享键值缓存管理系统,适用于多实例LLM RAG服务环境。该系统结合了最优的系统配置,能够在给定的资源约束下提高吞吐量和降低延迟。Shared RAG-DCache利用了RAG中与用户查询相关的文档以及LLM推理服务中的排队延迟。它会主动为与查询相关的文档生成并存储磁盘KV缓存,并在多个LLM实例之间共享这些缓存,以提高推理性能。在单个配备了2个GPU和1个CPU的主机上进行的实验中,Shared RAG-DCache在资源配置不同的情况下,实现了15~71%的吞吐量提升,并且将延迟最多减少了12~65%。
发布时间: 4/17/2025
查看原文
作者: Yiyou Sun, Georgia Zhou, Hao Wang, Dacheng Li, Nouha Dziri, Dawn Song
arXiv:2504.11741v1 通告类型: 新 摘要: 最近的监督微调(SFT)方法在数学推理任务上显著提高了语言模型的性能,即使在模型以小型规模训练时也是如此。然而,通过这种微调增强的具体推理能力仍然知之甚少。在本文中,我们对AIME24数据集中的模型性能进行了详细分析,以理解推理能力如何演变。我们发现了一个梯级结构的问题难度,将问题分为四层(简单、中等、困难和极其困难),并确定了各层之间的具体需求。我们发现,从简单层到中等层的进步需要采用R1推理风格并在最少微调的情况下使用(500-1K个实例),而在推理链的每一步中,困难级的问题经常出现模型错误,尽管有对数缩放,准确率仍会停滞在约65%左右。极其困难的问题提出了根本不同的挑战;它们需要当前模型普遍难以应对的非传统问题解决技能。此外,我们发现精心挑选的小规模数据集提供的优势有限;扩展数据集规模显然更为有效。我们的分析为提高语言模型在数学推理方面的性能提供了更清晰的路线图。
发布时间: 4/17/2025
查看原文