arXiv:2504.04534v1 类型: cross
摘要:领域包括 journalism、medicine 和 business 的信息过载问题需要通过文本摘要来缓解。这项研究使用一种新的多维度框架,评估了 17 个大型语言模型(OpenAI、Google、Anthropic、开源)的摘要性能。我们在三个不同的输出长度(50、100、150 个标记)下,使用事实一致性、语义相似性、词法重叠和人类质量的度量标准,对七个多样性数据集(BigPatent、BillSum、CNN/DailyMail、PubMed、SAMSum、WikiHow、XSum)进行了评估,同时考虑了效率因素。我们的研究结果揭示了显著的性能差异,特定模型在事实准确性(deepseek-v3)、人类质量(claude-3-5-sonnet)和处理效率/成本效益(gemini-1.5-flash、gemini-2.0-flash)方面表现出色。不同数据集之间性能差异显著,模型在技术领域表现不佳,在对话内容方面表现良好。我们发现,在 50 个标记时事实一致性最好,在 150 个标记时感知质量最好。我们的分析提供了基于证据的建议,适用于从需要事实准确性的高风险应用到需要高效处理的资源限制环境的不同用例。这种全面的方法通过结合质量指标和运营考虑,涵盖了准确性、效率和成本效益之间的权衡,从而指导特定应用中的模型选择,进一步提升了评估方法。
arXiv:2504.04528v1 宣告类型: cross
摘要:机器学习支持的决策,例如下达测试指令或确定预防性拘留,通常基于概率预测进行二元分类。对于此类预测的评估框架通常会考虑优先考虑独立决策指标(例如准确率)还是前K指标(例如Precision@K),以及是关注固定阈值还是阈值无关的度量标准(例如AUC-ROC)。我们强调,长期由决策理论家倡导的结果主义视角,应该自然地倾向于使用混合阈值支持独立决策的评估方法,例如布里尔评分和逻辑损失。然而,我们的实证分析揭示,在ICML、FAccT和CHIL等主要会议上,评估中倾向于优先使用前K指标或固定阈值。为解决这一问题,我们利用这一决策论框架将评估指标映射到其最佳应用场景,并提供了一个Python包briertools来促进布里尔评分的更广泛应用。在此过程中,我们还发现了新的理论联系,包括布里尔评分和决策曲线分析之间的和解,这澄清并回应了由(Assel等人,2017)提出的一项长期对适当评分规则临床效用的批评。
arXiv:2504.04524v1 宣布类型: 横向
摘要:近年来,大型语言模型(LLMs)迅速发展,接近通用人工智能(AGI),并借助大规模强化学习来增强人类对齐(HA)和推理能力。最近基于奖励的优化算法,如近端策略优化(PPO)和组相对政策优化(GRPO),在推理任务上取得了显著的性能,而基于偏好的优化算法,如直接偏好优化(DPO),显著提高了LLMs的人类对齐性能。然而,尽管基于奖励的优化方法在对齐任务上的表现很强,它们仍易受到奖励作弊的攻击。此外,基于偏好的算法(例如在线DPO)在推理任务上的性能尚未达到基于奖励的优化算法(如PPO)的水平,使得在这一特定领域仍有值得探索的空间。鉴于这些挑战,我们提出了信任域偏好近似(TRPA)算法,该算法将基于规则的优化与基于偏好的优化结合起来,适用于推理任务。作为基于偏好的算法,TRPA 自然地解决了奖励作弊的问题。TRPA 通过预定义规则构建偏好级别,形成相应的偏好配对,并利用一种新的强化学习训练优化算法,该算法具有理论上的单调改进保障。实验结果表明,TRPA 不仅在推理任务上实现了竞争力的性能,还表现出稳健的稳定性。论文代码已发布并持续更新于 https://github.com/XueruiSu/Trust-Region-Preference-Approximation.git。
arXiv:2504.04520v1 Announce Type: 横向
摘要:计算整个大型语言模型(LLM)的完整海森矩阵——即整个大型语言模型的二阶导数矩阵——在实际上是不可能的,因为它的规模过于庞大。在这份技术报告中,我们旨在提供一个全面的指南,说明如何使用PyTorch的autograd库来准确计算LLM的部分海森矩阵。我们还演示了如何使用多个向量-海森矩阵乘积(HVPs)的样本来计算海森矩阵的完整对角线。我们希望这份指南以及附带的GitHub代码可为那些希望更好地理解LLM中海森矩阵的行为和结构的研究人员和实践者提供有价值的资源。
arXiv:2504.04517v1 宣告类型: cross
摘要: 基于 extensive 数据集(如 GroundingDINO 和 LAE-DINO)预训练的基座模型在跨域少量样本对象检测(CD-FSOD)任务中表现优异。通过严格的少量样本训练,我们发现,将基于图像的数据增强技术与基于网格的次域搜索策略相结合,显著提升了这些基座模型的性能。基于 GroundingDINO,我们运用了几种广泛使用于图像增强的方法,并建立了优化目标,以有效地在广阔的次域空间中导航,寻找最佳的次域。此方法有助于高效的少量样本对象检测,并提出了通过高效搜索基础模型的最佳参数配置来解决CD-FSOD问题的方法。我们的发现极大地推动了在数据稀缺环境下视觉语言模型的实际部署,并为优化其跨域泛化能力提供了关键洞察,无需进行劳动密集型的重新训练。代码可在 https://github.com/jaychempan/ETS 获取。
arXiv:2504.04514v1 类型: 横向关联
摘要: 尽管大型语言模型(LLMs)在最近取得了成功,但在长序列推理场景中,LLMs 由于注意力机制的平方级计算复杂性而特别具有挑战性。受到神经网络模型中特征归因可解释性理论的启发,我们观察到并非所有 token 对贡献都是相同的。基于这一观察,我们提出了一种新颖的 token 剪枝框架,即基于显著性动态 token 剪枝(SDTP),根据输入上下文逐步和动态地剪枝冗余 token。具体来说,设计了一个轻量级的基于显著性的预测模块,用于根据每个 token 的隐藏状态估计其重要性得分,并将其添加到 LLM 的不同层中,以分层剪枝冗余 token。此外,我们提出了一种基于排名的优化策略,以最小化显著性得分和预测重要性得分之间的排名分歧。广泛的实验表明,我们的框架可以泛化到各种模型和数据集上。通过分层剪枝 65% 的输入 token,我们的方法在推理过程中大幅减少了 33% 至 47% 的 FLOPs,并且速度提升了 1.75 倍,同时保持了相当的性能。此外,我们展示了 SDTP 可以与 KV 缓存压缩方法结合使用以进一步压缩。
arXiv:2504.04482v1 交叉类型论文
摘要:实例分割在医疗图像分析中起着关键作用,通过实现病变、肿瘤和解剖结构的精确定位和勾勒。尽管诸如Mask R-CNN和BlendMask等深度学习模型取得了显著进展,但它们在高风险医疗场景中的应用仍然受限于信心校准问题,这可能导致误诊。为了解决这一挑战,我们提出了一种基于一致性预测理论的稳健质量控制框架。该框架创新地构建了一种风险感知动态阈值机制,根据临床要求自适应调整分割决策边界。具体而言,我们设计了一个**校准感知损失函数**,该函数根据用户定义的风险水平$\alpha$动态调整分割阈值。利用可交换校准数据,该方法确保测试数据上的预期FNR或FDR低于$\alpha$的可能性很高。该框架与主流的分割模型(如Mask R-CNN、BlendMask+ResNet-50-FPN)和数据集(PASCAL VOC格式)兼容,无需进行架构修改。实验结果表明,我们通过开发的校准框架严格限制了测试集上的FDR指标。
arXiv:2504.04473v1 类别: cross
摘要: 在本文中,我们提出了一种方法,通过将其与对应的模型答案/参考答案进行比较,自动识别学生答案中缺失的项目,即所谓的“空缺”。这些空缺可以在单词、短语或句子级别进行识别。识别出的空缺对于为形成性评估提供学生反馈是有用的。空缺识别问题被建模为一对代表学生答案和给定问题对应模型答案的有向图之间的对齐。为了验证所提出的方法,考虑了三个广泛-known的简答题评分数据集,即得克萨斯大学北坦普尔分校(UNT)、SciEntsBank和Beetle的标注空缺学生答案,该标注空缺学生答案的数据集可在以下链接获取:https://github.com/sahuarchana7/gaps-answers-dataset。在传统的机器学习任务中采用的评估指标用于评估空缺识别任务。尽管所提出方法在不同数据集和不同类型的答案上的性能有所不同,但总体而言,观察到其性能是令人鼓舞的。
arXiv:2504.04469v1 宣告类型: 交叉
摘要:世界经济和环境可持续性依赖于高效可靠供应链,在这些供应链中,集装箱航运作为一种环保的运输方式发挥了关键作用。班轮公司希望通过解决装箱计划问题来提高运营效率。由于许多复杂的组合方面,装箱计划具有挑战性,通常被分解为两个NP困难子问题:主计划和泊位计划。本文提出了AI2STOW,这是一种端到端的深度强化学习模型,带有可行性投影和操作掩码,可以在需求不确定性条件下创建具有全局目标和约束的主计划,包括配对的块装箱模式。我们的实验结果表明,AI2STOW在目标性能和计算效率方面优于强化学习和随机规划的基本方法,在模拟实例中反映的是实际船舶的规模和运营计划时间范围。
arXiv:2504.04466v1 类型: cross
摘要:循环——设计用于无缝重复的短音频片段——在许多音乐流派中至关重要,尤其是在舞曲和电子风格中。然而,当前的生成音乐模型难以产生真正可以循环的音频,仅生成一个短的波形并不能保证其从结尾平滑过渡回到开头,常常导致听觉上的断层。循环——设计用于无缝重复的短音频片段——在许多音乐流派中至关重要,尤其是在舞曲和电子风格中。然而,当前的生成音乐模型难以产生真正可以循环的音频,仅生成一个短的波形并不能保证其从结尾平滑过渡回到开头,常常导致听觉上的断层。我们通过将非自回归模型(MAGNeT)修改为生成具有循环模式的标记,让模型在创建结尾时关注音频的开头来解决这一问题。这种仅进行推断的方法生成的音频意识到了未来的上下文,并自然地循环,而无需任何额外的训练或数据。通过计算循环接头周围的标记困惑度来评估循环过渡的一致性,观察到55%的改进。盲听测试进一步证实了基线方法的显著感知收益,平均评分提高了70%。综合来看,这些结果突显了仅进行推断的方法在改善生成模型方面的有效性,并强调了非自回归方法在意识上下文的音乐生成中的优势。