LLM2D

arXiv 论文列表

arXiv:2502.01995v1 类别: cross 摘要: Fréchet 回归将经典回归方法扩展到非欧几里得度量空间,从而能够分析数据在流形和图等复杂结构上的关系。本文通过比较几何学的视角对 Fréchet 回归进行了严格的理论分析,这得出了其在实践中使用的重要考虑因素。该分析提供了 Fréchet 均值存在的关键结果、唯一性和稳定性,以及非参数回归的统计保证,包括指数集中界和收敛速度。此外,角度稳定性方面的见解揭示了流形曲率与其非欧几里得上下文中回归估计量行为之间的相互作用。实验验证了理论发现,展示了所提出的双曲映射的有效性,特别是对于具有异方差性的数据,并强调了这些结果的实际用途。
发布时间: 2/5/2025
查看原文
arXiv:2502.01991v1 宣告类型: cross 摘要: 如今,社交媒体在塑造公共舆论方面至关重要,特别是在疫苗等具有极化性质的问题上,不同的道德观点影响个体的观点。在自然语言处理(NLP)领域,由于心理语言学任务如识别道德框架的数据稀缺性和复杂性,单纯依赖人类注释者既昂贵又耗时,并且由于认知负担容易导致不一致。为了解决这些问题,我们利用了大规模语言模型(LLMs),这些模型可以通过少样本学习适应新任务,利用少量上下文中的示例,并通过连接示例和任务原则的方式提供解释。我们的研究探索了LLMs在协助人类注释者识别社交媒体上疫苗辩论中的道德框架方面的潜力。我们采用了两步过程:首先使用LLMs生成概念和解释,然后使用"think-aloud"工具进行人类评估。我们的研究显示,将LLMs集成到注释过程中可以提高准确性,降低任务难度,减轻认知负担,这表明人类与AI在复杂心理语言学任务中的协作具有广阔的发展前景。
发布时间: 2/5/2025
查看原文
作者: David S. Hayden, Mao Ye, Timur Garipov, Gregory P. Meyer, Carl Vondrick, Zhao Chen, Yuning Chai, Eric Wolff, Siddhartha S. Srinivasa
arXiv:2502.01980v1 宣告类型: cross 摘要:预测模型部署后将遇到的各种挑战难以预料。常规做法是采用一种反应性、循环的方法:模型部署、数据挖掘和重新训练。相反,我们通过在训练过程中设想额外的数据,发展了一种前瞻性长尾发现过程。特别是,我们开发了一种通用基于模型的长尾信号,包括一种不同可微的单次前向传递形式的先验不确定性,该形式不会影响模型参数或预测性能,但可以识别稀有或困难的输入。我们利用这些信号作为指导,从潜在扩散模型生成额外的训练数据,我们称之为长尾指导(LTG)的过程。关键的是,我们可以在不重新培训扩散模型或预测模型的情况下执行LTG,并且我们不需要将预测模型暴露在中间扩散状态中。由LTG生成的数据表现出语义上的有意义的变异性,在图像分类基准测试中实现了显著的一般化改进,并且可以通过分析来前瞻性地发现、解释和解决预测模型中的概念缺口。
发布时间: 2/5/2025
查看原文
作者: Wenhao Zheng, Yixiao Chen, Weitong Zhang, Souvik Kundu, Yun Li, Zhengzhong Liu, Eric P. Xing, Hongyi Wang, Huaxiu Yao
arXiv:2502.01976v1 交叉类型: cross 摘要: 大型语言模型在各种任务中取得了显著的成功,但在推理过程中面临着高计算成本的问题,这限制了它们在资源受限的应用中的部署。为了解决这一问题,我们提出了一种新的CITER(Collaborative Inference with Token-level Routing)框架,该框架通过令牌级别路由策略使小型和大型语言模型(SLMs & LLMs)能够高效协作。具体而言,CITER将非关键令牌路由给SLM以提高效率,将关键令牌路由给LLM以获得泛化质量。我们将路由器训练视为策略优化,其中路由器根据预测的质量和生成的推理成本获得奖励。这使路由器能够学习预测令牌级别的路由分数,并基于当前令牌及其决策对未来影响做出路由决策。为了进一步加速奖励评估过程,我们引入了一种快捷方式,该快捷方式显著减少了奖励估计的成本并提高了我们方法的实际可行性。在五个基准数据集上的广泛实验表明,CITER在保持高质量生成的同时减少了推理成本,为实时和资源受限的应用提供了一个有前景的解决方案。
发布时间: 2/5/2025
查看原文
作者: Haolin Wang, Yafei Ou, Prasoon Ambalathankandy, Gen Ota, Pengyu Dai, Masayuki Ikebe, Kenji Suzuki, Tamotsu Kamishima
arXiv:2502.01972v1 交叉类型: cross 摘要: 类风湿性关节炎(RA)是一种以关节炎症和进行性结构损伤为特征的慢性自身免疫性疾病。关节间隙宽度(JSW)是传统放射摄影中评估疾病进展的重要指标,已成为计算机辅助诊断(CAD)系统中的一个主要研究课题。然而,基于深度学习的JSW分析的放射学CAD系统面临着数据质量方面的重大挑战,包括数据不平衡、数据多样性有限以及标注难度大。本工作引入了一个具有挑战性的图像合成场景,并提出了分层分离网络(LSN),以准确分离手指关节的传统放射片中的软组织层、上骨层和下骨层。使用这些层次,可以合成可调节的JSW图像以应对数据质量挑战,并实现真实标签(GT)生成。实验结果表明,基于LSN的合成图像与真实放射片非常相似,并在下游任务中显著提高了性能。代码和数据集将可供使用。
发布时间: 2/5/2025
查看原文
作者: Younan Zhu, Linwei Tao, Minjing Dong, Chang Xu
arXiv:2502.01969v1 文本类型: cross 摘要: 大型多模态视觉语言模型(Large Vision-Language Models, LVLMs)展现了令人印象深刻的多模态推理能力,但仍然高度容易出现物体幻象的问题,其中模型生成的响应与视觉内容不符。最近的研究将这个问题归因于LVLMs固有的偏见,即视觉标记注意力图与空间位置之间存在固定的关联,并提出了通过重新排序视觉标记来缓解这一问题的方案。然而,我们发现不同的LVLMs在注意力与空间位置之间的相关性存在差异,这使得现有的解决方案难以泛化到其他LVLMs。为了解决这个问题,我们首先引入了一个无训练解决方案——均匀注意力校准(Uniform Attention Calibration, UAC),该解决方案通过单张无意义输入图像估算偏见,并应用校准矩阵来纠正注意力不平衡。为进一步缓解偏见,我们放松了UAC中单张无意义输入的假设,并引入了一个微调解决方案——动态注意力校准(Dynamic Attention Calibration, DAC),该解决方案通过一个即插即用模块强制在图像中无论物体位于何处都产生一致的输出。多项基准实验全面证明,UAC和DAC显著减少了物体幻象现象,同时改善了整体多模态对齐。我们的方法在多种LVLM架构上实现了各种指标下的最先进的性能。
发布时间: 2/5/2025
查看原文
作者: Jinlong Pang, Na Di, Zhaowei Zhu, Jiaheng Wei, Hao Cheng, Chen Qian, Yang Liu
arXiv:2502.01968v1 类型:交叉 摘要:最近的研究表明,在大型语言模型(LLMs)的监督微调(SFT)中,数据质量比数量更重要。尽管大多数数据清洗方法集中在过滤整个样本,但样本内的单个标记的质量可能会有很大差异。在预训练之后,即使在高质量的样本中,一些与任务无关的模式或短语也可能冗余或无信息性。继续在这些模式上进行微调可能会提供有限的好处,甚至会损害下游任务的性能。在本文中,我们从噪声标签的角度研究了标记质量,并提出了一种适用于SFT任务的通用标记清洗管道。我们的方法过滤掉无信息的标记,同时保留那些携带关键任务相关信息的标记。具体来说,我们首先通过检查模型更新对每个标记的影响来评估标记质量,然后应用阈值分离。标记影响可以用固定参考模型在一个通过中进行测量,也可以用自我进化的参考模型进行迭代测量。两种方法的优缺点通过误差上界进行了理论分析。广泛的实验结果显示,我们的框架在多个下游任务中一致地提高了性能。
发布时间: 2/5/2025
查看原文
作者: Shashank Sharma, Janina Hoffmann, Vinay Namboodiri
arXiv:2502.01956v1 宣告类型:交叉 摘要:在本文中,我们利用层次 reinforcement 学习(HRL)解决了长期视觉规划任务的挑战。我们的主要贡献是一种离散层次规划(DHP)方法,这与传统的基于距离的方法不同。我们为该方法提供了理论基础,并通过广泛的实证评估展示了其有效性。 我们的代理递归地在长期目标的背景下预测子目标,并通过组合抽象操作构建计划以获得离散奖励。该方法引入了一种新的树轨迹优势评估策略,这固有地鼓励生成更短的计划,并允许在最大树深度之外进行泛化。学习到的策略函数使代理能够高效地规划,只需要 \(\log N\) 计算步骤,从而使得重新规划高度高效。基于软actor-批评(SAC)框架的代理使用在线策略想象数据进行训练。此外,我们提出了一种新的探索策略,使代理能够生成用于规划模块的相关训练示例。我们在一个包含25个房间的环境中对长期视觉规划任务进行了评估,结果表明该方法在成功率和平均episode长度方面显著优于以前的基准。此外,消融研究突显了各个模块对整体性能的独立贡献。
发布时间: 2/5/2025
查看原文
arXiv:2502.01949v1 投稿类型:交叉 摘要:近年来,基于文本引导的3D场景生成领域引起了广泛关注。优质生成与物理现实的契合度和高度可控性对于实际3D场景应用至关重要。然而,现有方法面临着根本性的限制:(i)难以捕捉文本中描述的多个对象之间的复杂关系,(ii)无法生成物理上合理的场景布局,以及(iii)在组合场景中的可控性和扩展性不足。在本文中,我们提出了LayoutDreamer框架,该框架利用3D高斯点绘制(3DGS)来促进以文本为指导的高质量、物理一致的组合场景生成。具体来说,对于给定的文本提示,我们将其转换为定向场景图,并适应性地调整初步组合3D高斯分布的数量密度和布局。随后,根据训练焦点动态调整相机参数,以确保实体级别的生成质量。最后,通过从场景图中提取定向依赖关系,我们为物理和布局能量进行定制,以确保现实性和灵活性。全面的实验表明,LayoutDreamer在其他组合场景生成质量和语义对齐方法中表现出色。具体而言,它在T3Bench的多对象生成度量标准上达到了最先进的(SOTA)性能。
发布时间: 2/5/2025
查看原文
arXiv:2502.01942v1 交叉公告类型:交叉 摘要:方面情感三元组提取(ASTE)任务旨在从给定的句子中提取方面术语、意见术语及其相应的情感极性。它仍然是细粒度情感分析中最突出的子任务之一。现有的大多数方法将三元组提取框定为端到端的2D表填充过程,主要集中在单词级别的交互上,往往忽视了句子级别的表示。这一局限性阻碍了模型捕捉全局上下文信息的能力,特别是在处理复杂句子中的多词方面和意见术语时。为了解决这些问题,我们提出了一种边界驱动的表填充与跨粒度对比学习(BTF-CCL)方法,以增强句子级别表示和单词级别表示之间的语义一致性。通过构建正样本和负样本对,模型被迫在句子级别和单词级别学习关联。此外,我们提出了一种多尺度、多粒度卷积方法,以更好地捕捉丰富的语义信息。我们的方法可以在保持对局部细节敏感的同时,更有效地捕捉句子级别的上下文信息。实验结果表明,根据F1分数,所提出的方法在公开基准测试上达到了最先进的性能。
发布时间: 2/5/2025
查看原文