LLM2D

arXiv 论文列表

作者: Dongqi Liu, Chenxi Whitehouse, Xi Yu, Louis Mahon, Rohit Saxena, Zheng Zhao, Yifu Qiu, Mirella Lapata, Vera Demberg
arXiv:2502.08279v1 交叉类型公告 摘要:将录制的视频转换为简洁且准确的文本摘要是多模态学习中日益增长的挑战。本文介绍了VISTA,一个专门为科学领域视频到文本总结设计的数据集。VISTA包含18,599个录制的AI会议演讲及其相应的论文摘要。我们衡量了最新大型模型的性能,并应用基于计划的框架以更好地捕捉摘要的结构化特征。人类和自动评估均证实,显式规划可以提升摘要质量并增强事实一致性。然而,模型与人类表现之间仍然存在较大的差距,突显了科学视频总结的挑战。
发布时间: 2/13/2025
查看原文
作者: Somaiyeh Dehghan, Mehmet Umut Sen, Berrin Yanikoglu
arXiv:2502.08266v1 声明类型: cross 摘要:仇恨言论检测是一个关键任务,特别是在社交媒体上,有害内容可以迅速传播。实施机器学习模型以自动识别和应对仇恨言论对于减轻其影响和防止其传播至关重要。开发有效的仇恨言论检测模型的第一步是获取高质量的数据集进行训练。标记数据是大多数自然语言处理任务的基础,但由于仇恨言论多样且往往具有主观性,导致分类仇恨言论具有挑战性,这可能会导致标注者之间的不同解释和分歧。本文探讨了应对标注者分歧的策略,这是一个长期以来被忽视的问题。特别是,我们基于微调的 BERT 模型评估了处理土耳其推文中的仇恨言论分类标注者分歧的不同方法。我们的研究突显了该问题的重要性,并提供了关于在线讨论中仇恨言论检测和理解的最先进的基准结果。
发布时间: 2/13/2025
查看原文
作者: Maria Molchanova, Anna Mikhailova, Anna Korzanova, Lidiia Ostyakova, Alexandra Dolidze
arXiv:2502.08265v1 宣布类型: cross 摘要: 随着大型语言模型(LLMs)的发展,对话人工智能的关注点已从仅生成连贯且相关的回复转向应对更复杂的挑战,如个性化对话系统。为了增强用户参与度,聊天机器人通常被设计成模仿人类的行为,回应在定义的情感范围内,并与一组价值观保持一致。在本文中,我们旨在使用LLMs根据大五人格模型模拟个人特质。我们的研究显示,生成与人格相关的内容仍然是模型面临的挑战之一。因此,我们提供了一个包含预定义大五人格特征的生成文本数据集,并提供了一个分析框架,用于在人格技能的模拟环境中测试LLMs。
发布时间: 2/13/2025
查看原文
作者: Sentenac Flore, Lee Albin, Szepesvari Csaba
arXiv:2502.08259v1 Announce Type: 横向 摘要: 我们考虑了我们称之为离线到在线学习设置,重点关注随机有限臂bandit问题。在离线到在线学习中,学习者从一种不受其控制的方式与未知环境互动中收集离线数据开始。给定这些数据,学习者开始与环境互动,逐渐改进其初始策略,以最大化其总奖励。在这种设置中,学习者面临着一个根本性的困境:如果策略仅部署较短的时间,一种合适的战略(从多种意义上来说)是基于悲观主义的Lower Confidence Bound (LCB)算法。LCB算法能够有效地与任何足够“覆盖”离线数据的策略进行竞争。然而,对于更长的时间范围,更优选的战略是基于乐观主义的Upper Confidence Bound (UCB)算法。随着时间的推移,UCB算法以几乎是最优的方式收敛到最优策略的性能。然而,在离线到在线学习的设置中,UCB算法最初探索过度,导致其短期内的性能比LCB算法更差。这表明,对于控制其策略的使用时间的不具有控制权的学习者而言,在短时间内应从LCB开始,并在后续回合中逐渐过渡到类似UCB的战略。本文探讨了这种过渡应该如何发生。我们的主要结果表明,我们的新算法在任何时间点的性能几乎与LCB和UCB中的较好者一样好。我们算法背后的中心思想具有广泛适用性,我们预计我们的结果将超出多臂bandit的设置。
发布时间: 2/13/2025
查看原文
arXiv:2502.08226v1 声明类型: cross 摘要: 近期大型视觉语言模型(LVLMs)的进展已经使得基于LVLM的图形用户界面(GUI)代理得以在多种范式下开发。基于训练的方法,如CogAgent和SeeClick,在跨数据集和跨平台的一般性方面存在困难,因为它们依赖于特定数据集的训练。通用型LVLM,例如GPT-4V,使用标记集(SoM)进行动作定位,但获取SoM标签需要元数据,例如HTML源代码,而在不同平台之间这些元数据并不一致可用。此外,现有方法往往专注于单一的GUI任务,而难以实现全面的GUI理解。为了解决这些局限性,我们提出了TRISHUL,这是一个新颖的无需训练的代理框架,旨在增强通用型LVLM以实现全面的GUI理解。与以往主要关注动作定位(将指令映射到GUI元素)或GUI引用(给定位置描述GUI元素)的工作不同,TRISHUL能够无缝地结合这两种功能。TRISHUL的核心是层次屏幕解析(HSP)和空间增强元素描述(SEED)模块,这两个模块协同工作,提供多粒度、空间和语义丰富的GUI元素表示。我们的结果表明,TRISHUL在ScreenSpot、VisualWebBench、AITW和Mind2Web数据集中的动作定位上表现优异。此外,在GUI引用任务中,TRISHUL在ScreenPR基准测试中超越了ToL代理,设定了一种新的标准,即稳健和适应性强的GUI理解。
发布时间: 2/13/2025
查看原文
作者: Jinda Xu, Yuhao Song, Daming Wang, Weiwei Zhao, Minghua Chen, Kangliang Chen, Qinya Li
arXiv:2502.08211v1 交叉公告类型 摘要:在大数据泛滥的时代,有效整理网络爬取数据集对于优化模型性能至关重要。本文解决了此类数据集无结构和异构性质带来的挑战。传统的启发式整理方法往往无法充分捕捉复杂特征,从而产生偏见并排除相关数据。我们提出了一种先进的基于学习的整理方法,Ensemble Curation Of DAta ThroUgh Multimodal Operators (EcoDatum),并引入了一种新颖的质量指导去重复方法,以确保特征分布的平衡。EcoDatum 系统性地整合了各种单模态和多模态数据整理操作符在弱监督集成框架中,利用自动化优化为每个数据点进行有效评分。EcoDatum 显著提高了数据整理质量和效率,超越了现有的最先进的(SOTA)技术,在 DataComp 榜单上排名第一,平均性能得分为0.182,涵盖38个不同的评估数据集。这比 DataComp 基线方法提高了28%,展示了其在提高数据集整理和模型训练效率方面的有效性。
发布时间: 2/13/2025
查看原文
作者: Junyi An, Chao Qu, Yun-Fei Shi, XinHao Liu, Qianwei Tang, Fenglei Cao, Yuan Qi
arXiv:2502.08209v1 宣称类型: cross 摘要:图神经网络(GNNs)在计算化学领域展现出了显著的潜力。然而,分子数据的有限可用性引发了关于GNNs能否有效地捕获基本的物理和化学原理的担忧,这限制了其泛化能力。为解决这一挑战,我们提出了一种新颖的自监督方法,称为等变掩蔽位置预测(EMPP),该方法基于分子内势和力理论。与传统的属性掩蔽技术不同,EMPP提出了一个更为明确的位置预测任务,增强了对量子力学特征的学习。EMPP还规避了去噪方法中常用的高斯混合分布的近似,使得更准确地获取物理性质成为可能。实验结果表明,EMPP显著提高了高级分子架构的性能,超过了最先进的自监督方法。我们的代码发布在 https://github.com/ajy112/EMPP。
发布时间: 2/13/2025
查看原文
arXiv:2502.08181v1 Announce Type: cross 摘要:数据稀缺性极大地复杂化了连续学习问题,即在样本非常有限的动态环境中,深度神经网络如何进行学习。然而,最新的少量样本类别增量学习(FSCIL)方法及其相关研究展示了解决这一问题的重要见解。本文对FSCIL进行了全面调研,强调了几个重要的方面,包括FSCIL方法的完整和正式目标,原型修正的重要性和意义,基于预训练模型和语言引导机制的新学习范式,FSCIL性能指标和评估的更深入分析,以及FSCIL在各个领域的实际应用背景。我们广泛的讨论展示了FSCIL所面临的开放挑战、潜在解决方案以及未来方向。
发布时间: 2/13/2025
查看原文
作者: Zhen Xiong, Yujun Cai, Bryan Hooi, Nanyun Peng, Kai-Wei Chang, Zhecheng Li, Yiwei Wang
arXiv:2502.08180v1 类别: cross 摘要: 大型语言模型(LLMs)在各种自然语言处理(NLP)任务中表现出强大的泛化能力。然而,它们在字符级别的字符串操作方面表现出明显的弱点,难以完成诸如字符删除、插入和替换等基本操作。这些挑战主要源于分词限制,尽管这些操作在数据预处理和代码生成中起着关键作用。通过系统分析,我们得出了两个关键见解:(1)LLMs 在利用内在的分词知识进行字符级别的推理方面面临着重大困难,(2)原子化的单词结构可以显著增强LLMs 处理分词级别结构信息的能力。基于这些见解,我们提出了通过分而治之进行字符级别操作的新型方法,旨在弥合分词级别处理与字符级别操作之间的鸿沟。该方法将复杂的操作分解为显式的字符级别子任务,并结合受控的分词重建阶段,从而显著提高了准确性。不进行额外训练,我们的方法在字符删除、插入和替换任务上的准确性方面取得了显著提高。为了支持进一步的研究,我们开源了我们的实现和基准测试。
发布时间: 2/13/2025
查看原文
作者: Xiangjin Xie, Yuxin Chen, Ruipeng Wang, Kai Ouyang, Zihan Zhang, Hai-Tao Zheng, Buyue Qian, Hansen Zheng, Bo Hu, Chengxiang Zhuo, Zang Li
arXiv:2502.08161v1 交叉类型 摘要:图神经网络在近年来的推荐系统中得到了广泛的应用,其中负采样起着重要作用。现有的负采样方法将节点间的关系限制为硬正样本对或硬负样本对,这导致了结构信息的丢失,并且缺乏为邻居少的节点生成正样本对的机制。为克服这些局限,我们提出了一种新颖的基于软链接的采样方法,名为MixDec Sampling,该方法包括Mixup Sampling模块和Decay Sampling模块。Mixup Sampling通过合成新的节点和软链接来增强节点特征,从而为邻居少的节点提供了足够的样本数量。Decay Sampling通过生成软链接以增强节点嵌入学习中的图结构信息的消化。据我们所知,这是我们首次在基于图神经网络的推荐系统中通过软链接建模节点间的采样关系。广泛的实验表明,所提出的MixDec Sampling可以显著且一致地提高几种代表性基于图神经网络的模型在各种推荐基准上的推荐性能。
发布时间: 2/13/2025
查看原文