arXiv:2502.07340v1 类别: 多学科交叉
摘要:在指令调优阶段使用包含不熟悉知识的数据训练大规模语言模型(LLMs)会使LLMs变得过于自信并促进幻觉现象。为了解决这一挑战,我们提出了一个新颖的框架NOVA,该框架通过识别与LLMs所学习的知识匹配度高的高质量数据来减少幻觉。NOVA 包括内部一致性探针(ICP)和语义等价识别(SEI),以评估LLMs对指令数据的熟悉程度。具体而言,ICP 通过计算多个自动生成响应之间度身定制的一致性来评估LLMs对给定指令的理解。SEI 进一步通过将目标响应与生成的响应进行比较,使用提出的语义聚类和精心设计的投票策略来评估LLMs对目标响应的熟悉程度。最后,我们引入了一个专家对齐的奖励模型,考虑到除了熟悉度之外的其他特征以提高数据质量。通过考虑数据质量并避免使用不熟悉的数据,我们可以利用选择的数据有效地使LLMs遵循指令并减少幻觉。广泛的实验和分析显示,NOVA 显著减少了幻觉,并使LLMs保持了强大的遵循指令的能力。
arXiv:2502.07328v1 交叉公告类型
摘要:音乐语言模型的出现极大地提升了人工智能系统的自动音乐生成能力,但也限制了其对世界各地音乐流派和文化的覆盖面。我们对音乐生成的数据集和研究论文进行了研究,并量化了流派的偏差和过度代表问题。我们发现,现有音乐数据集中仅有5.7%的时间来自非西方流派,这自然导致了模型在不同流派上的表现不一。随后,我们研究了参数高效调优(PEFT)技术在减轻这种偏差方面的有效性。我们对两种流行模型 - MusicGen 和 Mustango 进行的实验,针对两种未充分代表的非西方音乐传统 - 印度古典音乐(Hindustani Classical)和土耳其麦卡穆音乐(Turkish Makam),突显了通过小数据集跨流派音乐适应的可能性及其非平凡性,这暗示了需要更多公平的基础音乐语言模型,这些模型旨在促进跨文化迁移学习的需要。
arXiv:2502.07316v1 交叉公告类型
摘要:推理是大型语言模型的一项基本能力。尽管先前的研究主要集中在增强数学或代码生成等狭窄技能上,但由于缺乏连贯的训练数据,提高在许多其他推理任务上的性能仍然具有挑战性。为了解决这个问题,我们提出了CodeI/O,一种新颖的方法,通过将原始代码转换为代码输入-输出预测格式,系统地浓缩嵌入在上下文相关代码中的各种推理模式。通过训练模型以自然语言形式(Chain-of-Thought,即CoT合乎逻辑的理由)预测给定代码和测试案例的输入/输出,它们可以接触到通用的推理基础 -- 如逻辑流程规划、状态空间搜索、决策树遍历和模块化分解 -- 而不将结构化推理与代码特定的语法脱钩,并保持程序上的严谨性。实验结果表明,CodeI/O在符号、科学、逻辑、数学和数值以及常识推理任务中均取得了一致改进。通过将现有真实输出与预测输入匹配或重新执行代码,我们验证每个预测,并通过多回合修订进一步增强CoTs,从而获得CodeI/O++并实现更高的性能。我们的数据和模型可在https://github.com/hkust-nlp/CodeIO获得。
arXiv:2502.07312v1 交叉公告类型:novel approach to processing Social Networking Service (SNS) data
摘要:本报告详细介绍了Lumen Labs对处理社交媒体服务(SNS)数据的新型方法。我们利用知识蒸馏,具体来说是一种受到DeepSeek-R1的CoT获取机制启发的简单蒸馏方法,并结合提示工程,从Grok模型中提取有价值的训练数据。然后,这些数据被用于微调一个Phi-3-mini模型,该模型通过一种专门为处理SNS数据的细微差别而设计的类似面罩的机制进行了增强。我们的方法在多个SNS数据处理任务上展示了最先进的(SOTA)性能,超过了现有的模型如Grok、Phi-3和GPT-4。我们提供了关于我们方法的全面分析,包括数学公式、工程细节、消融研究和比较评估。
arXiv:2502.07306v1 交叉类型: cross
摘要: 在本文中,我们提出了一个多模块方法来解决视觉语言导航(VLN)任务,通过将问题分解为四个子模块来实现,这些子模块在零样本设置中使用了最先进的大型语言模型(LLMs)和视觉语言模型(VLMs)。给定自然语言的导航指令,我们首先提示LLM提取待访问的地标及其访问顺序。假设已知的环境模型,我们检索最后一个地标前的top-k位置,并使用环境拓扑图上的最短路径算法生成从起始位置到最后一个地标之间的k个路径假设。每个路径假设由全景图像序列表示。然后,我们使用动态规划计算全景图像序列与地标名称序列之间的对齐得分,并将此得分与VLM获得的匹配得分进行比较。最后,我们计算生成最高对齐得分假设的nDTW度量来评估路径精度。我们在复杂的R2R-Habitat指令数据集上展示了与其他使用联合语义图(如VLMaps)的方法相比的优越性能,并详细量化了视觉定位对导航性能的影响。
arXiv:2502.07299v1 Announce Type: cross
摘要:DNA、RNA和蛋白质之间的相互作用是生物学过程的基础,正如分子生物学的核心教义所展示的那样。虽然现代生物预训练模型在分析这些大分子方面取得了巨大的成功,但它们之间的相互联系仍处于探索阶段。在这篇论文中,我们遵循核心教义的指导,重新设计数据和模型管道,并提供了一个涵盖不同生物功能的全面框架——Life-Code。在数据流方面,我们提出了一种统一的管道,通过逆转录RNA和逆转录氨基酸为核苷酸为基础的序列来整合多组学数据。在模型方面,我们设计了一个密码子分词器和一种混合长序列架构,通过掩码建模预训练来编码编码和非编码区域的相互作用。为了用编码序列建模翻译和折叠过程,Life-Code通过从现成的蛋白质语言模型的知识蒸馏来学习相应氨基酸的蛋白质结构。这样的设计使Life-Code能够捕捉遗传序列中的复杂相互作用,从而为多组学分析和解释提供更全面的理解。广泛的实验表明,Life-Code在三个组学的各种任务上取得了最先进的性能,突显了其在推进多组学分析和解释方面的潜力。
arXiv:2502.07288v1 交叉类型:公告
摘要:慢性肾病(CKD)是全球卫生的重大问题,影响着超过10%的人口,并导致显著的死亡率。尽管肾活检仍然是CKD诊断和治疗的金标准,但由于缺乏全面的肾病理分割基准,阻碍了该领域的发展。为了解决这一问题,我们组织了肾病理图像分割(KPIs)挑战,引入了一个结合了超过60个期酸希夫(PAS)染色全切片图像中10,000多个标注的肾小球的预临床小鼠CKD模型的数据集。挑战包括两个任务,像素级分割和全切片图像分割与检测,使用Dice相似性系数(DSC)和F1分数进行评估。通过鼓励适应多种CKD模型和组织条件的创新分割方法,KPIs挑战旨在促进肾病理分析的发展,建立新的基准,并使疾病研究和诊断能够实现精准的大规模量化。
arXiv:2502.07286v1 交叉类型: NER
摘要: 命名实体识别(NER)是自然语言处理(NLP)中的一个基本问题。然而,从扩展文本(例如主页)中提取较长实体跨度(例如奖项)的任务几乎尚未得到探索。当前的NER方法主要分为两类:基于跨度的方法和基于生成的方法。基于跨度的方法要求枚举所有可能的令牌对跨度,随后对每个跨度进行分类,这会导致大量的冗余计算和过高的GPU内存使用。相比之下,基于生成的方法涉及对大型语言模型(LLMs)进行提示或微调,以适应下游NER任务。然而,这些方法在准确生成较长跨度方面存在困难,并且在有效的微调过程中往往会产生显著的时间成本。为了解决这些挑战,本文介绍了一种轻量级的基于跨度的NER方法,称为SeNER,它结合了双向箭头注意机制以及对[CLS]标记的LogN-Scaling嵌入长文本,其中包括一种新颖的双向滑动窗口菱形注意机(BiSPA)机制,以显著减少冗余候选令牌对跨度,并同时建模令牌对跨度之间的交互。广泛的实验结果显示,我们的方法在三个长NER数据集上达到了最先进的提取准确率,并且能够以GPU内存友好方式从长文本中提取实体。代码:https://github.com/THUDM/scholar-profiling/tree/main/sener
arXiv:2502.07280v1 交叉公告类型:cross
摘要:深度强化学习(DRL)已在金融投资组合管理中得到应用,以在不断变化的市场条件下提高回报。然而,与DRL在大多数广泛使用领域不同,股票市场由于受到全球经济事件和投资者情绪等多种因素的影响,更加波动和动态。因此,构建一个能够提供强大回报能力、训练稳定性和泛化能力的基于DRL的投资组合管理框架仍然是一项挑战。本研究提出了一种新的框架,利用了Memory Instance Gated Transformer(MIGT)来实现有效的投资组合管理。通过结合一种变体的变压器、实例标准化和Lite Gate单元,我们的方法旨在最大化投资回报,同时确保学习过程的稳定性并减少异常值的影响。在道琼斯工业平均指数30种股票上进行测试,我们的框架使用累积回报和风险收益比(夏普比率、索特诺比率和欧米伽比率等关键金融指标)与其他十五种策略进行了比较。结果突显了MIGT的优势,展示了与竞争策略相比至少9.75%的累计回报改进和最小2.36%的风险收益比提升,标志着在投资组合管理中基于DRL的一个重要进展。
arXiv:2502.07279v1 场景类型: cross
摘要:无监督强化学习(RL)旨在通过探索奖励免费环境中的状态或技能来预训练代理,从而促进下游任务的适应。然而,现有的方法往往忽视了预训练策略的拟合能力,并且难以处理异构的预训练数据,这对于实现高效的探索和快速微调至关重要。为了解决这一差距,我们提出了探索扩散策略(EDP),该策略利用扩散模型的强大表征能力来拟合探索的数据,从而增强探索并为下游任务提供高效的初始化。具体地,我们使用扩散策略来估计回放缓冲区中收集的数据分布,并提出了一种评分固有奖励,鼓励代理探索未见过的状态。为了在下游任务上微调预训练的扩散策略,我们提供了理论分析和实用算法,包括Q函数优化和扩散策略蒸馏的交替方法。广泛的实验表明,EDP在预训练期间的高效探索和微调期间的快速适应方面具有有效性。