arXiv:2502.06692v1 交叉引用类型: cross
摘要: 在句级上识别密切相关的语言非常困难,尤其是因为经常无法将一个句子归属于单一的语言。在本文中,我们专注于丹麦语、挪威语(Bokmål)、挪威语(Nynorsk)和瑞典语的多标签句级斯堪的纳维亚语言识别(LID)任务。我们介绍了斯堪的纳维亚语言识别和评估(SLIDE),一个手工收集的多标签评估数据集,以及一系列具有不同速度-准确度权衡的LID模型。我们证明了同时识别多个语言的能力是任何准确的LID方法所必需的,并提出了一种新的训练多标签LID模型的方法。
arXiv:2502.06684v1 交叉类型:公告
摘要:最近的一些面向表格数据的基本模型,如TabPFN,在通过上下文学习适应新任务方面展现了显著的效果。然而,这些模型忽略了一个重要且不可压缩的等变性属性:目标维度的任意排序不应影响模型预测。在这项研究中,我们将这一疏忽视为引入预测不稳定性的一个不可压缩错误来源,称为等变性缺口。为缓解这些问题,我们提出了一种新型模型,旨在在输出维度上保持等变性。我们实验结果表明,我们的模型不仅有效地解决了这些缺陷,还实现了具有竞争力的基准性能。
arXiv:2502.06681v1 Announce Type: cross
摘要:人员再识别(Re-ID)是计算机视觉中的一个关键挑战,要求在不同的摄像头、地点和时间周期内匹配个体。虽然大多数研究主要关注于小范围内发生变化的外观匹配,但实际应用需要能够处理长期场景的强大Re-ID系统,在这些场景中,由于服装和生理特性的变化,个体的外观可能会显著改变。在本文中,我们介绍了CHIRLA,一个名为“综合高分辨率识别和大规模分析再识别”的新型数据集,专门设计用于长期人员再识别。CHIRLA包括在七个月期间战略性布置的摄像头拍摄的记录,捕捉到了时间属性和外观属性的显著变化,包括参与者服装和生理特征的受控变化。该数据集包括22个个体、四个相连的室内环境和七个摄像头。我们收集了超过五个小时的视频,并半自动地对其进行标注,生成了大约一百万个带有身份注释的边界框。通过引入这个全面的基准,我们旨在促进在挑战性的、长期内的现实场景中开发和评估可靠的Re-ID算法。
arXiv:2502.06669v1 类型: 交叉
摘要:观察到大型语言模型(LLMs)的零样本能力取得了显著的进步。由于它们对输入的高度敏感性,研究重点越来越多地转向通过直接简单的提示工程来提升LLMs的性能,而不是复杂的领域适应。研究表明,LLMs表现出情感 intelligence,积极和消极情绪都有可能提高任务性能。然而,之前的交互提示主要集中在单一刺激类型上,忽略了不同刺激效果的比较、任务难度变化的影响或潜在机制的探讨。本文受社会认知理论中自我效能与任务性能之间正相关性的启发,引入了口头效能刺激(VES)。我们的VES包含三种类型的口头提示:鼓励性、挑衅性和批评性,涵盖了诸如帮助性和能力等方面。我们还进一步分类任务难度,旨在广泛调查不同类型的VES如何在不同难度级别上影响语言模型的自我效能感和任务成就。实验结果显示,三种类型的VES在大多数任务上都能提高LLMs的性能,最有效的VES因不同模型而异。在广泛的实验中,我们获得了一些与心理理论一致的发现,为未来的研究提供了新的见解。
arXiv:2502.06666v1 类型: cross
摘要:当前的大语言模型(LLMs)基准通常基于开放式或封闭式问答评估,从而避免了人力要求。封闭式测量评估了响应的事实性,但缺乏表达性。开放式评估了模型产生话语响应的能力,但很难评估其正确性。这两种方法通常独立或联合使用,但它们之间的关系仍然 poorly understood。这项工作集中在医疗保健领域,因为在这里事实性和话语都非常重要。它引入了一个全面的多轴评估套件,用于医疗保健LLM评估,探讨了开放式和封闭式基准和指标之间的关联。发现包括当前方法中的盲点和重叠。作为更新的合理性检查,我们发布了新的医学基准——CareQA——,具有开放式和封闭式变体。最后,我们提出了一个新的开放式评估指标——宽松困惑度——以缓解识别出的限制。
arXiv:2502.06664v1 公告类型: cross
摘要:有效地操控可听设备需要理解用户周围的声学环境。在声场景的计算分析中,基础模型已经成为了最先进的方法,用于生成高性能、鲁棒性强、用途广泛的音频表示。我们引入并发布了 Deep Evaluation of Audio Representations (DEAR),这是第一个用于评估基础模型在捕捉可听设备所需基本声学属性方面有效性的数据集和基准。该数据集包括1,158个音频片段,每个片段为30秒长,通过空间混合专有的独白与日常声场景的商用高质量录音创建。我们的基准涵盖了八个任务,评估声场景的一般语境、语音来源以及技术声学属性。通过对四种通用音频表示模型的评估,我们展示出BEATs模型在各方面表现显著优于其他模型。这一优势突显了在多样化音频集合上进行训练的模型的优势,证实了它们在广泛的听觉任务中的适用性,包括编码对于可听设备定向所需环境属性。DEAR数据集及其相关代码可在https://dear-dataset.github.io获取。
arXiv:2502.06648v1 类型: 多语言
摘要: 在本文中,我们介绍了一个涵盖了2021年东京奥运会的多语言新闻文章数据集。共收集了10,940篇来自1,918家不同出版商的新闻文章,涵盖了2021年奥运会的1,350个子赛事,并于2021年7月1日至8月14日之间发布。这些文章使用了九种不同的语言家族和书写系统进行撰写。为了创建这个数据集,首先通过一个收集和分析新闻文章的服务获取原始新闻文章。然后,使用在线聚类算法将文章分组,每组包含报道同一子赛事的文章。最后,对这些组进行了人工标注和评估。开发此数据集的目的是为了提供评估多语言新闻聚类算法性能的资源,目前可用的数据集相对有限。此外,它还可以用于从不同角度分析2021年东京奥运会的动态和事件。数据集以CSV格式提供,并可以从CLARIN.SI存储库访问。
arXiv:2502.06635v1 Announce Type: cross
摘要:Steel-LLM 是一个以中文为中心的语言模型,从头开始开发,旨在在有限的计算资源下创建高质量的开源模型。该项目于2024年3月启动,旨在在大规模数据集上训练一个10亿参数的模型,并优先考虑透明度和实用见解的分享,以帮助社区中的其他人。训练过程主要集中在中文数据上,包含一小部分英语数据,通过提供模型构建旅程的更详细和实用的记录,弥补现有开源LLM的不足。Steel-LLM在CEVAL和CMMLU等基准测试中展示了竞争力,超过了大型机构的早期模型。本文提供了该项目关键贡献的全面总结,包括数据收集、模型设计、训练方法和途中遇到的挑战,为希望开发自己LLM的研究人员和 practitioner 提供了宝贵的资源。模型检查点和训练脚本可在 https://github.com/zhanshijinwat/Steel-LLM 获取。
arXiv:2502.06634v1 宣告类型: cross
摘要:近年来,生物研究中的人工智能发展集中在将分子数据与自然语言结合,以加快药物发现。然而,高质量标注数据的稀缺限制了该领域的进步。本文介绍了基于语言的自动标注增强框架LA$^3$,该框架利用大型语言模型增强现有数据集,从而提高人工智能的训练效果。我们通过系统地重构一个已建立数据集中的分子标注,创建了一个增强的数据集LaChEBI-20,这些重构的标注保留了分子的关键信息,同时还提供了更多的句法结构和词汇多样性。使用LaChEBI-20,我们基于基准架构训练了LaMolT5,以学习分子表示与增强标注之间的映射关系。
基于文本的全新分子生成和分子标注实验结果表明,LaMolT5优于最先进的模型。值得注意的是,整合LA$^3$使基准架构的表现提高了301%。此外,我们验证了LA$^3$在其在图像、文本和图任务中的有效应用,这进一步证明了其多样性和实用性。
arXiv:2502.06633v1 宣布类型: cross
摘要:代码审查是软件开发中一个至关重要但往往复杂、主观且耗时的过程。过去几十年间,人们做出了大量的努力来自动化这一过程。早期的方法主要集中在基于知识的系统(KBS)上,通过规则机制来检测代码问题,能提供精确的反馈,但在处理复杂的、依赖于上下文的情况时存在一定困难。近年来的工作转向了针对代码审查微调预训练语言模型的方法,这种方法能够覆盖更广泛的问题,但通常以牺牲精确性为代价。在本文中,我们提出了一种结合了基于知识的系统(KBS)和学习基于系统的(LBS)优点的混合方法,用以生成高质量、全面的代码审查报告。我们的方法在语言模型管道的三个不同阶段整合了知识:数据准备阶段(数据增强训练,DAT)、推理阶段(检索增强生成,RAG)以及推理后的阶段(输出的简单拼接,NCO)。我们对将这些结合策略与单独的基于知识的系统和针对真实数据集微调的学习基于系统进行了实证评估。结果显示,这些混合策略提高了审查评论的相关性、完整性和整体质量,有效地弥合了基于规则工具和深度学习模型之间的差距。