arXiv:2502.09670v1 宣布类型:交叉
摘要:大型基础模型的涌现现象已彻底改变了自然语言处理领域。然而,由于这些模型的规模、功能以及在多种应用中的部署,对其进行评估提出了重大挑战。现有文献往往集中于单一方面的内容,如基准性能或特定任务,但未能提供一个综合的过程,将多元应用场景中的细微差别与更广泛的伦理和运营考虑结合起来。本文专注于三个方面:(1) 通过提供针对特定应用场景环境量身定制的结构化框架来正式化评估过程,(2) 提供实用工具和框架,如检查表和模板,以确保彻底、可重复和实用的评估,(3) 概览近期工作,针对LLM评估的最新进展进行有针对性的综述,强调实际应用。
arXiv:2502.09669v1 公告类型: cross
摘要: 隐式神经表示(INR)已成为编码体数据的一种有前途的解决方案,提供了连续表示并能够无缝地与体积渲染流水线兼容。然而,对于大型时空变化或集束体数据集,每次为新的体数据集从随机初始化的参数优化一个INR网络在计算上是低效率的,尤其是当这些体数据集共享相似的结构模式但需要独立训练时。为了弥补这一差距,我们提出了Meta-INR,这是一种源自元学习算法的预训练策略,用于从体数据集的部分观察中学习初始INR参数。与从头开始训练一个INR相比,学习到的初始参数提供了一个强有力的先验知识,增强了INR的泛化能力,使其在适应新的体数据集时只需少量梯度更新便能够更快地收敛,并且在分析适应后的INR参数时具有更好的可解释性。我们证明了Meta-INR能够有效地提取高质量的可泛化的特征,这些特征有助于编码来自不同数据集的未见的类似体数据。此外,我们展示了它在仿真参数分析和代表时间步长选择等任务中的实用性。代码可在 https://github.com/spacefarers/MetaINR 获取。
arXiv:2502.09663v1 类型: cross
摘要:近年来,深度学习模型已在各种模态的生物数据中得到了广泛应用。区分性深度学习模型在将图像分类到类别中(例如,健康与患病、治疗与未治疗)方面表现出色。然而,由于其复杂性和缺乏可解释性,这些模型通常被视为黑盒模型,这限制了它们在实际生物情境中的应用。在生物研究中,解释性至关重要:理解分类器的决策和识别不同条件下微妙的差异对于阐明治疗效果、疾病进展和生物过程的作用至关重要。为应对这一挑战,我们提出了一种名为DiffEx的方法,用于生成可视觉解释的属性,以解释分类器并识别不同条件下微观细胞的变化。我们展示了DiffEx在解释自然和生物图像上训练的分类器方面的有效性。此外,我们使用DiffEx来揭示显微镜数据集中的表型差异。通过分类器解释提供细胞变化的见解,DiffEx有望推进对疾病的理解,并通过识别新型生物标志物来辅助药物发现。
arXiv:2502.09659v1 增强类型: cross
摘要:动机:佐剂是添加到疫苗中的化学物质,通过改善免疫反应来增强疫苗的效果。从癌症疫苗研究中识别佐剂名称对于进一步的研究和提高免疫治疗具有重要意义。然而,从不断扩大的生物医学文献中进行手动整理带来了重大挑战。本研究探讨了使用大型语言模型(LLMs),特别是生成预训练变压器(GPT)和大型语言模型Meta AI(Llama)自动识别疫苗佐剂名称的方法。方法:我们使用了两个数据集:来自AdjuvareDB的97份临床试验记录和来自Vaccine Adjuvant Compendium (VAC)的290份带有标注的摘要。我们在零样本和少样本学习范式中使用了GPT-4o和Llama 3.2,每个提示最多使用了四个示例。提示明确针对佐剂名称,测试了上下文信息(如物质或干预措施)的影响。输出经过自动和手动验证以确保准确性和一致性。结果:GPT-4o在所有情况下达到了100%的精确度,并且在召回率和F1分数方面表现出明显的改进,尤其是在包含干预措施的情况下。在VAC数据集中,GPT-4o在包含干预措施的情况下达到了77.32%的最大F1分数,超过了Llama-3.2-3B约2%。在AdjuvareDB数据集中,GPT-4o在包含干预措施的三样本提示下达到了81.67%的F1分数,超过了Llama-3.2-3 B的最大F1分数65.62%。结论:我们的研究结果表明,LLMs在识别佐剂名称方面表现出色,包括识别稀有的命名变体。本研究强调了LLMs能够通过高效提取洞察力来增强癌症疫苗开发的潜力。未来的工作旨在扩大框架以涵盖各种生物医学文献,并增强模型在各种疫苗和佐剂方面的泛化能力。
arXiv:2502.09658v1 交叉公告类型
摘要:知识表示和推理是人工智能(AI)中的关键挑战,特别是在将神经和符号方法结合起来以实现可解释性和透明性AI系统方面。传统知识表示方法往往难以捕捉复杂的过程和状态变化。我们引入了神经概念型人工智能(NCAI),这是一种专注于神经符号AI方法的特殊形式,它通过使用ISO 19450:2024的对象过程方法(OPM)结合深度学习来增强问答(QA)的质量。通过使用上下文学习将自然语言文本转换为OPM模型,NCAI利用了OPM的强大表达力,以表示传统三元组知识图谱难以捕捉的复杂OPM元素——过程、对象和状态。这种丰富的结构化知识表示提高了OPM-QA系统在推理透明性和答案准确性方面的表现。我们进一步提出了透明度评估指标,以定量衡量预测推理与基于OPM的概念逻辑的一致性程度。我们的实验表明,NCAI在传统方法上表现出色,突显了其在提供丰富知识表示、可量化透明度和改进推理方面推进神经符号AI的潜力。
arXiv:2502.09655v1 类型: cross
摘要: 扩散桥梁已经在配对的图像到图像(I2I)转换任务中显示出了潜力。然而,现有的方法受限于它们的单向性质,需要分别的模型来进行前向和反向转换。这不仅增加了计算成本,还限制了它们的实用性。在本文中,我们介绍了双向扩散桥梁模型(BDBM),这是一种可扩展的方法,通过使用单个网络在两个联接分布之间实现双向转换。BDBM利用Chapman-Kolmogorov 方程来构建桥梁,能够通过在框架内利用起始和目标时间步的可互换性,建模跨时间步的数据分布变化,从而在前向和后向方向上进行双向转换。值得注意的是,当给定端点的边际分布是高斯分布时,BDBM的双向过渡核具有解析形式,允许使用单个网络进行高效的训练。我们展示了BDBM与现有的桥梁方法(如Doob的h-变换和变分方法)之间的联系,并突出了其优势。在高清I2I转换任务的广泛实验中,证明了BDBM不仅能够实现双向转换而几乎不增加额外成本,而且在现有最佳桥梁模型中表现更优。我们的源代码可在[https://github.com/kvmduc/BDBM||https://github.com/kvmduc/BDBM] 获取。
arXiv:2502.09650v1 交叉公告类型:
摘要:大型语言模型(LLMs)的对齐往往假设使用更多干净的数据能产生更好的结果,忽略了模型容量与示例难度之间的匹配。我们挑战这一观点,提出一个新的原则:偏好数据在难度上有所不同,过于困难的示例会妨碍对齐,因为它超出了模型的容量。通过系统的实验,我们通过三个关键发现验证了这一原则:(1)偏好示例在难度上有所不同,体现在对齐运行中一致性学习顺序中;(2)过于困难的示例在四个LLMs和两个数据集上显著降低了性能;(3)模型的容量决定了它处理困难示例的阈值,突显了数据选择与模型容量之间的一个关键关系。基于这一原则,我们引入了选择性DPO,该方法过滤掉过于困难的示例。这项简单的调整在AlpacaEval 2基准上的赢率表现相较于DPO基线提高了9-16%,并抑制了一系列具有不同算法调整的DPO变体。这些结果阐明了将数据难度与模型容量对齐的重要性,为改进LLMs对齐策略提供了变革性的视角。代码可在https://github.com/glorgao/SelectiveDPO获得。
arXiv:2502.09648v1 类型: cross
摘要:评估写作质量既复杂又耗时,常常导致对学习者的反馈延迟。虽然自动写作评估工具对于英语是有效的,但韩语自动写作评估工具由于无法解决多视角分析、错误传播和评估解释性的问题而面临挑战。为了克服这些挑战,我们引入了UKTA(统一韩文文本分析器),这是一个全面的韩文文本分析和写作评估系统。UKTA 提供准确的低级形态分析、中级解释性的重要词汇特征,以及透明的基于评分标准的高级写作评分。我们的方法在准确性上优于现有基线,并且在二次加权卡帕系数上也有所提升,定位UKTA 为韩文文本分析和写作评估的领先多视角工具。
arXiv:2502.09645v1 交叉论文类型:交叉
摘要:否定,这一语言构造用来表达缺席、否认或矛盾,对于多模态的基础模型构成了重大的挑战。这些模型在机器翻译、文本引导生成、图像字幕、音频交互和视频处理等任务上表现出色,但往往难以准确地跨不同语言和文化背景来解读否定。在这篇视角论文中,我们提出了一种全面的否定构造分类,并说明了结构、语义和文化因素如何影响多模态基础模型。我们提出了开放性研究问题,并强调了解决这些问题的重要性,以实现稳健的否定处理。最后,我们倡导建立专门的基准测试、语言特定的分词、细粒度的注意力机制以及先进的多模态架构。这些策略可以促进更加灵活和语义准确的多模态基础模型,使它们能够更好地应对和准确解读多语种、多模态环境中否定的复杂性。
arXiv:2502.09644v1 宣布类型: cross
摘要:就冲突议题进行辩论是解决冲突的必要第一步。然而,说服性的论辩技巧难以克服论辩者固有的视角。从辩论过渡到一个具有决定性意见选择的审议过程,这一过程需要对论点及其基于的视角进行更深入的分析——只有从那里才能推导出双方都能接受的解决步骤。在这项工作中,我们开发了一种在计算论辩设置下进行审议性论点分析的框架。我们对不同论辩者或利益相关者在特定议题中表达的视角化的立场进行了精细分析,不仅旨在识别彼此对立的观点,还识别出源自其态度、价值观或需求的共享视角。我们将这种分析形式化为视角化立场向量,用以表征所有论辩者在特定议题上各自视角化的立场。我们通过确定议题和论点特定的概念来构建这些向量,并预测论辩者在每个概念上的立场。这些向量使我们能够根据视角来测量论辩者之间的(不)一致程度,从而有助于识别冲突解决的可行切入点,作为迈向审议的第一步。