arXiv:2502.04359v1 交叉公告类型
摘要:空间推理是人类认知的重要组成部分,也是最新视觉-语言模型(VLMs)表现出困难的一个领域。当前的分析主要使用图像字幕任务和视觉问答。在本工作中,我们提议使用引用表达理解任务作为评估VLMs空间推理能力的平台。该平台为深入分析VLMs的空间理解及定位能力提供了机会,特别是当存在以下情况时:1)物体检测的不确定性;2)复杂的空间表达,具有较长的句式结构和多个空间关系;3)带有否定词(not)的表达。在我们的分析中,我们使用特定任务的架构以及大规模VLMs,并强调它们在处理这些特定情况下的优势和劣势。尽管所有这些模型在任务上都遇到了挑战,但相对的行为取决于底层模型及其特定的空间语义类别(如拓扑、方向、邻近等)。我们的结果突显了这些挑战和行为,并提供了研究缺口和未来方向的见解。
arXiv:2502.04358v1 分类:交叉学科
摘要:将复杂问题分解为子问题通常可以使问题更容易且更高效地解决。随着大型语言模型(LLMs)在越来越多的能力上达到了关键的可靠性阈值,人们正在不断增加努力将系统分解为基于LLM的代理组,每个代理都可以被分配子任务。然而,这种分解(即使自动化也是如此)通常是直观的,比如基于人类如何为团队成员分配角色。这些角色分解与最优角色之间有多接近?本文立场主张,采用LLM原语进行渐近分析是理解和讨论此类分解系统效率所需的方法,而这些分析将有助于扩大这些系统的机会。通过将LLM前向传递视为计算成本的基本单位,可以将特定LLM的(通常不透明)内部工作机制与一组LLM如何协调解决复杂问题的固有效率区分开来。换句话说,如果我们想将LLM的部署扩展到极限,而不是赋予LLM人类的特性,那么采用LLM原语进行渐进分析是理解和开发更强大的大型问题分解为LLM代理的方法。
arXiv:2502.04357v1 宣告类型: cross
摘要: 大型语言模型(LLMs)通过强化学习(RL)在结构化任务中取得了显著进步,展示了在数学推理和代码生成方面的专业能力。然而,在诸如聊天机器人和内容生成等更广泛的应用领域中应用RL——这一过程称为基于人类反馈的强化学习(RLHF)——则面临着独特的挑战。在RLHF中,奖励模型至关重要,它们作为代理模型评估LLM输出与人类意图的对齐程度。尽管取得了进展,但奖励模型的开发仍受到计算密集型训练、评估成本高以及因此导致的可复制性差等问题的阻碍。我们主张在奖励模型研究中使用基于嵌入的输入作为加速解决方案,以应对这些挑战。通过利用嵌入进行奖励建模,我们可以增强可复制性、减少对硬件的计算需求、提高训练稳定性,并显著降低训练和评估成本,从而在这一活跃的研究领域中促进公平和高效的比较。我们展示了使用基于嵌入的奖励模型重现现有奖励模型集成研究的案例研究。我们探讨了未来研究的方向,旨在为更安全和有效的LLM部署做出贡献。
arXiv:2502.04356v1 宣布类型:交叉
摘要:随着开源大型语言模型(LLMs)如OpenAI的GPT-4取得了成功,人们逐渐对开发开放的、非专有的LLMs和人工智能基础模型(AIFMs)产生了兴趣,以透明地应用于学术、科学和非商业应用中。尽管开源模型无法与专有模型的功能相媲美,但它们在医疗保健应用领域具有巨大的潜力,可以颠覆现有状况。在这篇论文中,我们探讨了开源LLMs和AIFMs在开发医疗保健应用方面的前景,并做出了两项关键贡献。首先,我们对当前最先进的开源医疗保健LLMs和AIFMs进行了全面的综述,并介绍了这些开源AIFMs的分类,将其应用于各种医疗保健任务的实用性进行了分类。其次,为了评估开源LLMs在医疗保健领域的通用应用,我们介绍了一个针对个性化处方的案例研究。由于个性化处方在提供量身定制的药物方面发挥着至关重要的作用,这对于改善治疗结果至关重要,因此这项任务尤为重要。此外,我们还在有和没有检索增强生成(RAG)的情况下,比较了开源模型和专有模型的性能。我们的发现表明,在与接地技术如RAG结合使用时,尽管开源LLMs相对粗糙,但它们可以与专有模型实现相当的性能。此外,为了强调LLMs赋能的个性化处方的临床重要性,我们通过一名专家临床医生进行了主观评估。我们还详细讨论了强大LLMs和AIFMs的滥用所涉及的伦理考量和潜在风险,并强调了在医疗保健领域谨慎和负责任地实施的重要性。
arXiv:2502.04355v1 宣称类型: cross
摘要:大型语言模型的迅速发展为自动化复杂问题解决任务,如算法编码和编程竞赛等,开辟了新的途径。本文介绍了一种新的评估技术LLM-ProS,用于评估最先进的大语言模型在国际大学生程序设计竞赛(ICPC)问题上的性能。利用2011年至2024年世界总决赛的166个问题的数据集,我们根据推理能力、准确性和效率对标这些模型。我们评估了GPT-4o、Mistral Large、Llama-3.1-405B以及o1家庭(包括o1-mini和o1-preview)在关键指标如正确性、资源利用和响应校准方面的性能。我们的结果揭示了这些模型在泛化、适应和解决新型问题方面的显著差异。我们还研究了训练方法、数据集污染和多步推理对模型性能的影响。研究发现提供了关于如何优化大语言模型以适应算法任务的新见解,同时指出了当前模型的优点和局限性。
arXiv:2502.04354v1 通知类型: cross
摘要:从人类偏好构建神经奖励模型是强化学习从人类反馈中学习(RLHF)和大型语言模型对齐研究中的关键组成部分。鉴于人类注释的稀缺性和高昂成本,如何选择最具有信息量的对进行注释是一个至关重要的但又具有挑战性的问题。在本文中,我们提出了一种见解,即理想的动力模型比较数据集应平衡对表示空间的探索,并在奖励差异适中的对之间进行具有信息量的比较。从技术上讲,量化这两个目标并高效地优先排序需要标注的比较是一个挑战。为了解决这个问题,我们提出了基于费舍尔信息的选择策略,适应经典实验设计文献中的理论,并将其应用于基于深度神经网络的动力模型任务的最终线性层。实验结果显示,与来自深度学习和经典统计文献的其他选择方法相比,我们的方法在多个开源LLM和数据集中表现出显著的性能、高计算效率和稳定性。进一步的消融研究表明,在活跃的动力模型中纳入跨提示比较显著提高了标注效率,为RLHF中的改进注释策略提供了可能的前景。
arXiv:2502.04353v1 类型: cross
摘要: 作为一种通用语言,艺术可以被多种方式解释,艺术品蕴含着深刻的意义和细微差别。随着大型语言模型(LLMs)以及多模态大型语言模型(MLLMs)的出现,人们提出了这些问题:这些变革性的模型如何被用来评估和解读艺术品的艺术元素。尽管在这一领域已经进行了研究,但据我们所知,使用LLMs来深入细致地理解艺术品的技术和表现特征尚未得到探讨。在这项研究中,我们探讨了一种正式的艺术分析框架的自动化,以快速分析大量艺术品,并检查它们的模式如何随时间演变。我们探讨了LLMs如何解码艺术表达、视觉元素、构成和技巧,揭示了在不同时间段逐渐浮现的趋势。最后,我们讨论了LLMs在这种环境下的优势和局限性,强调了它们能够处理大量与艺术相关数据并生成深刻解释的能力。由于结果详尽且细致,我们开发了互动数据可视化工具,并已在线发布(https://cognartive.github.io/),以增强理解和可访问性。
arXiv:2502.04352v1 公告类型:交叉
摘要:大型语言模型(LLMs)在许多基于推理的自然语言处理(NLP)任务中取得了令人印象深刻的成果,这表明它们具有一定的演绎推理能力。然而,仍然不清楚LLMs在非正式和自动形式化方法中在逻辑推理任务上的鲁棒性程度如何。此外,尽管已经提出了许多基于LLM的推理方法,但缺乏对它们设计组件影响的系统研究。为了解决这两个挑战,我们提出了首个基于LLM的演绎推理方法的鲁棒性研究。我们设计了一个框架,其中包括两类扰动:对抗性噪声和反事实陈述,这两者共同生成了七个扰动数据集。我们根据推理格式、形式化语法以及错误恢复反馈将LLM推理器的景观组织起来。结果显示,对抗性噪声影响自动形式化,而反事实陈述影响所有方法。尽管详细的反馈减少了语法错误,但并未提高总体准确性,这表明基于LLM的方法在自我纠正方面存在挑战。
arXiv:2502.04351v1 交叉公布类型: cross
摘要:命名实体识别(NER)是历史研究中自动建立所有对人物、地点、事件等方面引用的核心任务。然而,由于来源的高度语言多样性和体裁多样性、拼写标准化的有限性、所需的历史领域知识水平以及注释训练数据的匮乏,传统的自然语言处理(NLP)方法既极其昂贵,又在召回率和精确率方面表现不尽如人意。我们在这篇论文中引入了一种新的方法。我们展示了如何广泛可用的最先进的语言模型(LLMs)在历史文档的命名实体识别(NER)中显著优于spaCy和flair这两个领先的NLP框架,其F1分值高出7%到22%。我们的消融研究显示,提供历史上下文和一点人物建模(转向非纯粹语言学方法)是成功提示策略的核心。我们还证明,与我们的预期相反,在少量样本方法中增加了示例数量,并未在达到16射频次阈值以下改善召回率或精确率。因此,我们的方法通过去除使用传统NLP工具所需的编写语言和计算技能障碍,进而民主化了所有历史学家对命名实体识别的访问,而是利用自然语言提示和消费级工具及前端。
arXiv:2502.04350v1 类型: cross
摘要:现有方法无法有效地在文本推理和代码生成之间引导大型语言模型(LLMs),导致符号计算能力未充分利用。我们提出了CodeSteer,一种有效的引导LLM代码/文本生成的方法。我们构建了一个全面的基准SymBench,包含37个可调节复杂度的符号任务,并且还合成了12000个多轮引导/生成轨迹的数据集和5500个引导比较对。我们使用新设计的多轮监督微调(SFT)和直接偏好优化(DPO)对Llama-3-8B模型进行了微调。由此产生的模型CodeSteerLLM,在提出的符号检查和自我答检查器的增强下,有效引导了更大型模型的代码/文本生成。将CodeSteer应用到GPT-4o上,其平均性能得分从53.3提高到86.4,甚至在所有37个任务(28个已见过的任务,9个未见过的任务)中超越了目前最好的LLM OpenAI o1(82.7)、o1-preview(74.8)和DeepSeek R1(76.8)。CodeSteer针对GPT-4o的训练展示了优越的泛化能力,在Claude、Mistral和GPT-3.5上分别提供了平均41.8的性能提升。CodeSteer引导的LLMs充分利用了符号计算,能够在高度复杂的任务中保持强大的性能。模型、数据集和代码可在https://github.com/yongchao98/CodeSteer-v1.0获得。