arXiv 论文列表

WorldCoder，一个基于模型的LLM代理：通过编写代码和与环境交互来构建世界模型

我们提出了一种基于模型的智能体，该智能体通过与环境的交互构建一个表示其世界知识的Python程序。该世界模型试图解释其交互，同时对其能获得的奖励持乐观态度。我们将这种乐观定义为程序和规划器之间的逻辑约束。我们在网格世界和任务规划中研究了我们的智能体，发现与深度强化学习相比，我们的方法样本效率更高，与ReAct风格的智能体相比，计算效率更高，并且它可以通过编辑其代码在不同环境中转移其知识。

发布时间: 9/24/2024

查看原文

使用和积网络生成可能的反事实

AI系统决策的可解释性受到最近法规和用户需求的推动。这些决策通常只能事后进行解释。在反事实解释中，人们可能会问什么构成了最佳的反事实解释。显然，必须考虑多个标准，尽管“与样本的距离”是一个关键标准。最近考虑反事实合理性的方法似乎牺牲了这一原始目标。在此，我们提出了一个系统，提供同时具有高概率、接近且稀疏的解释。我们展示了满足许多常见反事实解释需求的最可能解释的搜索可以使用混合整数优化（MIO）进行建模。在此过程中，我们提出了一种和积网络（SPN）的MIO公式，并使用SPN来估计反事实的可能性，这本身也具有独立的兴趣。

发布时间: 9/24/2024

查看原文

公平够了吗？当前公平算法要求的局限性地图

近年来，随着人工智能及自动决策系统的使用和效率的提高，人们对这些系统相关风险的认识也日益增加并受到欢迎。其中一个风险是这些系统可能会延续甚至放大其所依据的数据中存在的偏见和不公正差异。这种认识一方面鼓励了多个科学社区提出越来越多恰当的方法来评估、量化并可能减轻这些偏见和差异；另一方面，也促使社会各层，包括政策制定者，呼吁更加公正的算法。我们认为，尽管目前在多学科领域已经进行了许多优秀的研究，但仍然缺乏一种根本的意识，即仅仅要求算法公正本身几乎没有意义，还需要许多附加的社会选择来使其具有可操作性。也就是说，社会对自动决策系统的要求与这些要求在现实场景中的实际意义之间存在鸿沟。在本文中，我们概述了这种鸿沟的关键特征，并指出了一系列关键的开放问题，这些问题需要我们作为一个社会来解决，以便赋予对自动决策系统公正性日益增长的需求以具体意义。

发布时间: 9/24/2024

查看原文

群集：通过智能编排器使用多个较小的语言模型来匹配专有大型语言模型的性能

目前，有超过一千种多用途的大型语言模型（LLM），能够执行包括问答、文本摘要、内容生成等在内的现实任务。然而，自由模型的可访问性、规模和可靠性限制了它们在日常使用中的广泛部署。为了解决访问和规模这两个问题，HuggingFace等组织创建了模型仓库，用户可以在其中上传使用不同范式训练的模型权重和量化版本，以及描述其训练过程的模型卡。虽然一些模型在常用基准测试中报告了性能，但并非所有模型都这样做，解释在基准测试中权衡性能与模型部署成本的实际影响并不明确。我们在此展示，通过智能路由器，一群开源模型可以匹敌或超越专有模型的性能。我们展示了一群开源模型能够匹敌ChatGPT的准确性，尽管这些模型的规模实际上要小2.5倍。我们还展示了在GPT无法回答查询的情况下，Herd至少在40%的时间里能够识别出可以回答的模型。

发布时间: 9/24/2024

查看原文

图学习及其在大语言模型中的进展：一项综合调查

图学习是一个广泛研究的领域，致力于学习节点之间的复杂关系以及图的拓扑结构。多年来，图学习已从图论扩展到图数据挖掘。随着表示学习的出现，图学习在各种场景中取得了显著的性能。由于其广泛的应用前景，图学习吸引了大量的关注。尽管一些研究者在图学习方面取得了令人印象深刻的综述成果，但他们未能以更连贯的方式连接相关目标、方法和应用。因此，他们未能涵盖当前丰富的场景和由于图学习快速扩展而带来的挑战性问题。特别是，大型语言模型最近对人类生活产生了颠覆性影响，但它们在结构化场景中也显示出相对的弱点。如何通过图学习使这些模型更加强大仍然是一个开放的问题。我们的综述聚焦于将图学习与预训练语言模型集成的最新进展，特别强调它们在大语言模型领域的应用。与之前的图学习综述不同，我们提供了一个全面的回顾，从图结构的角度分析当前的工作，并讨论图学习的最新应用、趋势和挑战。具体来说，我们首先提出一个分类法，然后总结图学习中使用的方法。接着，我们详细阐述了主流应用。最后，我们提出了未来的研究方向。

发布时间: 9/24/2024

查看原文

医学领域中o1的初步研究：我们离AI医生的目标更近了吗？

大型语言模型（LLMs）在各个领域和任务中展现了卓越的能力，推动了我们在学习和认知方面的知识边界。最新的模型，OpenAI的o1，作为首个采用强化学习策略的内化思维链技术的LLM，脱颖而出。尽管它在各种通用语言任务中展示了令人惊讶的强大能力，但在医学等专业领域的性能仍未可知。为此，本报告对o1在不同医疗场景中的表现进行了全面探索，考察了理解、推理和多语言能力三个关键方面。具体而言，我们的评估涵盖了6项任务，使用了来自37个医疗数据集的数据，其中包括基于《新英格兰医学杂志》（NEJM）和《柳叶刀》专业医学测验构建的两个新的更具挑战性的问答（QA）任务。与标准医疗QA基准（如MedQA）相比，这些数据集具有更高的临床相关性，更能有效地转化为实际临床应用。我们对o1的分析表明，LLMs增强的推理能力可能（显著）有助于其理解各种医疗指令和推理复杂临床场景的能力。值得注意的是，o1在19个数据集和两个新创建的复杂QA场景中的准确率分别比之前的GPT-4高出6.2%和6.6%。但与此同时，我们也发现了模型能力和现有评估协议中的几个弱点，包括幻觉、多语言能力不一致以及评估指标不一致。我们已在https://ucsc-vlaa.github.io/o1_medicine/发布了原始数据和模型输出，供未来研究使用。

发布时间: 9/24/2024

查看原文

OmniBench：迈向通用全语言模型的未来

arXiv:2409.15272v1 公告类型: 交叉摘要: 多模态大语言模型(MLLMs)的最新进展旨在整合和解释跨多种模态的数据。然而，这些模型同时处理和推理多种模态的能力仍未得到充分探索，部分原因是缺乏全面的模态基准。我们引入了OmniBench，这是一个新颖的基准，旨在严格评估模型识别、解释和推理视觉、声学和文本输入的能力。我们将具备这种三模态处理能力的模型定义为全语言模型(OLMs)。OmniBench以其高质量的人类注释为特点，确保准确响应需要跨所有三种模态的综合理解和推理。我们的主要发现揭示了: i) 开源OLMs在三模态情境下的指令跟随和推理能力存在关键限制; ii) 即使提供了图像和音频的替代文本表示，基线模型的表现也很差(低于50%的准确率)。这些结果表明，从文本、图像和音频构建一致上下文的能力在现有的MLLM训练范式中经常被忽视。我们呼吁未来研究重点发展更强大的三模态整合技术和训练策略，以提高OLMs在多种模态中的性能。代码和实时排行榜可在https://m-a-p.ai/OmniBench找到。

发布时间: 9/24/2024

查看原文

形式胜于实质：大语言模型在对齐基准测试中的失效模式

arXiv:2409.15268v1 公告类型: 交叉摘要: 2022年11月ChatGPT的发布引发了人们对训练后阶段和大量新偏好优化(PO)方法的浓厚兴趣。这些方法声称通过更好地符合人类成对偏好来实现优越的对齐，通常由大型语言模型(LLM)评判。在这项工作中，我们试图回答以下问题——LLM评判的偏好是否转化为其他更具体的对齐指标的进展，如果不是，为什么？我们定义了一个具体的对齐指标，并引入了SOS-Bench，这是迄今为止最大的标准化、可重复的LLM元基准测试。我们发现:(1)LLM评判与安全、世界知识和指令遵循的具体衡量标准不相关;(2)LLM评判具有强大的隐性偏见，优先考虑风格而非事实性和安全性;(3)训练后阶段的监督微调(SFT)阶段，而非PO阶段，对对齐影响最大，数据扩展和提示多样性是主要驱动因素。我们的代码库和完整结果可在https://github.com/penfever/sos-bench找到。

发布时间: 9/24/2024

查看原文

帕洛马黄昏调查：'Ayl\'o'chaxnim、阿提拉斯与彗星

arXiv:2409.15263v1 公告类型: 交叉摘要: 近太阳天空的黄昏观测使得能够探测到位于金星轨道内的小行星（Aylos）、地球轨道内的小行星（Atiras）以及彗星。我们展示了使用帕洛马48英寸望远镜（P48）/茨威基瞬变设施（ZTF）相机在2019年9月20日至2022年3月7日的傍晚天文黄昏期间以及2019年9月21日至2022年9月29日的早晨天文黄昏期间拍摄的30秒r波段曝光的结果。在31至66度范围内，从太阳方向拍摄了超过46,000张曝光，r波段的极限星等在18.1至20.9之间。黄昏指向显示出极限星等和指向太阳方向的能力略有季节性依赖，夏季极限星等略有改善。总共在傍晚和早晨的黄昏观测中发现了1个Aylo（594913）'Ayl\'o'chaxnim和4个Atiras，即2020 OV1、2021 BS1、2021 PB2和2021 VR3。此外，黄昏调查的发现还包括6颗长周期彗星：C/2020 T2、C/2020 V2、C/2021 D2、C/2021 E3、C/2022 E3和C/2022 P3，以及两颗短周期彗星：P/2021 N1和P/2022 P2，这些都使用了深度学习彗星检测管道。P48/ZTF黄昏调查还重新发现了11个已知的Atiras、1个Aylo、3个短周期彗星、2个长周期彗星和1个星际物体。最后，维拉·鲁宾天文台将在其运营的第一年开始进行黄昏调查，并将覆盖太阳方向45度范围内的天空。像ZTF这样的黄昏调查以及未来的调查将为发现地球和金星轨道内的小行星提供机会。

发布时间: 9/24/2024

查看原文

利用机器学习识别和定位太阳系天体中的彗星活动

在本章中，我们将讨论用于识别和定位地基和空间基宽视场全天候调查中太阳系天体彗星活动的机器学习方法。我们将首先讨论在存在恒星类型源的情况下识别已知和未知活跃、扩展太阳系天体的挑战，以及应用经典预机器学习识别技术及其局限性。随后，我们将转向讨论实施机器学习技术以应对扩展物体识别挑战的方法。最后，我们将展望未来的方法及其在未来调查中的应用，例如维拉·C·鲁宾天文台。

发布时间: 9/24/2024

查看原文