LLM2D

arXiv 论文列表

作者: Leo Ardon, Daniel Furelos-Blanco, Roko Parac, Alessandra Russo
arXiv:2501.00364v2 宣告类型: 替换 摘要: 奖励机器(RMs)是通过有限状态机来解决强化学习(RL)中的非马尔可夫奖励的一种有效方法。传统的RMs通过命题逻辑公式来标记边,从而继承了命题逻辑的有限表达能力。这一局限性妨碍了RMs的学习能力和迁移能力,因为复杂的任务需要大量的状态和边。为了克服这些挑战,我们提出了基于一阶逻辑的奖励机器(简称$\texttt{FORM}$s),它们使用一阶逻辑来标记边,从而使RMs更加紧凑和易于迁移。我们介绍了一种学习$\texttt{FORM}$s的新型方法以及一种利用$\texttt{FORM}$s的多智能体形式,并促进它们的迁移性,其中多个智能体协作学习共享$\texttt{FORM}$的策略。我们的实验结果证明了$\texttt{FORM}$s相对于传统RMs的可扩展性。具体来说,我们表明$\texttt{FORM}$s能够有效学习那些传统RM学习方法失败的任务。此外,由于多智能体学习框架和提供的一阶语言的抽象,我们在学习速度和任务迁移性方面也取得了显著改进。
发布时间: 2/18/2025
查看原文
arXiv:2412.19755v2 宣告类型: 替换 摘要:评估在学生的学习过程中起着至关重要的作用,通过提供有关学生在某一学科中的熟练程度的反馈。虽然评估通常使用简答题,但在大规模评分简答题时常常存在困难。此外,这类简答题通常要求学生在文字解释的同时绘制支持性图表。这些问题常常促进多模态素养,并与基于能力的问题对齐,后者要求学生具有更深层次的认知处理能力。然而,现有文献并未涉及此类答案的自动评分。因此,为了弥合这一差距,我们提出了多模态简答题评分和反馈(MMSAF)问题,同时还提供了一个包含2197个数据点的数据集。此外,我们还提供了一种自动化框架以生成此类数据集。在该数据集上对现有大型语言模型(LLMs)的评估显示,在“正确性”标签上的总体准确率为55%,在“图像相关性”标签上的准确率为75%。根据人类专家的评估,Pixtral 更符合人体判断标准,特别是在生物学方面,而在物理和化学方面,ChatGPT 的表现更为出色,并在大多数参数中获得了 4 或更高的评分。
发布时间: 2/18/2025
查看原文
作者: Jiang Liu, Bolin Li, Haoyuan Li, Tianwei Lin, Wenqiao Zhang, Tao Zhong, Zhelun Yu, Jinghao Wei, Hao Cheng, Wanggui He, Fangxun Shu, Hao Jiang, Zheqi Lv, Juncheng Li, Siliang Tang, Yueting Zhuang
arXiv:2412.19684v2 宣告类型: 替代 摘要:与多模态大型语言模型(MLLMs)相比,高效的多模态大型语言模型(EMLLMs)减少了模型大小和计算成本,并且通常部署在资源受限的设备上。然而,由于数据隐私问题,现有的开源EMLLMs在预训练过程中很少有访问私人领域特定数据的机会,使得它们难以直接应用于特定设备领域,如某些业务场景。为了弥补这一不足,本文专注于EMLLMs在私人领域的高效适应,具体在两个方面进行:1) 如何减少数据需求,2) 如何避免参数微调。具体而言,我们提出了一个无需微调、适应性强、通用提示优化框架,简称我们的方法(\textit{\ourmethod}),该框架包括两个阶段:1) 预定义提示,基于增强搜索策略,生成提示优化策略树以获取优化先验;2) 提示反射初始化基于优化先验的提示,随后进行自我反思以进一步搜索和优化提示。通过这种方式,\ourmethod优雅地生成处理私人领域特定数据的“理想提示”。需要注意的是,我们的方法不需要参数微调,并且只需要少量数据即可快速适应私人数据的数据分布。在多项任务上的广泛实验表明,与基线方法相比,我们提出的\ourmethod显著提高了效率和性能。
发布时间: 2/18/2025
查看原文
作者: Carl Qi, Dan Haramati, Tal Daniel, Aviv Tamar, Amy Zhang
arXiv:2412.18907v2 宣告类型:替换 摘要:物体操作是日常任务中的一个常见组成部分,但从高维观察中学习操作物体存在显著挑战。这些挑战在多物体环境中尤为突出,因为状态空间和期望行为的组合复杂性增加了难度。虽然最近的方法利用大规模离线数据从像素观察中训练模型,并通过扩展实现性能提升,但这些方法在受限的网络和数据集大小下难以实现组件级泛化。为了解决这些问题,我们提出了一种新的行为克隆(BC)方法,该方法利用物体为中心的表示和实体为中心的Transformer,并结合扩散优化,使从离线图像数据中高效学习成为可能。我们的方法首先将观察分解为物体为中心的表示,然后由我们的实体为中心的Transformer处理,该Transformer在物体级别计算注意力,同时预测物体动力学和代理的动作。结合扩散模型捕捉多模式行为分布的能力,这在多物体任务中带来了显著的性能提升,并且更重要的是,使组件级泛化成为可能。我们展示了能够在没见过的物体配置和目标的新组合任务中进行零样本泛化的BC代理,包括在训练中看到的物体数量更多。我们提供了视频滚动更新:https://sites.google.com/view/ec-diffuser。
发布时间: 2/18/2025
查看原文
作者: Tianyang Gu, Jingjin Wang, Zhihao Zhang, HaoHong Li
arXiv:2412.14141v2 宣告类型: 替换 摘要:科学创意生成在创造力理论和计算创造力研究中得到了广泛研究,提供了理解并实现创意过程的宝贵框架。然而,最近使用大型语言模型(LLMs)进行研究创意生成的工作往往忽视了这些理论基础。我们提出了一种框架,明确地使用LLMs 实现组合创造力理论,该框架包括一个泛化级别的检索系统用于跨领域知识发现以及一个结构化的组合过程用于创意生成。检索系统映射不同抽象级别的概念,以实现不同领域之间的有意义连接,而组合过程系统地分析和重组组件以生成新颖的解决方案。实验表明,我们的框架在生成与实际研究进展对齐的想法方面表现出色,在多个指标上的一致性得分提高了7%-10%(提高相似度得分)。我们的结果显示,在适当理论框架的引导下,LLMs 可以有效地实现组合创造力,这不仅有助于人工智能辅助研究的实际进步,还促进了机器创造力的理论理解。
发布时间: 2/18/2025
查看原文
作者: Eitan Wagner, Nitay Alon, Joseph M. Barnby, Omri Abend
arXiv:2412.13631v2 宣告类型: 替换 摘要:最近,L大型语言模型(LLM)的认知心智理论(ToM)能力已成为研究的重心。认知科学将ToM任务分为两个步骤:1) 确定是否需要启动ToM,这包括完成任务所需的适当深度的思维化(DoM)或所需的心理递归水平;和2) 根据DoM应用正确的推理。在本文中,我们首先识别了不同AI社区中的几条研究路线,包括LLM基准测试、ToM附加模块、ToM探测以及ToM的正式模型。我们认为,当前AI领域的研究倾向于仅专注于第二步,这些研究通常被框定为静态逻辑问题。我们最后提出了建议,以动态环境为灵感改进ToM能力的评估方法。
发布时间: 2/18/2025
查看原文
作者: Shixin Jiang, Jiafeng Liang, Jiyuan Wang, Xuan Dong, Heng Chang, Weijiang Yu, Jinhua Du, Ming Liu, Bing Qin
arXiv:2412.11694v2 宣告类型: 替换 摘要: 为了应对现实世界场景中的复杂任务,越来越多的研究人员将注意力集中在了通模大语言模型(Omni-MLLMs)上,这些模型旨在实现多模态的理解和生成。超越任何特定非语言模态的限制,Omni-MLLMs 将各种非语言模态映射到大语言模型的嵌入空间,并在单一模型中实现任意模态组合的交互和理解。在本文中,我们系统地研究了相关研究,并提供了一份全面的Omni-MLLMs综述。具体而言,我们首先详细解释了Omni-MLLMs的四个核心组件,通过细致的分类提供了新颖的视角。然后,我们介绍了通过两阶段训练实现的有效集成,并讨论了相应的数据集以及评估方法。此外,我们总结了当前Omni-MLLMs的主要挑战,并指出了未来的研究方向。我们希望这篇论文能为初学者提供一个介绍,并推动相关研究的进展。资源将公开发布。
发布时间: 2/18/2025
查看原文
作者: Lanxiang Hu, Qiyu Li, Anze Xie, Nan Jiang, Ion Stoica, Haojian Jin, Hao Zhang
arXiv:2412.06394v5 更新类型: 替换 摘要:评估大型语言模型(LLMs)的推理能力具有挑战性。现有的基准测试往往依赖于静态数据集,这些数据集容易受到数据污染的影响,并且随着时间的推移可能会饱和,或者依赖于混淆推理与其他能力的二元实时人类反馈。作为最突出的动态基准之一,聊天机器人大擂台在现实世界环境中评估开放性问题,但缺乏对特定推理能力的细微程度评估。我们介绍了GameArena,这是一个旨在通过与人类互动的游戏来评估LLM推理能力的动态基准。GameArena 包含三个游戏,这些游戏旨在测试特定的推理能力(例如演绎和归纳推理),同时还能使参与者保持娱乐和参与。我们回顾性地分析游戏数据,以揭示LLMs的潜在推理过程,并衡量其细微程度的推理能力。我们收集了超过2000场游戏会话,并对五种最先进的LLM的各种推理能力进行了详细的评估。我们的用户研究涉及100名参与者,表明与聊天机器人大擂台相比,GameArena 可以提高用户参与度。GameArena 是首次能够在野外收集LLM的逐步推理数据。
发布时间: 2/18/2025
查看原文
作者: Jiahao Wang, Mingyue Cheng, Qingyang Mao, Yitong Zhou, Feiyang Xu, Xin Li
arXiv:2411.15737v3 宣告类型: 替换 摘要: 大规模语言模型(LLMs)已经在多元时间序列分类(MTSC)中展示了其有效性。将LLMs有效地应用于MTSC需要信息丰富的数据表示。现有基于LLM的方法直接从头开始在LLM的潜空间中编码时间序列的嵌入,以与LLM的语义空间对齐。尽管这些方法有效,但我们发现它们隐藏了三个内在瓶颈:(1)它们难以以无损的方式编码时间特性和通道特异性信息,这两种信息都是多元时间序列的关键组成部分;(2)学习到的表示空间与LLM的语义空间对齐难度很大;(3)它们需要特定任务的重新训练,这既耗资又耗时。为了解决这些差距,我们提出了TableTime,它将MTSC重新定义为表格理解任务。具体来说,TableTime 引入了以下策略:(1)将多元时间序列转换为表格形式,从而最大限度地减少信息丢失;(2)以文本格式表示表格时间序列,以实现与LLM的语义空间的自然对齐;(3)设计一个推理框架,将上下文文本信息、邻域辅助、多路径推理和问题分解相结合,增强LLM的推理能力并实现零样本分类。在UEA存档中的10个公开代表性数据集上进行的广泛实验验证了TableTime的优势。
发布时间: 2/18/2025
查看原文
作者: Charles K. Assaad
arXiv:2411.01292v2 宣告类型: 替换 摘要:理解不同人群之间的因果机制对于设计有效的公共卫生干预措施至关重要。最近,差分图已经被引入作为一种工具,用于可视化两个不同人群之间的因果差异。尽管已经通过因果发现方法在从数据推断这些图方面取得了一些进展,但仍存在系统利用其潜力以增强因果推理的缺口。本文通过确立使用差分图识别因果变化和效应的条件来填补这一缺口。它特别关注在非参数设置中识别完整的因果变化和完整效应,在线性设置中识别直接的因果变化和直接效应。通过这种方式,它提供了一种新的因果推理方法,该方法对于各种公共卫生应用具有潜力。
发布时间: 2/18/2025
查看原文