arXiv 论文列表

作者: Eddie Antonio Santos, Brett A. Becker

大型语言模型（LLM）如ChatGPT的突然出现，对整个计算机教育界产生了颠覆性的影响。LLM已被证明在生成CS1和CS2问题的正确代码方面表现出色，甚至可以作为学习编程学生的友好助手。最近的研究表明，LLM在解释和解决编译器错误消息方面表现出明显优越的结果——几十年来，这是学习编程中最令人沮丧的部分之一。然而，LLM生成的错误消息解释只由专家程序员在人工条件下评估。这项工作旨在了解新手程序员如何在更现实的情况下解决编程错误消息（PEM）。我们进行了一项包含n=106名参与者的被试内研究，要求学生修复六个有错误的C程序。对于每个程序，参与者被随机分配使用以下三种方式之一来修复问题：使用标准编译器错误消息、使用专家手写错误消息或使用GPT-4生成的错误消息解释。尽管在合成基准测试中取得了令人鼓舞的证据，但我们发现，在6项任务中，只有1项GPT-4生成的错误消息优于传统的编译器错误消息，衡量标准是学生解决每个问题所需的时间。无论是客观还是主观衡量，手写解释仍然优于LLM和传统的错误消息。

发布时间: 9/30/2024

查看原文

通过减少多样性生成分层原型

作者: Alfredo Ibias, Hector Antona, Guillem Ramirez-Miranda, Enric Guinovart, Eduard Alarcon

人工智能领域很少关注一个基本构建模块的发展：一个框架、方法或算法，用于自动构建抽象层次结构。这是构建智能行为的关键要求，正如最近的神经科学研究清楚地表明的那样。本文提出了一种基于原语的框架，用于自动生成构造原型层次结构，作为一种关于如何生成抽象层次结构的理论。我们假设存在一个具有非常特定特征的原语，并在其基础上发展我们的框架。我们通过数学定义和证明证明了我们框架的有效性。最后，我们对我们框架的潜在用途和预期结果提供了一些见解。

发布时间: 9/30/2024

查看原文

基于搜索算法对谱图理论猜想的反驳

作者: Milo Roucairol, Tristan Cazenave

我们对自动反驳谱图理论猜想感兴趣。大多数现有工作要么通过生成有限大小的图来解决这个问题，要么通过深度强化学习来解决。穷举生成受生成图的大小限制，深度强化学习需要数小时或数天才能反驳一个猜想。我们建议使用搜索算法来解决这些缺点，以便在几秒钟内找到谱图理论猜想的潜在大型反例。我们将各种搜索算法应用于 Graffiti 中选择的一组猜想。在 Graffiti 中已经反驳的 13 个猜想中，我们的算法能够在几秒钟内反驳 12 个。我们还反驳了 Graffiti 中的猜想 197，该猜想一直到今天都是开放的。

发布时间: 9/30/2024

查看原文

无监督认知

作者: Alfredo Ibias, Hector Antona, Guillem Ramirez-Miranda, Enric Guinovart, Eduard Alarcon

无监督学习方法从认知模型中获得了启发。迄今为止，最成功的无监督学习方法围绕着在数学空间中对样本进行聚类。本文提出了一种受新型认知模型启发的、基于原语的无监督学习方法，用于决策制定。这种以表示为中心的方案以输入无关的方式将输入空间构造性地建模为分布式层次结构。我们将我们的方法与当前无监督学习分类和癌症类型分类的最新技术进行了比较。结果表明，我们的方案优于之前的最新技术。我们还评估了我们方案的一些类似认知的特性，它不仅优于比较算法（甚至包括监督学习算法），而且还表现出不同的、更类似认知的行为。

发布时间: 9/30/2024

查看原文

ASAG2024：短答案评分的综合基准

作者: G\'er\^ome Meyer, Philip Breuer, Jonathan F\"urst

开放式问题比封闭式问题更能测试对知识的深入理解，因此常被用作评估方法。然而，开放式问题评分费时费力，且容易受到主观偏见的影响。因此，人们一直在努力通过自动化来加快评分过程。简答评分 (SAG) 系统旨在自动评分学生的答案。尽管 SAG 方法和能力不断发展，但跨不同科目、评分标准和分布的综合简答评分基准尚不存在。因此，很难评估当前自动化评分方法在泛化能力方面的表现。在本预研工作中，我们介绍了 ASAG2024 综合基准，以促进自动化评分系统的比较。我们将七个常用的简答评分数据集整合到一个共同的结构和评分标准中。对于我们的基准，我们评估了一组最新的 SAG 方法，结果表明，尽管基于大型语言模型 (LLM) 的方法取得了新的高分，但它们仍然远远没有达到人工评分的水平。这为未来关于人机协作 SAG 系统的研究开辟了新的方向。

发布时间: 9/30/2024

查看原文

“哦，LLM，我恳求你，请给我一颗决策树”：基于大型语言模型的零样本决策树归纳与嵌入

作者: Ricardo Knauer, Mario Koddenbrock, Raphael Wallsberger, Nicholas M. Brisson, Georg N. Duda, Deborah Falla, David W. Evans, Erik Rodner

大型语言模型 (LLMs) 为数据有限的预测建模提供了强大的手段，可以利用先验知识。在这项工作中，我们展示了 LLMs 如何利用其压缩的世界知识来生成本质上可解释的机器学习模型，即决策树，而无需任何训练数据。我们发现，这些零样本决策树在某些小型表格数据集上可以超越数据驱动树，并且从这些树中提取的嵌入在平均情况下与数据驱动树基嵌入的性能相当。因此，我们的知识驱动决策树归纳和嵌入方法为低数据环境下的数据驱动机器学习方法提供了强有力的新基线。

发布时间: 9/30/2024

查看原文

面向目标的客户服务聊天机器人管道架构中机器学习模型的实验评估

作者: Nurul Ain Nabilah Mohd Isa, Siti Nuraishah Agos Jawaddi, Azlan Ismail

将机器学习 (ML) 整合到客户服务聊天机器人中，增强了它们理解和响应用户查询的能力，最终提高了服务性能。然而，它们在某些用户眼中可能显得过于人工，从而影响客户体验。因此，对每个管道组件的 ML 模型进行细致的评估对于优化性能至关重要，尽管功能上的差异可能会导致不公平的比较。在本文中，我们针对具有管道架构的目标导向型客户服务聊天机器人，提出了一种定制的实验评估方法，重点关注三个关键组件：自然语言理解 (NLU)、对话管理 (DM) 和自然语言生成 (NLG)。我们的方法强调个体评估，以确定最佳的 ML 模型。具体而言，我们专注于优化超参数并评估 NLU (使用 BERT 和 LSTM)、DM (使用 DQN 和 DDQN) 和 NLG (利用 GPT-2 和 DialoGPT) 的候选模型。结果表明，对于 NLU 组件，BERT 在意图检测方面表现出色，而 LSTM 在槽位填充方面更胜一筹。对于 DM 组件，DDQN 模型通过实现更少的回合数、更高的奖励以及更高的成功率，优于 DQN 模型。对于 NLG，大型语言模型 GPT-2 在 BLEU、METEOR 和 ROUGE 指标方面超过了 DialoGPT。这些发现旨在为未来开发和优化客户服务聊天机器人的研究提供基准，为模型性能和最佳超参数提供宝贵的见解。

发布时间: 9/30/2024

查看原文

Align$^2$LLaVA：级联式人类与大型语言模型偏好对齐的多模态指令整理

作者: Hongzhe Huang, Zhewen Yu, Jiang Liu, Li Cai, Dian Jiao, Wenqiao Zhang, Siliang Tang, Juncheng Li, Hao Jiang, Haoyuan Li, Yueting Zhuang

近年来，多模态大型语言模型（MLLM），例如 LLaVA 系列模型，其发展得益于海量机器生成的指令遵循数据调优。然而，这种自动指令收集管道无意中引入了数据质量的显著差异。本文提出了一种新颖的指令整理算法，该算法源于两个独特的视角：人类和 LLM 偏好一致性，用于将海量机器生成的多模态指令压缩成紧凑且高质量的形式：（i）对于人类偏好一致性，我们收集了一个机器生成的多模态指令数据集，并建立了一套全面的主观和客观标准，以指导人类专家从批判性角度对数据质量进行评估。通过这样做，一个奖励模型在标注的数据集上进行训练，以将细微的人类对指令一致性的理解内化。（ii）对于 LLM 偏好一致性，给定奖励模型选择的指令，我们建议利用 MLLM 中使用的内部 LLM 来使视觉指令的写作风格与内部 LLM 本身的写作风格保持一致，从而实现 LLM 对齐的指令改进。大量的实验表明，我们可以通过将合成多模态指令压缩高达 90% 来维持甚至提高模型性能。令人印象深刻的是，通过将总训练样本量从 158k 积极减少到 14k（小 9 倍），我们的模型在各种 MLLM 基准测试中始终优于其全尺寸数据集对应模型。我们的项目可在 https://github.com/DCDmllm/Align2LLaVA 获取。

发布时间: 9/30/2024

查看原文

生成式人工智能时代的数据分析

作者: Jeevana Priya Inala, Chenglong Wang, Steven Drucker, Gonzalo Ramos, Victor Dibia, Nathalie Riche, Dave Brown, Dan Marshall, Jianfeng Gao

本文探讨了人工智能工具重塑数据分析的潜力，重点关注设计考量和挑战。我们探索了大型语言模型和多模态模型的出现如何为增强数据分析工作流程的不同阶段提供新的机会，通过将高级用户意图转化为可执行代码、图表和见解。然后，我们考察了以人为本的设计原则，这些原则有助于直观的交互，建立用户信任，并在多个应用程序中简化人工智能辅助分析工作流程。最后，我们讨论了阻碍这些基于人工智能的系统开发的研究挑战，例如增强模型能力、评估和基准测试以及理解最终用户需求。

发布时间: 9/30/2024

查看原文

基于自注意力和进化强化学习的成本感知动态云工作流调度

作者: Ya Shen, Gang Chen, Hui Ma, Mengjie Zhang

云环境下的成本感知动态多工作流调度 (CDMWS) 是一种云工作流管理问题，其目标是将虚拟机 (VM) 实例分配给工作流中的任务，以最小化总成本，包括违反服务等级协议 (SLA) 的罚款和 VM 租赁费用。基于深度神经网络，强化学习 (RL) 方法可以构建有效的调度策略来解决 CDMWS 问题。传统的 RL 策略网络通常使用基本的前馈架构来分别确定分配任何 VM 实例的适用性，而没有同时考虑所有 VM 来学习它们的全局信息。本文提出了一种用于云工作流调度的新型自注意力策略网络 (SPN-CWS)，该网络可以捕获所有 VM 的全局信息。我们还开发了一个基于进化策略的 RL (ERL) 系统，以可靠有效地训练 SPN-CWS。训练后的 SPN-CWS 可以有效地同时处理所有候选 VM 实例，以识别最适合执行每个工作流任务的 VM 实例。综合实验表明，我们的方法在多个基准 CDMWS 问题上明显优于几种最先进的算法。

发布时间: 9/30/2024

查看原文