arXiv 论文列表

作者: Victor-Alexandru P\u{a}durean, Paul Denny, Adish Singla

调试是学习编程的一项基本技能，但在入门课程中的教学和强调程度差异很大。在大语言模型 (LLM) 生成代码的时代，学生分析代码和识别错误的能力变得越来越重要。然而，学生经常采用反复试验的方法来解决错误，而没有完全理解根本问题。培养识别和假设错误原因的能力至关重要，但通过传统方法有效地教授它可能非常耗时。本文介绍了 BugSpotter，这是一种利用 LLM 从问题描述生成错误代码并通过测试套件验证合成错误的创新工具。学生通过设计失败的测试用例与 BugSpotter 交互，其中错误代码的输出与问题规范中定义的预期结果不同。这不仅为学生提供了增强调试技能的机会，也为他们提供了阅读和理解问题规范的练习机会。我们在大型课堂环境中部署了 BugSpotter，并将它生成的调试练习与讲师为相同问题手工制作的练习进行了比较。我们发现，BugSpotter 生成的 LLM 练习难度各不相同，并且与问题规范非常匹配。重要的是，LLM 生成的练习在学生表现方面与教师手动创建的练习相当，这表明 BugSpotter 可以成为学习调试的有效且高效的辅助工具。

发布时间: 11/26/2024

查看原文

用于评估离散多元时间序列在线异常检测方法的数据集

作者: Lucas Correia, Jan-Christoph Goos, Thomas B\"ack, Anna V. Kononova

多变量时间序列异常检测方法的基准测试由于缺乏高质量数据集而极具挑战性。目前公开可用的数据集规模太小，多样性不足，并且异常特征过于简单，这阻碍了该研究领域的实质性进展。我们提出了一种解决方案：一个利用最先进的仿真工具生成的多样化、大规模且非平凡的数据集，该数据集反映了汽车动力总成的真实行为，包括其多变量、动态和可变状态特性。为了适应无监督和半监督异常检测设置，以及时间序列生成和预测，我们提供了数据集的不同版本，其中训练集和测试集根据任务的不同提供污染版本和干净版本。我们还提供了一些基于确定性和变分自动编码器的方法以及一种非参数方法的基线结果。正如预期的那样，基线实验表明，在半监督版本的数据集上训练的方法优于其无监督对应方法，这突出了对更能抵抗污染训练数据的方法的需求。

发布时间: 11/26/2024

查看原文

极值分析中动态相关性变化与加权基准测试的集成

作者: Dimitrios P. Panagoulias, Elissaios Sarmas, Vangelis Marinakis, Maria Virvou, George A. Tsihrintzis

本文提出了一种创新的极值分析 (EVA) 方法——极值动态基准方法 (EVDBM)。EVDBM 集成极值理论来检测极端事件，并结合新颖的动态显著相关性识别 (DISC) 阈值算法，增强了在极端条件下对关键变量的分析。通过将通过 EVA 预测的回报值整合到基准评分中，我们可以转换这些评分以更准确地反映预期条件。这提供了更精确的画面，展现每个案例在极端条件下预计如何展开。因此，调整后的评分提供了前瞻性的视角，突出了每个案例的潜在脆弱性和弹性因素，这是静态历史数据无法单独捕捉到的。通过结合历史和概率元素，EVDBM 算法提供了一个全面的基准框架，可适应各种场景和环境。该方法应用于真实的 PV 数据，揭示了关键的低产量场景以及变量之间的显著相关性，这有助于风险管理、基础设施设计和长期规划，同时也允许比较不同的发电厂。EVDBM 的灵活性表明其在其他决策敏感性至关重要的领域具有更广泛的应用潜力，为改进结果提供了宝贵的见解。

发布时间: 11/26/2024

查看原文

基于迭代收缩的改进型图形用户界面语义定位

作者: Anthony Nguyen

图形用户界面 (GUI) 接地技术对于增强视觉语言模型 (VLM) 智能体的能力至关重要。虽然像 GPT-4V 这样的通用 VLM 在各种任务中表现出色，但它们在 GUI 接地方面的能力仍然不足。最近的研究集中于针对一次性 GUI 接地对这些模型进行微调，从而显著提高了基线性能。我们引入了一种视觉提示框架，该框架采用迭代缩小机制，将通用模型和微调模型在 GUI 接地方面的性能提高了高达 61%。为了进行评估，我们在包含各种 UI 平台的综合基准上测试了我们的方法，并提供了可复现我们结果的代码。

发布时间: 11/26/2024

查看原文

LaVida驱动：基于令牌选择、恢复和增强的自动驾驶视觉-文本交互式视觉语言模型

作者: Siwen Jiao, Yangyi Fang, Baoyun Peng, Wangqun Chen, Bharadwaj Veeravalli

视觉语言模型 (VLMs) 的最新进展使其成为自动驾驶视觉问答 (VQA) 的关键技术，实现了自然的人车交互。然而，现有方法在动态驾驶环境中往往难以应对，因为它们通常关注静态图像或视频，并依赖于下采样来降低计算成本。这导致关键细节丢失，难以有效整合空间和时间信息，从而影响精细感知和时间一致性，而这些对于有效的决策至关重要。为了解决这些挑战，我们引入了 LaVida Drive，这是一种用于自动驾驶的新型高效 VQA 框架。LaVida Drive 在保持高分辨率输入以进行详细视觉感知的同时，无缝地整合了时间数据。它通过保留高分辨率数据以获取复杂细节并使用低分辨率输入进行时间分析来关注运动相关特征，从而优化空间处理并提高计算效率。LaVida Drive 的核心由两个模块组成：*查询感知令牌选择* 模块和 *时空令牌恢复和增强* 模块。前者根据与输入查询的语义对齐动态选择最相关的视觉令牌，减少来自高分辨率空间输入的令牌数量。后者确保空间和时间信息之间平滑且一致的交互，保持跨帧的上下文连续性。在各种自动驾驶问答基准上的大量实验表明，LaVida Drive 显著减少了视觉令牌，提高了效率，并改善了整体性能。

发布时间: 11/26/2024

查看原文

CodeXEmbed：一种用于多语言和多任务代码检索的通用嵌入模型家族

作者: Ye Liu, Rui Meng, Shafiq Joty, Silvio Savarese, Caiming Xiong, Yingbo Zhou, Semih Yavuz

尽管文本检索在许多自然语言处理任务中取得了成功，但代码检索仍然是一个很大程度上未被探索的领域。大多数文本检索系统都是针对自然语言查询而设计的，常常忽略了代码检索的具体挑战。这一差距导致现有模型无法有效地捕捉不同领域编程语言和任务的多样性，突显了对代码检索领域更有针对性研究的必要性。为了解决这个问题，我们引入了CodeXEmbed，这是一个包含4亿到70亿参数的大规模代码嵌入模型家族。我们新颖的训练流程统一了多种编程语言，并将各种代码相关任务转化为一个通用的检索框架，从而增强了模型的泛化能力和检索性能。我们的70亿参数模型在代码检索方面创造了新的最先进水平（SOTA），在CoIR基准测试中比之前的领先模型Voyage-Code性能提高了20%以上。除了在代码检索方面表现出色外，我们的模型在广泛采用的BeIR文本检索基准测试中也表现出具有竞争力的性能，展现了其跨领域的通用性。实验结果表明，提高检索性能显著增强了代码相关任务的端到端检索增强生成（RAG）性能。

发布时间: 11/26/2024

查看原文

AtomThink：一种用于多模态数学推理的慢思考框架

作者: Kun Xiang, Zhili Liu, Zihao Jiang, Yunshuang Nie, Runhui Huang, Haoxiang Fan, Hanhui Li, Weiran Huang, Yihan Zeng, Jianhua Han, Lanqing Hong, Hang Xu, Xiaodan Liang

本文探讨了将“慢思考”能力融入多模态大型语言模型 (MLLM) 以解决多模态数学推理这一具有挑战性任务的问题。与依赖直接或快速思考的现有方法相反，我们的核心思想是逐步构建由原子动作组成的长链思维 (CoT)，引导 MLLM 执行复杂的推理。为此，我们设计了一个新颖的 AtomThink 框架，该框架由三个关键模块组成：(i) 一个 CoT 注释引擎，用于自动生成高质量的 CoT 注释以解决高质量视觉数学数据不足的问题；(ii) 一个原子步骤微调策略，用于联合优化 MLLM 和策略奖励模型 (PRM) 以进行逐步推理；以及 (iii) 四种不同的搜索策略，可与 PRM 一起应用以完成推理。此外，我们还提出了 AtomMATH，这是一个大型多模态长 CoT 数据集，以及一个用于数学任务的原子能力评估指标。大量的实验结果表明，提出的 AtomThink 显著提高了基线 MLLM 的性能，在 MathVista 上实现了大约 50% 的相对精度提升，在 MathVerse 上实现了 120% 的提升。为了支持多模态慢思考模型的发展，我们将公开发布我们的代码和数据集，网址为 https://github.com/Quinn777/AtomThink。

发布时间: 11/26/2024

查看原文

AIGS：基于人工智能自动化证伪的科学生成

作者: Zijun Liu, Kaiming Liu, Yiqi Zhu, Xuanyu Lei, Zonghan Yang, Zhenhe Zhang, Peng Li, Yang Liu

人工智能的快速发展极大地加速了科学发现的进程。利用大规模观测数据训练的深度神经网络能够以端到端的方式提取潜在模式，并帮助人类研究人员在未见场景中进行高精度预测。大型语言模型 (LLM) 的兴起以及赋能的自主代理使科学家能够在研究的不同阶段（包括但不限于文献综述、研究构思、想法实施和学术写作）通过交互获得帮助。然而，由基础模型赋能的代理所代表的、具有全过程自主性的AI研究人员仍处于起步阶段。本文研究了**人工智能生成的科学** (AIGS)，其中代理独立自主地完成整个研究过程并发现科学规律。通过重新审视科学研究的定义，我们认为_证伪_是人类研究过程和AIGS系统设计的核心。从证伪的角度来看，先前尝试人工智能生成科学的系统要么在其设计中缺乏这一部分，要么严重依赖现有的验证引擎，从而限制了其在特定领域的应用。在这项工作中，我们提出了Baby-AIGS作为全过程AIGS系统的一个初步演示，它是一个多代理系统，其中的代理扮演着代表关键研究过程的角色。通过引入证伪代理（FalsificationAgent），该代理识别并验证可能的科学发现，我们赋予系统明确的证伪能力。对三个任务的实验初步表明，Baby-AIGS能够产生有意义的科学发现，尽管其水平尚不及经验丰富的人类研究人员。最后，我们详细讨论了当前Baby-AIGS的局限性、可行的见解以及相关的伦理问题。

发布时间: 11/26/2024

查看原文

基于蒙特卡洛树搜索的自驱动推理增强代码生成方法

作者: Bin Xu, Yiguan Lin, Yinghao Li, Yang Gao

大型语言模型在简单的代码生成任务中表现出色，但在解决复杂问题方面仍面临挑战。这些挑战可能源于其推理和问题分解能力不足。为了解决这个问题，我们提出了一种基于推理增强的生成过程SRA-MCTS，它引导模型自主生成高质量的中间推理路径，从而形成一个正反馈循环，实现持续改进。我们的方法完全通过模型本身运行，无需额外的监督。通过合成自然语言推理路径并将其转换为可执行代码，该方法确保了分析的准确性并提高了解决复杂任务的成功率。实验结果表明，即使没有额外的监督信号，我们的方法也能在不同模型规模上实现性能改进，证明了小型模型自我改进的巨大潜力。此外，当传统的思维链（CoT）方法出现性能下降时，该方法仍然保持稳健，在pass@10等多样性指标上也观察到显著改进。我们鼓励进一步探索训练数据中的推理过程，以增强语言模型解决复杂问题的能力。我们的代码和数据已公开发布在https://github.com/DIRECT-BIT/SRA-MCTS。

发布时间: 11/26/2024

查看原文

视频组合：大型多模态语言模型能否分析编译视频中的组合？

作者: Yunlong Tang, Junjia Guo, Hang Hua, Susan Liang, Mingqian Feng, Xinyang Li, Rui Mao, Chao Huang, Jing Bi, Zeliang Zhang, Pooyan Fazli, Chenliang Xu

多模态大型语言模型（MLLM）的进步使得多模态理解取得了显著进展，扩展了其分析视频内容的能力。然而，现有的MLLM评估基准主要关注抽象的视频理解，缺乏对其理解视频构成能力的详细评估，即对视觉元素如何在高度编译的视频环境中组合和交互的细致解读。我们引入了VidComposition，这是一个专门设计用于评估MLLM视频构成理解能力的新基准，它使用了精心策划的编译视频和电影级别的注释。VidComposition包含982个视频和1706个多项选择题，涵盖了各种构成方面，例如摄像机运动、角度、镜头大小、叙事结构、人物动作和情绪等。我们对33个开源和专有MLLM的综合评估揭示了人类能力和模型能力之间存在显著的性能差距。这突出了当前MLLM在理解复杂的编译视频构成方面的局限性，并为进一步改进提供了见解。排行榜和评估代码可在https://yunlong10.github.io/VidComposition/ 获取。

发布时间: 11/26/2024

查看原文