arXiv 论文列表

作者: Pranshu Pandya, Vatsal Gupta, Agney S Talwarr, Tushar Kataria, Dan Roth, Vivek Gupta

arXiv:2407.10380v3 公告类型: replace-cross 摘要：认知型文本和视觉推理任务，包括谜题、序列和类比，要求能够迅速在文本和空间上进行推理、解读和评估模式。尽管在大量人工策划的数据上进行了广泛的训练，LLMs 和 VLMs 在常识推理任务上表现出色，但在需要更深层次认知理解的复杂推理方面仍然挣扎。我们介绍了 NTSEBench，这是一个新的数据集，用于评估大型模型的认知多模态推理和解决问题的能力。该数据集包含 2,728 道选择题，以及总计 4,642 张图像，分为 26 种不同类型。这些问题源自印度的全国 NTSE 考试，并结合了视觉和文本的综合性能力挑战，旨在评估超出机械记忆之上的智力和批判性思维能力。我们使用最先进的 LLMs 和 VLMs 在数据集上建立了基线。为了方便开源模型和专有模型之间的比较，我们提出了四种不同的建模策略来处理数据集实例中的不同模态——文本和图像。

发布时间: 4/2/2025

查看原文

基于自适应视图合成的多目标场景中不变像素异常检测

作者: Subin Varghese, Vedhus Hoskere

arXiv:2406.18012v2 宣告类型: replace-cross 摘要：在建成环境中进行视觉异常检测是一种有价值的工具，适用于基础设施评估、建设监控、安全监控和城市规划等应用。异常检测方法通常是无监督的，通过检测与预期状态的偏差来工作，其中不需要假设特定类型的偏差。开发了无监督的像素级异常检测方法以成功地识别和分割异常；然而，现有的技术是为具有固定摄像头位置的工业环境设计的。在建成环境中，图像由手动操作的摄像头或安装在航空或地面车辆上的摄像头定期捕捉。连续收集之间的摄像头姿态会显著变化，这在现有的异常检测方法中是一个基本假设。为了填补这一空白，我们提出了场景异常检测（Scene AD）的问题，目标是从两组图像中检测异常：一组没有异常的图像和一组可能包含异常或不包含异常的图像。没有提供带标签的语义分割数据用于训练。我们提出了一种新的网络，OmniAD，通过完善逆 distilled 异常检测方法来应对场景 AD，从而在像素级异常检测中提高了40%。此外，我们引入了两种新的数据增强策略，利用新颖的视角合成和摄像头定位来增强泛化能力。我们在一个新的数据集 ToyCity 和已建立的单一对象为中心的数据集 MAD 上分别从主观和客观上评估了我们的方法。我们的方法在基准方法上表现出显著的改进，为具有建成环境中常见真实世界摄像头姿态变化的场景中的稳健异常检测铺平了道路。https://drags99.github.io/OmniAD/

发布时间: 4/2/2025

查看原文

改进 imperfect information 卡牌游戏中的评论策略：关于 Guandan 评论的大语言模型研究

作者: Meiling Tao, Xuechen Liang, Ziyi Wang, Yiling Tao, Tianyu Shi

arXiv:2406.17807v4 宣告类型: 替换-交叉摘要: 近期大规模语言模型（LLMs）的进展为生成高质量的游戏解说提供了可能性。然而，为复杂的游戏生成具有洞察力且引人入胜的解说，尤其是在信息不完整的情况下，仍然是一个重大挑战。在这篇论文中，我们提出了一种结合强化学习（RL）和LLMs的新颖解说方法，针对中国的纸牌游戏《关典》（Guandan）进行了专门设计。该系统利用RL生成复杂的牌局场景，并利用LLMs生成相应的解说文本，有效地模拟了专业评论员的战略分析和叙事能力。该框架包括一个状态解说指南、一个基于理论心智（ToM）的策略分析器和一个风格检索模块，这些组件无缝协作，以中文环境提供详细且与情境相关的游戏解说。我们赋予LLMs ToM能力，并改进了检索和信息过滤机制，这促进了个性化解说内容的生成。我们的实验结果展示了提出的解说框架在应用于开源LLMs时的显著性能提升，在多个评估指标上超过了GPT-4。

发布时间: 4/2/2025

查看原文

机器卸载无法移除数据投毒攻击

作者: Martin Pawelczyk, Jimmy Z. Di, Yiwei Lu, Ayush Sekhari, Gautam Kamath, Seth Neel

arXiv:2406.17216v2 通知类型: 替换-交叉摘要：我们重新评估了几种为大规模深度学习开发的近似机器遗忘实用方法的有效性。除了遵守数据删除请求外，遗忘方法的一个经常被引用的应用是去除被污染数据的影响。我们实验证明，虽然现有的遗忘方法在多个设置中已被证明是有效的，但它们未能在各种类型的污染攻击（不分青红皂白的、定向的以及新引入的高斯污染攻击）和模型（图像分类器和LLM）中去除数据污染的影响；即使是在获得相当大的计算预算的情况下。为了精确地表征遗忘效果，我们基于数据污染引入了新的遗忘评估指标。我们的结果显示，为了在没有证明性保证的情况下避免对深度学习中的机器遗忘程序产生虚假的信任感，需要更广泛的观点，并且包括更广泛的评估。此外，尽管遗忘方法显示出一些有效的迹象，可以通过不重新训练来高效地去除污染数据，但我们的研究表明，这些方法目前还不“准备好应对挑战”，并且相对于重新训练目前提供的益处有限。

发布时间: 4/2/2025

查看原文

BigCodeBench：基于多样化函数调用和复杂指令的代码生成基准测试

作者: Terry Yue Zhuo, Minh Chien Vu, Jenny Chim, Han Hu, Wenhao Yu, Ratnadira Widyasari, Imam Nur Bani Yusuf, Haolan Zhan, Junda He, Indraneil Paul, Simon Brunner, Chen Gong, Thong Hoang, Armel Randy Zebaze, Xiaoheng Hong, Wen-Ding Li, Jean Kaddour, Ming Xu, Zhihan Zhang, Prateek Yadav, Naman Jain, Alex Gu, Zhoujun Cheng, Jiawei Liu, Qian Liu, Zijian Wang, Binyuan Hui, Niklas Muennighoff, David Lo, Daniel Fried, Xiaoning Du, Harm de Vries, Leandro Von Werra

arXiv:2406.15877v4 任务自动化类型: replace-cross 摘要：任务自动化通过Python代码借助近期大型语言模型（LLMs）的进步，在软件工程开发到通用推理等各种任务中得到了极大增强。虽然当前的基准测试表明LLMs可以使用程序来解决任务，类似于人类开发者，但大多数评估仅限于短且自包含的算法任务或独立的函数调用。解决具有挑战性和实际的任务需要利用多种函数调用来有效地实现数据解析和网页开发等功能的能力。此外，使用多种工具来解决任务需要通过准确理解复杂指令来进行组合推理。满足这两种特性对LLMs来说都是一项巨大的挑战。为了评估LLMs如何通过程序解决具有挑战性和实际的任务，我们引入了BigCodeBench，这是一个基准测试，要求LLMs调用来自139个库和7个领域中的1,140个细粒度任务的多种函数调用作为工具。为了严格评估LLMs，每个任务包含5.6个测试案例，平均分支覆盖率为99%。此外，我们提出了BigCodeBench-Instruct这一针对自然语言的BigCodeBench变体，它可以自动将原始文档字符串转换为仅包含必要信息的简短指令。我们对60个LLM的广泛评估表明，LLMs尚不具备遵循复杂指令精确使用函数调用的能力，最高得分为60%，比人类表现的97%低得多。这些结果强调了在这一领域进一步发展的需求。

发布时间: 4/2/2025

查看原文

DELTA: 分解的高效长期机器人任务规划使用大语言模型

作者: Yuchen Liu, Luigi Palmieri, Sebastian Koch, Ilche Georgievski, Marco Aiello

arXiv:2404.03275v3 宣告类型: replace-cross 摘要：大型语言模型（LLMs）的最近进展在许多研究领域引发了一场革命。在机器人学中，将LLMs中的常识知识整合到任务和运动规划中，极大地促进了该领域的进步，解锁了前所未有的上下文意识水平。尽管大型语言模型拥有大量的知识，但由于幻觉或缺少领域信息，它们可能会生成不可行的计划。为了解决这些问题并提高计划的可行性和计算效率，我们引入了DELTA，一种新颖的LLM驱动的任务规划方法。通过在LLMs中使用场景图作为环境表示，DELTA实现了快速生成精确的规划问题描述。为了增强规划性能，DELTA使用LLMs将长期任务目标分解为自回归的子目标序列，从而使自动化任务规划器能够高效地解决复杂问题。在我们的广泛评估中，我们展示了DELTA能够实现高效且完全自动的任务规划流水线，其规划成功率更高，规划时间显著缩短，相比现有技术有显著优势。项目网页：https://delta-llm.github.io/

发布时间: 4/2/2025

查看原文

CodingTeachLLM：通过AST先验知识增强LLM的编程能力

作者: Zhangquan Chen, Chunjiang Liu, Haobin Duan

arXiv:2403.15426v2 类型: replace-cross 摘要: 在本文中，我们介绍了一个名为CodingTeachLLM的大语言模型（LLM），专门用于编程教学。我们旨在增强LLM的编程能力，并引导其在教育场景中采用更好的教学模式。因此，我们提出了一种端到端基于先验的三阶段监督微调模型，该模型证明比传统的微调方法更具竞争力。具体来说，我们的模型实现了教育知识的结构分解和增量指导输出。为此，我们通过一个采样器和重叠估计神经网络增强了三类数据的分类，并将预处理的数据集分三批注入预训练模型进行LORA微调。然后，我们设计了一个先验模块，结合系统提示、向量数据库和抽象语法树任务分割。最后，我们应用了先验基于的微调模型的压缩方法和正则化约束，并在输出端应用文本过滤器，以获得增量指导结果。我们的模型是第一个真正体现具备丰富教育知识、逐步增量指导输出和不透露答案的辅导员角色的研究努力。大规模实验表明，与开源模型相比，我们的模型在编程能力方面也达到了最先进的水平，在HumanEval（@pass 1）基准测试中的得分达到了令人印象深刻的75.10%。此外，我们的模型保持了强大的对话能力，13B量化版本分别在MMLU、C-Eval和AGIEval（5射）对话评估基准测试中得分56.34、50.60和45.27。

发布时间: 4/2/2025

查看原文

具有图最大解码信息的聚类方法

作者: Xinrun Xu, Manying Lv, Zhanbiao Lian, Yurong Wu, Jin Yan, Shan Jiang, Zhiming Ding

arXiv:2403.13846v3 宣传类型: 更新-交叉摘要：基于图模型的聚类方法因其在各个知识领域的广泛应用而受到越来越多的关注。基于图模型的聚类分析能够无缝集成到其他相关应用中，使得其能够在数据集中稳健地提取“自然关联”或“图结构”，有助于数据点之间关系的建模。尽管具有有效性，但当前利用图模型的聚类方法忽视了节点之间随机游走访问相关的不确定性以及数据中嵌入的结构信息。为解决这一问题，我们提出了一种新颖的基于图模型的最大化解码信息的聚类方法，命名为CMDI。CMDI创新地将二维结构信息理论融入到聚类过程中，包括两个阶段：图结构提取和图顶点分区。在CMDI中，图分区被重新表述为一个抽象的聚类问题，利用最大化解码信息来最小化随机访问顶点相关的不确定性。在三个真实数据集上的实验证明，CMDI优于经典的基线方法，显示了更高的解码信息比（DI-R）。此外，CMDI展示了更高的效率，特别是在考虑先验知识（PK）的情况下。这些发现强调了CMDI在提高解码信息质量和计算效率方面的有效性，使其成为图模型聚类分析中的一个有价值工具。

发布时间: 4/2/2025

查看原文

大规模语言模型是上下文分子学习者

作者: Jiatong Li, Wei Liu, Zhihao Ding, Wenqi Fan, Yuqiang Li, Qing Li

arXiv:2403.04197v3 公告类型: 替换-交叉摘要：大型语言模型（LLMs）在生物化学任务中展现出了卓越的表现，特别是在分子-图例翻译任务中，该任务旨在弥合分子和自然语言文本之间的差距。然而，将LLMs适应分子-图例翻译任务的先前方法需要额外的领域特定预训练阶段，存在分子空间和文本空间之间的弱对齐问题，或者对LLMs的规模提出了苛刻的要求。为了解决这些挑战，我们提出了上下文内分子适应（ICMA）作为一种新的范式，允许LLMs通过上下文内分子调优从上下文示例中学习分子-文本对齐。具体来说，ICMA包含以下三个阶段：混合上下文检索、检索后重新排名和上下文内分子调优。首先，混合上下文检索利用BM25图例检索和分子图检索来检索相似的有信息量的上下文示例。此外，检索后的重新排名由序列反转和随机行走选择组成，以进一步提高检索结果的质量。最后，上下文内分子调优为检索的示例解锁了LLMs的上下文学习和推理能力，并调整了LLMs的参数以实现更好的分子和文本对齐。实验结果表明，ICMA可以在无需额外训练语料库和复杂结构的情况下，使LLMs达到最先进的或可比的性能，显示了LLMs天生具有上下文内分子学习能力。

发布时间: 4/2/2025

查看原文

可解释的贝叶斯优化

作者: Tanmay Chakraborty, Christian Wirth, Christin Seifert

arXiv:2401.13334v2 宣告类型: replace-cross 摘要：手动调整网络物理系统参数是一种常见的做法，但耗时费力。贝叶斯优化（BO）提供了一种自动化替代方案，但其黑盒性质降低了信任度，限制了人类与BO的合作系统调优。专家由于缺乏解释而难以理解BO的建议。本文解决了网络物理系统中的事后BO可解释性问题。我们引入了TNTRules（调整-不调整规则），这是一种新颖的算法，为BO建议提供了全局和局部解释。TNTRules生成可操作的规则和可视化图表，标识出最优解的界限和范围，以及潜在的替代解决方案。与现有的可解释人工智能（XAI）方法不同，TNTRules专门针对BO进行了定制，通过变异修剪技术编码不确定性和层次聚类。采用多目标优化方法允许最大化解释质量。我们使用已建立的XAI度量标准（正确性、完整性、紧凑性）评估了TNTRules，并将其与适应基线方法进行了比较。结果表明，TNTRules生成了高保真、紧凑且完整的解释，在5个多目标测试函数和2个超参数调整问题上显著优于三个基线。

发布时间: 4/2/2025

查看原文