LLM2D

arXiv 论文列表

作者: Liqiang Jing, Zhehui Huang, Xiaoyang Wang, Wenlin Yao, Wenhao Yu, Kaixin Ma, Hongming Zhang, Xinya Du, Dong Yu
arXiv:2409.07703v3 宣告类型: 替换 摘要: 大型语言模型(LLMs)和大型视觉-语言模型(LVLMs)展示了令人印象深刻的语言/视觉推理能力,激发了构建针对特定应用(如购物助手或AI软件工程师)的代理的 Recent 趋势。最近,许多数据科学基准已经被提出,以研究它们在数据科学领域的性能。然而,现有的数据科学基准在与现实世界的数据科学应用相比时仍然存在不足,因为这些基准的设置过于简化。为了弥合这一差距,我们引入了 DSBench,这是一个全面的基准,旨在通过现实的任务来评估数据科学代理。该基准包括来自 Eloquence 和 Kaggle 竞赛的 466 个数据分析任务和 74 个数据建模任务。DSBench 提供了一个现实的设置,涵盖了长上下文、多模态任务背景、与大量数据文件和多表结构的推理,以及端到端的数据建模任务。我们对最先进的 LLM、LVLM 和代理的研究显示,它们在大多数任务中都存在问题,最好的代理仅解决了 34.12% 的数据分析任务,并实现了 34.74% 的相对性能差距(RPG)。这些发现强调了进一步开发更实用、更智能和更自主的数据科学代理的必要性。
发布时间: 4/14/2025
查看原文
作者: Peter Slattery, Alexander K. Saeri, Emily A. C. Grundy, Jess Graham, Michael Noetel, Risto Uuk, James Dao, Soroush Pour, Stephen Casper, Neil Thompson
arXiv:2408.12622v2 宣告类型: 重新提交 摘要:人工智能(AI)带来的风险引起了学术界、审计师、政策制定者、AI公司以及公众的极大关注。然而,缺乏对AI风险的共同理解可能会阻碍我们全面讨论、研究和应对这些风险的能力。本文通过创建一个AI风险库来解决这一问题,以提供一个共同的参考框架。该库包含777种风险信息,这些信息是从43种分类中提取出来的,并可以根据两个总体分类进行筛选,通过我们的网站和在线表格轻松访问、修改和更新。我们以系统回顾现有的分类和其他结构化AI风险分类为基础,并通过专家咨询构建了我们的AI风险分类。我们使用最优框架综合方法开发了AI风险分类。我们的高层次因果分类将每种风险按其因果因素分类为:(1)实体:人类、AI;(2)意图性:有意、无意;(3)时间:部署前;部署后。我们的中级领域分类将风险分为七个AI风险领域:(1)歧视与毒性,(2)隐私与安全,(3)虚假信息,(4)恶意行为与误用,(5)人机交互,(6)社会经济与环境,以及(7)AI系统安全、故障与限制。这些进一步细分为23个子领域。据我们所知,AI风险库是首次尝试系统地整理、分析和提取AI风险框架,使其成为一个公共可访问的、全面的、可扩展且分类的风险数据库。这为更加协调、一致和完整的定义、审计和管理AI系统带来的风险奠定了基础。
发布时间: 4/14/2025
查看原文
作者: Diego Perez-Liebana, Katja Hofmann, Sharada Prasanna Mohanty, Noboru Kuno, Andre Kramer, Sam Devlin, Raluca D. Gaina, Daniel Ionita
arXiv:1901.08129v2 宣传类型: 修改 摘要:在多智能体场景中的学习是一个富有成效的研究方向,但当前的方法在具有通用奖励设置和不同对手类型的多个游戏中仍然存在扩展性问题。Malm\"O 多智能体强化学习竞赛(MARL\"O)是一个新的挑战,它提出了在多个3D游戏中研究该领域的可能性。该竞赛的目标是促进能够跨游戏和对手类型学习的一般智能体的研究,将其作为一个在通用人工智能方向上的里程碑挑战。
发布时间: 4/14/2025
查看原文
作者: Yanlin Wang, Kefeng Duan, Dewu Zheng, Ensheng Shi, Fengji Zhang, Yanli Wang, Jiachi Chen, Xilin Liu, Yuchi Ma, Hongyu Zhang, Qianxiang Wang, Zibin Zheng
arXiv:2504.08734v1 类型:交叉 摘要:代码智能是软件工程中的一个新兴领域,旨在提高各种代码相关任务的有效性和效率。最近的研究表明,在基本原始任务输入(即源代码)之外融入上下文信息可以显著提升模型性能。这些上下文信号可以从API文档或抽象语法树等来源直接或间接获得,可以显著提高代码智能的效果。尽管学术界对此领域表现出日益浓厚的兴趣,但仍缺乏对代码智能中上下文的系统分析。为解决这一问题,我们对2007年9月至2024年8月期间发表的146篇相关研究进行了广泛的文献回顾。我们的调查提出了四个主要贡献。(1)研究领域中研究报告的量化分析,包括出版趋势、出版平台和探讨的领域;(2)代码智能中使用的上下文类型的新分类;(3)面向任务的分析,调查各种代码智能任务中上下文整合策略;(4)对上下文感知方法的评估方法进行批判性评价。基于这些发现,我们识别了当前代码智能系统中上下文利用的基本挑战,并提出了一条未来研究的关键机会路线图。
发布时间: 4/14/2025
查看原文
作者: Sonia Joseph, Praneet Suresh, Ethan Goldfarb, Lorenz Hufe, Yossi Gandelsman, Robert Graham, Danilo Bzdok, Wojciech Samek, Blake Aaron Richards
arXiv:2504.08729v1 交叉类型: cross 摘要:尽管视觉模型的能力很强,但它们的内部机制仍然不甚了解——这是一个挑战,稀疏自编码器(SAEs)在语言领域帮助解决了这个问题,但在视觉领域中仍然处于未被充分探索的状态。我们通过在CLIP的视觉变压器上训练SAEs来填补这一空白,揭示了视觉处理与语言处理之间的重要差异,包括跨层和token类型训练的SAEs的不同稀疏模式。然后,我们通过引入度量方法进行了第一次系统分析,以量化SAE特征如何精确地被引导以影响模型的输出。我们发现10-15%的神经元和特征是可引导的,与基础模型相比,SAEs提供了数千个更多的可引导特征。通过有针对性地抑制SAE特征,我们展示了在三个视觉解缠任务(CelebA、Waterbirds和typographic攻击)上的性能改进,在中间模型层实现了最优解缠,并在对抗typographic攻击的防御上达到了最新的性能。
发布时间: 4/14/2025
查看原文
作者: Boyang Deng, Songyou Peng, Kyle Genova, Gordon Wetzstein, Noah Snavely, Leonidas Guibas, Thomas Funkhouser
arXiv:2504.08727v1 交叉类型: cross 摘要: 我们提出了一种使用多模态大语言模型(MLLMs)来分析包含数千万张不同时间拍摄的图像的大数据库,以发现时间变化中的模式。具体来说,我们旨在捕捉一段时间内整个城市频繁共现的变化("趋势")。与之前的视觉分析不同,我们的分析能够回答开放性查询(例如,“城市的频繁变化类型是什么?”)而无需预定义的目标主题或训练标签。这些特性使得之前的学习基于或无监督的视觉分析工具不再适用。我们认定MLLMs作为一种新型工具,因为它们具备开放性语义理解能力。然而,我们的数据集规模比MLLM能够接受的上下文大四数量级。因此,我们引入了一种自底向上的过程,将大规模的视觉分析问题分解为更可处理的子问题。我们精心设计了基于MLLM的解决方案来解决每个子问题。在实验和对系统的消融研究中,我们发现与基线相比,它表现显著更优,并且能够从大型城市拍摄的图像中发现有趣的趋势(例如,“露天就餐区的增加”、“立交桥被涂成蓝色”等)。更多结果和互动演示请访问 https://boyangdeng.com/visual-chronicles。
发布时间: 4/14/2025
查看原文
作者: Dayu Yang, Antoine Simoulin, Xin Qian, Xiaoyi Liu, Yuwei Cao, Zhaopu Teng, Grey Yang
arXiv:2504.08725v1 宣告类型: cross 摘要:高质量的代码文档对于软件开发尤其在人工智能时代至关重要。然而,使用大规模语言模型(LLMs)自动生成它们仍然具有挑战性,因为现有方法往往会产生不完整、无用或事实错误的输出。我们介绍了DocAgent,这是一种使用拓扑代码处理进行增量上下文构建的新型多智能体协作系统。然后,专门化智能体(阅读器、搜索者、撰写者、验证者、协调者)协同生成文档。我们还提出了一种多方面评估框架,评估完整度、有用性和真实性。全面的实验表明,DocAgent在所有基线方法上都显著表现出色。我们的消融研究证实了拓扑处理顺序的至关重要的作用。DocAgent为复杂且专有的代码库提供了可靠的代码文档生成方法。
发布时间: 4/14/2025
查看原文
作者: Sahil Sethi, David Chen, Thomas Statchen, Michael C. Burkhart, Nipun Bhandari, Bashar Ramadan, Brett Beaulieu-Jones
arXiv:2504.08713v1 交叉公告类型:交叉 摘要:基于深度学习的心电图(ECG)分类展现了令人印象深刻的表现,但由于缺乏透明和忠实的解释,其临床应用受到了限制。事后方法如显著性图可能无法反映模型的真实决策过程。基于原型的推理提供了一种更透明的替代方案,它将决策与学习的现实ECG片段表示的相似性联系起来,从而实现忠实的、基于案例的解释。我们引入了ProtoECGNet,这是一种用于可解释、多标签ECG分类的基于原型的深度学习模型。ProtoECGNet 使用一个结构化、多分支的体系结构,反映了临床解释工作流程:它结合了一个1D CNN和全局原型进行心律分类,一个2D CNN和时间局部原型进行基于形态推理,以及一个2D CNN和全局原型进行弥散异常分类。每个分支都是在设计用于多标签学习的原型损失下进行训练的,该损失结合了聚类、分离、多样性,并且包含一种新颖的对比损失,该损失鼓励对同一类中的原型进行适当的分离,同时允许对频繁共存的诊断进行聚类。我们对来自PTB-XL数据集的所有71个诊断标签进行了ProtoECGNet的评估,证明其相对于最先进的黑盒模型具有竞争力的表现,同时提供结构化的、基于案例的解释。为了评估原型质量,我们对最终模型的投影原型进行了结构化的临床审查,发现它们被评价为具有代表性且清晰。ProtoECGNet表明,原型学习可以有效地应用于复杂的多标签时间序列分类,为临床决策支持中的透明和可信赖的深度学习模型提供了一条实用的道路。
发布时间: 4/14/2025
查看原文
作者: Yiliu Sun, Yanfang Zhang, Zicheng Zhao, Sheng Wan, Dacheng Tao, Chen Gong
arXiv:2504.08690v1 宣布类型:交叉 摘要:如今,大型语言模型(LLMs)逐渐被用于解决复杂任务。为了应对这一挑战,任务分解已经成为一种有效的方法,即将一个复杂的任务分解为多个更简单的子任务,然后分别解决这些子任务,从而降低原始任务的难度。然而,当任务包含过于复杂的逻辑和约束时,现有的任务分解方法的性能可能并不理想。在这种情况下,LLMs生成的解决方案可能偏离原始任务的目的,或者包含冗余甚至错误的内容。因此,基于人类拥有两种思维系统——快速思考和慢速思考的事实,本文提出了一种新的任务分解方法,称为“快速-慢速思考”(FST),该方法通过快速思考(FT)和慢速思考(ST)步骤的协同工作来激发LLMs解决任务。在FT步骤中,LLMs被提示去除原始任务的约束,从而使任务简化为一个一般性和简洁性更强的任务。在ST步骤中,我们重新回忆FT步骤中去除的约束,从而使LLMs能够改进FT步骤生成的答案,以满足原始任务的要求。因此,我们的FST方法使LLMs能够通过从粗到细的人类认知过程来考虑复杂问题,这一点已经在对三种类型任务的实验中得到了充分的证明。
发布时间: 4/14/2025
查看原文
作者: Jiho Kim, Philippe Laban, Xiang 'Anthony' Chen, Kenneth C. Arnold
arXiv:2504.08687v1 交叉公告类型 摘要:写好文章不仅需要表达想法,还需要通过修订来精炼这些想法,这一过程可以通过反思来促进。先前的研究表明,通过对话形式提供的反馈,如写作中心辅导中的反馈,可以帮助作者比静态反馈更认真地反思自己的作品。最近,多模态大型语言模型(LLMs)的进步为支持基于互动和表达的语音反思提供了新的可能性。特别是,我们提出了这样一个观点:由LLM生成的静态反馈可以改用于对话的起点,使作者能够寻求澄清、请求示例并提出后续问题,从而促进对写作更深层次的反思。我们认为,基于语音的互动自然地促进了这种对话交流,鼓励作者对更深层次的关切进行参与,促进他们反思的迭代精炼,并且与基于文本的互动相比,减少了认知负荷。为了研究这些影响,我们提出了一项形成性研究,探讨文本输入与语音输入如何影响作者的反思以及随后的修订。这项研究的结果将指导智能和互动写作工具的设计,并提供有关如何利用由LLM驱动的对话代理进行的基于语音的互动来支持反思和修订的见解。
发布时间: 4/14/2025
查看原文