arXiv:2504.15564v1 类型: cross
摘要: 近期在大型语言模型(LLMs)方面的进展显示了其在代码生成任务中的有希望的能力。然而,目前大多数现有的基准主要集中在孤立的函数上,并未能捕捉到现实世界中类级软件结构的复杂性。为了弥补这一差距,我们引入了一个大规模的、从13,174个开源项目中精选的Python类级数据集。该数据集包含超过842,000个类骨架,每个骨架包括类和方法签名,如果可用的话,还包括相关的文档字符串。我们保留了对于现实软件开发情景至关重要的结构和上下文依赖性,并通过静态代码指标丰富了数据集,以支持下游分析。为了评估数据集的价值,我们使用提取的类骨架作为GPT-4的提示,生成完整的类实现。结果显示,LLM生成的类在词法和结构上与人类编写的版本表现出很强的相似性,分别的ROUGE@L、BLEU和TSED得分为0.80、0.59和0.73。这些发现证实,从真实世界的类骨架中推导出的结构良好提示,显著增强了LLM在类级代码生成方面的性能。该数据集为在现实软件工程情境下评估、训练和改进LLM提供了宝贵资源。
arXiv:2504.15549v1 宣告类型: cross
摘要: 基于大型语言模型的在应用辅助程序或搭档可以自动化软件任务,但用户通常更倾向于通过实践学习,这引发了关于有效用户界面所需自动化程度的优化水平的问题。我们通过设计并实现了全自动化搭档(AutoCopilot)和半自动化搭档(GuidedCopilot),后者自动化了简单步骤并提供了逐步的视觉指导,来研究两种自动化范式。在一项包括20名用户的用户研究中,涉及数据分析和视觉设计任务,GuidedCopilot在用户控制、软件实用性和易学性方面优于AutoCopilot,尤其是在探索性和创造性任务方面,而AutoCopilot在简单的视觉任务上节省了时间。后续的设计探索(涉及10名用户)增强了GuidedCopilot,添加了任务和状态感知特性,包括上下文相关的预览片段和自适应指令。我们的研究结果强调了在设计下一代能够提高生产力、支持多样化技能水平并促进更深层次软件参与的搭档时,用户控制和个性化指导的关键作用。
arXiv:2504.15546v1 Announce Type: cross
摘要:大型语言模型(LLMs)使自主代理能够利用外部工具或功能执行复杂的流程工作,这些工具或功能通常通过企业系统中的REST API提供。然而,直接将这些API作为工具使用面临着挑战,因为它们具有复杂的输入模式、详尽的响应以及经常模糊不清的文档。当前的工具测试基准没有充分解决这些问题的复杂性,导致在评估基于代理的自动化中API的准备度方面存在关键空白。在本工作中,我们提出了一种新型测试框架,旨在评估和提高REST API作为基于LLM的代理工具的功能准备度。该框架将API转换为工具,生成全面的测试用例,将测试用例转化为适合代理的自然语言指令,丰富工具定义并评估代理正确调用API、处理输入和响应的能力。为了提供可操作的见解,我们分析了750个测试用例的结果,并介绍了详细的错误分类,包括输入误解、输出处理不一致和模式不匹配。此外,我们将这些测试用例进行分类,以便于调试和工具集成的优化。本工作为企业API作为工具的启用提供了基础步骤,提高了它们在基于代理的应用程序中的可用性。
arXiv:2504.15524v1 宣传类型: cross
摘要:知识产权(IP)是一个将技术知识和法律知识相结合的独特领域,这使得它本身具有固有的复杂性和知识密集性。随着大型语言模型(LLMs)的不断发展,它们在处理IP任务方面显示出巨大的潜力,能够使IP相关信息的分析、理解和生成更加高效。然而,现有的数据集和基准测试要么专注专利,要么仅覆盖IP领域有限的方面,缺乏与现实场景的对齐。为了弥合这一差距,我们介绍了首个全面的IP任务分类法和一个大型、多元化的双语基准数据集IPBench,涵盖了8种IP机制和20项任务。该基准数据集旨在评估LLMs在知识产权领域的实际应用,涵盖了理解和生成两方面。我们测试了16个不同类型的LLMs,从通用模型到特定领域模型,发现即使表现最好的模型也仅能达到75.8%的准确率,显示出改进的极大空间。值得注意的是,开源的IP和法律导向的模型落后于闭源的通用模型。我们已公开发布了IPBench的所有数据和代码,并将持续增加与知识产权领域现实挑战相关的任务,以更好地反映实际挑战。
arXiv:2504.15515v1 宣布类型: cross
摘要: 我们定义了一类测度,在一维样本空间中用于度量概率密度函数之间的差异。这种构造基于将一个密度函数推送到另一个密度函数的映射函数的雅可比算子的凸函数。我们将这类信息测度称为“运输 $f$-散度”。我们介绍了运输 $f$-散度的一些性质,包括不变性、凸性、变分形式以及关于映射函数的泰勒展开。提供了生成模型中运输 $f$-散度的例子。
arXiv:2504.15499v1 宣布类型: cross
摘要: 随着人工智能模型在金融、医疗保健和军事等关键领域中的嵌入,它们不可预测的行为给社会带来了越来越大的风险。为了减轻这种风险,我们提出了Guillotine,一种用于隔离强大人工智能模型的虚拟机架构——这些模型因意外或恶意行为,可能会对人类构成生存威胁。虽然Guillotine借鉴了一些众所周知的虚拟化技术,但Guillotine也需要引入根本上的新隔离机制以应对由生存风险人工智能所带来的独特威胁模型。例如,一个误操作的人工智能可能会试图反向探究虚拟机软件或支持虚拟机软件的底层硬件基础,以便在以后反向侵入控制平面;因此,Guillotine虚拟机软件需要谨慎地设计与支持虚拟机软件的CPU、内存、网卡和存储设备之间的协同,以防止侧信道泄露,并且更广泛地消除人工智能利用反射性漏洞的机制。除了在软件、网络和微架构层面的隔离之外,Guillotine虚拟机还必须提供更常见的物理应急措施,类似于核电厂、航空平台和其他关键任务系统的应急措施。例如,物理应急措施可能涉及断开网络电缆的机电连接,或者淹没持有误操作人工智能的数据中心,以在软件、网络和微架构隔离被突破且必须暂时关闭或永久销毁一个误操作人工智能时提供多层次防御。
arXiv:2504.15497v1 宣传类型: 交叉
摘要:本文提出了一种自动化和加速恶意软件分类的基础框架,更具体地说,是将恶意执行文件映射到已知的高级持久性威胁(APT)组。该分析的主要特点是存在于执行文件中的汇编级指令,也被称为操作码。收集恶意样本中的这些操作码是一个耗时的过程;因此,利用可以利用并行计算的脚本与开源逆向工程工具结合使用,同时分析多个文件。传统和深度学习模型被应用于创建能够分类恶意软件样本的模型。构造了一gram和两gram数据集,并用于训练支持ngram序列的SVM、KNN和决策树等模型;然而,它们在不依赖元数据支持的情况下提供充分结果的能力较弱。通过使用卷积神经网络(CNN)克服了这些模型的计算限制,并使用图形计算单元(GPU)资源大幅度加速了计算。
arXiv:2504.15485v1 交叉公告类型:cross
摘要:识别和推理被遮挡(部分或完全隐藏)的对象对于理解视觉场景至关重要,因为遮挡在现实环境中的经常发生,并且作为空间理解的障碍。为了测试模型在推理多个遮挡对象方面的能力,我们引入了一个新的任务——通过未见过的区域识别模式中的物体数量(CAPTURe),要求模型通过推断遮挡器(阻挡场景部分的物体)背后的模式延续来计算按模式排列的物体数量。CAPTURe 要求识别视觉模式并进行推理,使其成为评估视觉语言模型(VLMs)是否理解和具备空间理解能力的有用测试平台。通过要求模型推理遮挡对象,CAPTURe 也测试了 VLMs 形成世界模型的能力,这将使它们能够填补缺失信息。CAPTURe 由两部分组成:(1)CAPTURe-real,包含手工筛选的真实物体的模式图像;(2)CAPTURe-synthetic,一个包含生成的模式图像的受控诊断测试。我们评估了四种强大的 VLMs(GPT-4o、Intern-VL2、Molmo 和 Qwen2-VL)在 CAPTURe 上的表现,发现模型在遮挡和未遮挡的模式中都很难计数。 crucial 地,我们发现模型在遮挡方面的表现更差,这表明 VLMs 在推断未见的空间关系方面也存在缺陷:即使是最强大的 VLMs,如 GPT-4o 在遮挡情况下也无法计数。相比之下,我们发现人类在 CAPTURe 中几乎不会犯错。我们还发现,提供被遮挡物体位置的辅助信息可以提高性能,这表明模型错误来自无法处理遮挡以及在图像中进行计数的难度。
arXiv:2504.15440v1 Announce Type: 前交叉
摘要:本文使用 OpenRouter 的数据(一个重要的大型语言模型市场交易平台)记录了关于对大型语言模型(LLMs)需求的三个简化事实。首先,新模型经历快速的初始采用,在几周内趋于稳定。第二,模型发布的吸引力有所不同,有些主要吸引新用户,而有些则主要替代竞争对手模型的需求。第三,应用程序同时使用多个模型的情况很常见。这些发现表明,LLM 市场在横向和纵向方面存在显著差异,暗示即使在技术快速进步的情况下,供应商仍然有机会保持需求和价格优势。
arXiv:2504.15431v1 Announce Type: cross
摘要:我们介绍了Trillion-7B,这是目前最高效的以韩语为中心的多语言大语言模型。我们新颖的跨语文档注意力(XLDA)机制能够高效且有效地将英语知识转移到目标语言如韩语和日语。结合优化的数据混合、语言特定的过滤和定制的分词器构建,Trillion-7B 在仅将 10% 的训练 tokens(共计 2T)用于多语言数据的情况下实现了具有竞争力的表现,并且只需要 59.4K H100 GPU 小时(约 $148K)即可完成全部训练。多语言基准测试中的全面评估显示了Trillion-7B 的稳健的多语言性能和卓越的跨语言一致性。