arXiv 论文列表

作者: Akshar Prabhu Desai, Tejasvi Ravi, Mohammad Luqman, Mohit Sharma, Nithya Kota, Pranjul Yadav

机器学习和数据挖掘技术（例如监督和非监督技术）被跨领域地用于检测用户安全违规行为。例如，分类器用于检测电子邮件是否为垃圾邮件或网页是否请求银行登录信息。然而，现有的机器学习/数据挖掘分类器在理解自然语言的上下文和细微之处方面能力有限。随着生成式人工智能 (Gen-AI) 技术的出现及其在语言翻译、跨各种任务和领域的微调方面的固有能力，上述挑战得到了克服。本文对使用 Gen-AI 技术进行用户安全方面工作的各种研究进行了全面概述。具体来说，我们首先介绍了 Gen-AI 技术已应用于的各个领域（例如，网络钓鱼、恶意软件、内容审核、假冒伪劣、人身安全）。接下来，我们介绍了如何将 Gen-AI 技术与各种数据模式（即文本、图像、视频、音频、可执行二进制文件）结合使用以检测用户安全违规行为。此外，我们还概述了如何在对抗环境中使用 Gen-AI 技术。我们相信这项工作代表了对用于用户安全的 Gen-AI 技术的首次总结。

发布时间: 11/26/2024

查看原文

离线多智能体强化学习交通信号控制框架OffLight

作者: Rohit Bokade, Xiaoning Jin

高效的交通控制 (TSC) 对城市交通至关重要，但传统系统难以应对现实世界交通的复杂性。多智能体强化学习 (MARL) 提供了自适应解决方案，但在线 MARL 需要与环境进行大量交互，这使其成本高昂且不切实际。离线 MARL 通过使用历史交通数据进行训练来减轻这些挑战，但面临着现实世界数据集中异构行为策略带来的重大困难，其中混合质量的数据使学习复杂化。我们引入了 OffLight，这是一个新颖的离线 MARL 框架，旨在处理 TSC 数据集中异构的行为策略。为了提高学习效率，OffLight 结合了重要性采样 (IS) 来校正分布偏移，并结合基于回报的优先采样 (RBPS) 来关注高质量的经验。OffLight 利用高斯混合变分图自动编码器 (GMM-VGAE) 来捕获局部观察中行为策略的多样化分布。在现实世界城市交通场景中的大量实验表明，OffLight 优于现有的离线 RL 方法，平均行程时间减少了高达 7.8%，排队长度减少了 11.2%。消融研究证实了 OffLight 的组件在处理异构数据和改进策略性能方面的有效性。这些结果突出了 OffLight 的可扩展性和在无需在线学习风险的情况下改善城市交通管理的潜力。

发布时间: 11/26/2024

查看原文

基于网络流模型求解单元制造系统中的广义分组问题

作者: Md. Kutub Uddin, Md. Saiful Islam, Md Abrar Jahin, Md. Saiful Islam Seam, M. F. Mridha

本文关注于单元制造系统(CMS)中零件可能具有多种加工路线的广义分组问题。加工路线列出了对应于每个零件操作的机器。受网络流算法广泛应用的启发，本研究将广义分组的加工路线族形成问题表述为单位容量最小成本网络流模型。目标是最小化族内加工路线之间（基于所需机器）的差异性。所提出的模型能够在不预先指定要形成的零件族数量的情况下，最优地解决加工路线族形成问题。加工路线族形成是分层程序的第一阶段。对于第二阶段（机器单元形成），提出了两种方法：二次分配规划 (QAP) 公式和启发式方法。QAP 同时将加工路线族和机器分配给预先指定数量的单元，以最大限度地提高机器利用率。机器单元形成的启发式方法本质上是分层的。一些测试问题的计算结果表明，QAP 和启发式方法产生了相同的结果。

发布时间: 11/26/2024

查看原文

基于多层次分层选项的加速任务泛化

作者: Thomas P Cannon, \"Ozg\"ur Simsek

创造能够有效泛化到新任务的强化学习智能体是人工智能研究中的一个关键挑战。本文介绍了断裂簇选项（FraCOs），这是一种多层次分层强化学习方法，在困难的泛化任务上取得了最先进的性能。FraCOs识别智能体行为中的模式，并基于这些模式的预期未来效用形成选项，从而能够快速适应新任务。在表格设置中，FraCOs展示了有效的迁移能力，并且随着层次深度的增加，其性能也得到提升。我们在几个复杂的程序生成环境中，将FraCOs与最先进的深度强化学习算法进行了评估。我们的结果表明，FraCOs在分布内和分布外都取得了比竞争对手更高的性能。

发布时间: 11/26/2024

查看原文

生成式人工智能在金融领域的机遇与挑战

作者: Akshar Prabhu Desai, Ganesh Satish Mallya, Mohammad Luqman, Tejasvi Ravi, Nithya Kota, Pranjul Yadav

生成式人工智能（Gen-AI）技术能够提升对语言模型中上下文和细微差别的理解，改进跨语言翻译，处理海量数据，提供快速、低延迟的响应，并且可以针对各种任务和领域进行微调。本文全面概述了生成式人工智能技术在金融领域的应用，特别是介绍了使用生成式人工智能技术的机遇和挑战。我们还阐述了可用于训练生成式人工智能技术的各种方法，并介绍了生成式人工智能技术在金融生态系统中的各种应用领域。据我们所知，这项工作代表了对金融领域内生成式人工智能技术最全面的总结。该分析旨在深入概述那些有望取得重大进展的领域，同时指出那些需要未来优先考虑的领域。我们还希望这项工作能够成为金融领域与其他领域之间的桥梁，从而促进创新理念和实践的交叉融合。

发布时间: 11/26/2024

查看原文

动态智能评估：以模型置信度为重点，在通往通用人工智能的道路上对大型语言模型进行基准测试

作者: Norbert Tihanyi, Tamas Bisztray, Richard A. Dubniczky, Rebeka Toth, Bertalan Borsos, Bilel Cherif, Mohamed Amine Ferrag, Lajos Muzsai, Ridhi Jain, Ryan Marinelli, Lucas C. Cordeiro, Merouane Debbah, Vasileios Mavroeidis, Audun Josang

随着机器智能的发展，测试和比较不同人工智能模型解决问题能力的需求日益增长。然而，目前的基准测试往往过于简单，导致模型表现一致良好，难以区分其能力。此外，基准测试通常依赖于模型可能记住或猜测的静态问答对。为了解决这些局限性，我们引入了动态智能评估 (DIA) ，这是一种使用动态问题模板和改进的指标来测试人工智能模型的新方法，涵盖数学、密码学、网络安全和计算机科学等多个学科。配套的数据集 DIA-Bench 包含各种具有可变参数的挑战模板，以多种格式呈现，包括文本、PDF、编译后的二进制文件、视觉谜题和 CTF 风格的网络安全挑战。我们的框架引入了四个新的指标来评估模型在多次尝试中的可靠性和置信度。这些指标表明，即使是简单的题，当以不同的形式提出时也经常被错误地回答，这突显了模型可靠性方面的显著差距。值得注意的是，像 GPT-4o 这样的 API 模型往往高估了自身的数学能力，而 ChatGPT-4o 由于有效地使用了工具而表现更好。在自我评估方面，OpenAI 的 o1-mini 证明了其在判断应该尝试解决哪些任务方面具有最佳判断力。我们使用 DIA-Bench 评估了 25 个最先进的大型语言模型 (LLM)，结果表明，当前模型难以应对复杂任务，并且即使面对更简单的题目，也常常表现出意想不到的低置信度。DIA 框架为评估模型的解决问题能力、适应性智能以及评估自身局限性的能力设定了一个新标准。该数据集已在项目页面公开发布：https://github.com/DIA-Bench。

发布时间: 11/26/2024

查看原文

利用预训练基础模型培养强化学习中的内在动机

作者: Alain Andres, Javier Del Ser

大型语言模型（LLM）已经在许多自然语言处理任务中取代了传统方法。然而，在命名实体识别（NER）中，现有的基于LLM的方法…… 强化学习中的探索仍然是一个重大挑战，尤其是在外部奖励稀疏或不存在的环境中。近年来基础模型（如CLIP）的兴起，为利用预训练的、语义丰富的嵌入提供了机会，这些嵌入封装了广泛且可重用的知识。在这项工作中，我们探索了这些基础模型不仅可以驱动探索，还可以分析情景新颖性项在增强智能体探索有效性方面的关键作用的潜力。我们还研究了向内在模块提供完整的状态信息（而不仅仅是部分观察）是否可以改善探索，尽管处理大型状态空间内的小变化存在困难。我们在MiniGrid领域进行的实验表明，内在模块可以有效地利用完整的状态信息，在学习最优策略的同时显著提高样本效率。此外，我们表明，基础模型提供的嵌入有时甚至比智能体在训练过程中构建的嵌入更好，进一步加快了学习过程，尤其是在与情景新颖性项结合以增强探索时。

发布时间: 11/26/2024

查看原文

OM4OV：利用本体匹配进行本体版本控制

作者: Zhangcheng Qiang, Kerry Taylor, Weiqing Wang

由于语义网的动态特性，本体版本控制对于捕获随时间变化的信息（尤其对于广泛使用的本体）是必需的。尽管长期以来人们都认识到本体版本控制 (OV) 是有效本体管理的关键组成部分，但本体规模的不断增长以及人工造成的累积错误使当前的 OV 方法不堪重负。在本文中，我们提出了一种使用现有本体匹配 (OM) 技术和系统执行 OV 的方法。我们引入了一个统一的 OM4OV 管道。从 OM 的角度来看，我们重建了 OV 任务的新的任务制定、度量和测试平台。通过重用 OM 中先前的比对结果，我们提出了一种名为交叉引用 (CR) 机制的管道优化方法，以提高整体 OV 性能。我们在修改后的本体比对评估倡议 (OAEI) 数据集上对 OM4OV 管道和交叉引用机制进行了实验验证。我们还讨论了将 OM 用于 OV 任务的见解，其中 OV 系统检测到的一些错误映射实际上并非错误。

发布时间: 11/26/2024

查看原文

EAIRiskBench：用于评估基于基础模型的具身AI智能体任务规划中物理风险感知能力的基准测试

作者: Zihao Zhu, Bingzhe Wu, Zhengyou Zhang, Lei Han, Baoyuan Wu

具身人工智能 (EAI) 将先进的 AI 模型集成到物理实体中以进行现实世界交互。基础模型作为 EAI 智能体进行高级任务规划的“大脑”的出现已显示出可喜的结果。然而，将这些智能体部署到物理环境中带来了重大的安全挑战。例如，缺乏足够风险意识的保洁机器人可能会将金属容器放入微波炉中，从而可能引发火灾。为了解决这些关键的安全问题，部署前的全面风险评估势在必行。本研究介绍了 EAIRiskBench，这是一种用于自动评估 EAI 场景中物理风险的新框架。EAIRiskBench 采用多智能体协作系统，利用各种基础模型来生成安全指南、创建易发生风险的场景、进行任务规划并系统地评估安全。利用该框架，我们构建了 EAIRiskDataset，其中包含来自各个领域的各种测试案例，包括文本和视觉场景。我们对最先进的基础模型的综合评估揭示了令人担忧的结果：所有模型都表现出较高的任务风险率 (TRR)，所有评估模型的平均值为 95.75%。为了应对这些挑战，我们进一步提出了两种基于提示的风险缓解策略。虽然这些策略在降低 TRR 方面显示出一定的效果，但改进有限，仍然表明存在重大的安全问题。这项研究首次对 EAI 智能体的物理风险意识进行了大规模评估。我们的研究结果强调了 EAI 系统中增强安全措施的迫切需要，并为未来在开发更安全的具身人工智能系统方面的研究方向提供了宝贵的见解。数据和代码可在 https://github.com/zihao-ai/EAIRiskBench 获取。

发布时间: 11/26/2024

查看原文

本体映射查询回答中的Shapley值计算

作者: Meghyn Bienvenu, Diego Figueira, Pierre Lafourcade

Shapley值最初在合作博弈论中用于财富分配，现已用于知识表示和数据库中，用于根据公式和数据库元组对获取查询结果或不一致性的贡献来为其分配分数。本文探讨了Shapley值在本体介导查询回答 (OMQA) 中的应用，并对OMQA设置下的Shapley值计算 (SVC) 进行了详细的复杂性分析。特别是，我们为由本体T（用描述逻辑ELHI⊥公式化）和一个连通的无常量同态封闭查询q组成的本体介导查询(T,q)的SVC建立了一个PF/#P-hard二分法。我们进一步表明，二分法的#P-hard部分可以加强到涵盖可能不连通的包含常量的查询。我们的结果利用了最近发现的SVC和概率查询评估之间的联系，并使我们能够推广概率OMQA的现有结果。

发布时间: 11/26/2024

查看原文