arXiv 论文列表

作者: Thulitha Senevirathna, Vinh Hoa La, Samuel Marchal, Bartlomiej Siniarski, Madhusanka Liyanage, Shen Wang

随着 5G 商业化的到来，下一代超越 5G (B5G) 无线接入技术需要更可靠、更快、更智能的电信系统。人工智能 (AI) 和机器学习 (ML) 在服务层应用中非常流行，并且已被提出作为 5G 及其后网络许多方面的必要推动者，从物联网设备和边缘计算到基于云的基础设施。然而，现有的基于 5G ML 的安全调查往往更强调 AI/ML 模型的性能和准确性，而不是模型的责任和可信度。相比之下，本文探讨了可解释人工智能 (XAI) 方法的潜力，这将使 5G 及其后的利益相关者能够检查用于保护下一代网络的智能黑盒系统。在 5G 及其后的安全领域使用 XAI 的目标是使基于 ML 的安全系统的决策过程对 5G 及其后的利益相关者透明且易于理解，从而使系统对其自动化行为负责。在即将到来的 B5G 时代的各个方面，包括 B5G 技术，如 ORAN、零接触网络管理和端到端切片，本调查强调了 XAI 在其中的作用，最终将使普通用户受益。此外，我们还介绍了最近努力的经验教训和未来研究方向，这些方向建立在当前涉及 XAI 的项目之上。

发布时间: 10/1/2024

查看原文

智能道路车辆驾驶无监督风险诊断的自动聚类

作者: Xiupeng Shi, Yiik Diew Wong, Chen Chai, Michael Zhi-Feng Li, Tianyi Chen, Zeng Zeng

早期风险诊断和车辆流中的驾驶异常检测对于智能道路和碰撞预防等一系列高级解决方案具有重要意义，但存在内在挑战，特别是缺乏真实数据和对多种风险暴露的定义。本研究提出了一种特定领域的自动聚类方法（称为 Autocluster），用于自学习无监督风险评估的最佳模型，该方法将风险聚类的关键步骤集成到一个可自动优化的管道中，包括特征和算法选择、超参数自动调整。首先，基于代理冲突度量，进行指标引导的特征提取，构建时空和运动学风险特征。然后，我们开发了一种基于消除的模型依赖性重要性（EMRI）方法来无监督地选择有用特征。其次，我们提出了平衡轮廓指数（bSI）来评估不平衡聚类的内部质量。设计了一个损失函数，该函数考虑了聚类性能，包括内部质量、集群间变异和模型稳定性。第三，基于贝叶斯优化，算法选择和超参数自动调整是自学习的，以生成最佳的聚类分区。对各种算法进行了全面研究。本文使用 NGSIM 车辆轨迹数据作为测试平台。结果表明，Autocluster 能够可靠且有效地诊断出一般驾驶行为中固有的多种不同风险暴露。此外，我们还深入研究了风险聚类，例如算法异质性、轮廓分析、层次聚类流程等。同时，Autocluster 也是一种用于无监督多风险数据标注和指标阈值校准的方法。此外，Autocluster 可用于解决不平衡聚类中没有真实数据或先验知识的挑战。

发布时间: 10/1/2024

查看原文

UniEmoX：跨模态语义引导的大规模预训练模型，用于通用场景情感感知

作者: Chuang Chen, Xiao Sun, Zhi Liu

视觉情感分析在计算机视觉和心理学领域都具有重要的研究价值。然而，现有的视觉情感分析方法由于情感感知的模糊性和数据场景的多样性，其泛化能力有限。为了解决这个问题，我们引入了 UniEmoX，这是一个跨模态语义引导的大规模预训练框架。UniEmoX 受心理研究的启发，强调情感探索过程与个体与其环境之间相互作用的不可分割性，将场景中心和人物中心低级图像空间结构信息整合在一起，旨在推导出更细致和更有辨别力的情感表示。通过利用成对和不成对图像文本样本之间的相似性，UniEmoX 从 CLIP 模型中提取丰富的语义知识，以更有效地增强情感嵌入表示。据我们所知，这是第一个将心理理论与当代对比学习和掩码图像建模技术相结合的大规模预训练框架，用于跨不同场景的情感分析。此外，我们开发了一个名为 Emo8 的视觉情感数据集。Emo8 样本涵盖了漫画、自然、现实、科幻和广告封面风格等多个领域，涵盖了几乎所有常见的情感场景。在两个下游任务的六个基准数据集上进行的综合实验验证了 UniEmoX 的有效性。源代码可在 https://github.com/chincharles/u-emo 获取。

发布时间: 10/1/2024

查看原文

基于深度强化学习的视频游戏语义聚类探索

作者: Liang Zhang, Adarsh Pyarelal, Justin Lieffers

本文探讨了深度强化学习（DRL）在电子游戏中的语义聚类特性，深化了我们对DRL内部机制的理解，并提升了其可解释性。在此背景下，语义聚类是指神经网络内部根据语义相似性对视频输入进行分组的内在能力。为此，我们提出了一种新颖的DRL架构，该架构集成了一个语义聚类模块，该模块兼具特征降维和在线聚类功能。该模块无缝地集成到DRL训练流程中，解决了之前基于t-SNE的分析方法中观察到的不稳定性问题，并消除了对语义分析进行大量人工标注的必要性。通过实验，我们验证了所提模块的有效性和DRL在电子游戏中的语义聚类特性。此外，基于这些特性，我们引入了新的分析方法，以帮助理解策略的层次结构和特征空间中的语义分布。

发布时间: 10/1/2024

查看原文

低比特大型语言模型综述：基础、系统和算法

作者: Ruihao Gong, Yifu Ding, Zining Wang, Chengtao Lv, Xingyu Zheng, Jinyang Du, Haotong Qin, Jinyang Guo, Michele Magno, Xianglong Liu

大型语言模型（LLMs）在自然语言处理领域取得了显著进展，在各种任务中展现出卓越的性能。然而，其昂贵的内存和计算需求给实际部署带来了重大挑战。低比特量化作为一种关键方法应运而生，通过降低模型参数、激活值和梯度的比特宽度来减少内存使用和计算量。本文对针对 LLMs 的低比特量化方法进行了全面综述，涵盖了基本原理、系统实现和算法策略。首先介绍了低比特 LLMs 的基本概念和特定数据格式概述，然后回顾了在各种硬件平台上促进低比特 LLMs 的框架和系统。接着，我们对高效低比特 LLM 训练和推理的技术和工具进行了分类和分析。最后，我们讨论了低比特 LLMs 的未来趋势和潜在进展。我们从基础、系统和算法角度进行的系统性概述，可以为未来工作提供有价值的见解和指导，以通过低比特量化提高 LLMs 的效率和适用性。

发布时间: 10/1/2024

查看原文

面向话语层级的文学翻译：上下文感知和风格相关增量解码框架

作者: Yuanchang Luo, Jiaxin Guo, Daimeng Wei, Hengchao Shang, Zongyao Li, Zhanglin Wu, Zhiqiang Rao, Shaojun Li, Jinlong Yang, Hao Yang

本报告概述了我们针对 WMT24 话语级文学翻译任务的方案，重点关注约束赛道中的中英语言对。文学作品的翻译面临着巨大的挑战，因为这类作品中存在着细微的含义、习语表达和复杂的叙事结构。为了应对这些挑战，我们利用了中文-Llama2 模型，并通过持续预训练 (CPT) 和监督微调 (SFT) 的结合，专门增强了该模型以适应此任务。我们的方法包括一个新颖的增量解码框架，该框架确保每个句子在翻译时都考虑其更广泛的语境，从而在整个文本中保持连贯性和一致性。这种方法使模型能够捕获长距离依赖关系和风格元素，从而生成忠实保留原文文学品质的译文。我们的实验表明，句子级和文档级 BLEU 分数都获得了显著的提升，这突出了我们提出的框架在应对文档级文学翻译复杂性方面的有效性。

发布时间: 10/1/2024

查看原文

基于视频降噪扩散和结构识别器的非线性多材料机械超材料逆向设计

作者: Jaewan Park, Shashank Kushwaha, Junyan He, Seid Koric, Qibang Liu, Iwona Jasiuk, Diab Abueidda

超材料凭借其定制化的特性，在增材制造技术的推动下已成为一个极具潜力的领域。这些材料的独特力学特性源于其内部晶格结构，而这些结构通常由多种材料以几何图案重复排列而成。虽然传统的逆向设计方法已展现出潜力，但它们难以将非线性材料行为映射到多种可能的结构配置。本文提出了一种利用视频扩散模型（一种生成式人工智能）进行基于非线性应力-应变响应的逆向多材料设计的新框架。我们的方法包含两个关键部分：（1）使用视频扩散模型的场生成器，根据目标非线性应力-应变响应创建解场；（2）使用两个UNet模型的结构识别器，确定相应的二维多材料设计。通过整合多种材料、塑性和大变形，我们的创新设计方法能够更好地控制超材料的非线性力学行为，这种行为在现实世界应用中十分常见。它为生成具有精细调整的力学特性的下一代超材料提供了一种有前景的解决方案。

发布时间: 10/1/2024

查看原文

基于布尔矩阵逻辑编程的双基因功能主动学习

作者: Lun Ai, Stephen H. Muggleton, Shi-shun Liang, Geoff S. Baldwin

基于逻辑的机器学习技术应用于细胞工程，推动生物发现，该技术基于称为基因组规模代谢网络模型 (GEM) 的代谢过程综合数据库。预测的宿主行为并不总是能被 GEM 正确描述。学习 GEM 中错综复杂的基因相互作用带来了计算和经验上的挑战。为了解决这些问题，我们描述了一种名为布尔矩阵逻辑编程 (BMLP) 的新方法，该方法利用布尔矩阵来评估大型逻辑程序。我们引入了一个新系统 $BMLP_{active}$，该系统通过主动学习指导信息丰富的实验，从而高效地探索基因组假设空间。与亚符号方法相比，$BMLP_{active}$ 使用 datalog 逻辑程序以可解释和逻辑的方式编码了广泛接受的细菌宿主的最先进 GEM。值得注意的是，$BMLP_{active}$ 可以成功地学习基因对之间的相互作用，所需的训练示例数量少于随机实验，克服了实验设计空间的增加。$BMLP_{active}$ 使代谢模型能够快速优化，并为微生物工程的自驱动实验室提供了一种现实的方法。

发布时间: 10/1/2024

查看原文

面向文档分类的基于自动机器学习的实体和 LLM 表示融合方法

作者: Boshko Koloski, Senja Pollak, Roberto Navigli, Bla\v{z} \v{S}krlj

大型语义知识库以事实知识为基础。然而，最近的密集文本表示（即嵌入）方法并没有有效地利用这些资源。对文档进行密集且鲁棒的表示对于有效解决下游分类和检索任务至关重要。这项工作表明，从知识库中注入嵌入信息可以增强当代基于大型语言模型（LLM）的表示在文本分类任务中的性能。此外，通过考虑融合表示空间的自动机器学习（AutoML），我们证明即使使用通过有效矩阵分解获得的原始表示空间的低维投影，也可以提高分类精度。该结果表明，可以使用五个强大的 LLM 基线在六个不同的真实数据集上进行验证，可以实现速度明显更快的分类器，而预测性能几乎没有损失。代码可在 \url{https://github.com/bkolosk1/bablfusion.git} 免费获取。

发布时间: 10/1/2024

查看原文

GoNoGo：一种基于大型语言模型的、高效的多智能体系统，用于简化汽车软件发布决策

作者: Arsham Gholamzadeh Khoee, Yinan Yu, Robert Feldt, Andris Freimanis, Patrick Andersson Rhodin, Dhasarathy Parthasarathy

传统上，汽车行业软件部署决策通常依赖于对表格化软件测试数据的分析。由于人工密集，这种方法往往会导致软件发布周期成本更高、时间更长。大型语言模型 (LLM) 为这些挑战提供了一个有前景的解决方案。然而，它们的应用通常需要多轮人工驱动的提示工程，这限制了它们的实际部署，特别是对于需要可靠且高效结果的工业终端用户而言。本文提出 GoNoGo，一个旨在简化汽车软件部署并同时满足功能要求和实际工业约束的 LLM 代理系统。与之前的系统不同，GoNoGo 专为解决特定领域和风险敏感系统而设计。我们使用来自工业实践的零样本和少样本示例，评估了 GoNoGo 在不同任务难度下的性能。结果表明，GoNoGo 在使用 3 个样本的情况下，对于难度等级不超过 2 级的任务，成功率达到 100%，即使对于更复杂的任务，也保持着高性能。我们发现，GoNoGo 有效地自动化了对简单任务的决策，从而显著减少了人工干预的需要。总之，GoNoGo 代表了一种高效且用户友好的基于 LLM 的解决方案，目前已在我们工业合作伙伴公司中使用，以协助软件发布决策，为风险敏感的车辆系统发布过程提供更明智和及时的决策。

发布时间: 10/1/2024

查看原文