arXiv 论文列表

大型语言模型预测 2024 年印度全境夏季风降雨量将高于正常水平

作者: Ujjawal Sharma, Madhav Biyani, Akhil Dev Suresh, Debi Prasad Bhuyan, Saroj Kanta Mishra, Tanmoy Chakraborty

准确预测印度夏季风降雨量（AISMR）对于该国制定明智的政策至关重要，影响着数十亿人的生活。然而，由于各种多尺度因素的复杂相互作用以及季风系统固有的变异性，准确模拟 AISMR 一直是一个持久的挑战。本研究重点关注最新 LLM 模型 PatchTST 的调整和微调，以准确预测 AISMR，提前三个月。微调后的 PatchTST 模型使用历史 AISMR 数据、Niño3.4 指数和分类印度洋偶极子值进行训练，其性能优于几种流行的神经网络模型和统计模型。这种微调后的 LLM 模型表现出异常低的 RMSE 百分比（0.07%）和斯皮尔曼相关性（0.976）。这尤其令人印象深刻，因为它比性能最好的 NN 模型准确率高出近 80%。该模型预测 2024 年季风将高于正常水平，6 月至 9 月期间全国降雨量累计为 921.6 毫米。

发布时间: 9/26/2024

查看原文

LLaMa-SciQ：一款用于回答科学多项选择题的教育聊天机器人

作者: Marc-Antoine Allard, Matin Ansaripour, Maria Yuffa, Paul Teiletche

大型语言模型 (LLMs) 在许多自然语言处理任务中取代了传统方法。然而，在命名实体识别 (NER) 中，现有的基于 LLMs 的方法...

发布时间: 9/26/2024

查看原文

非平稳 BERT：探索增强型 IMU 数据以实现鲁棒的人体活动识别

作者: Ning Sun, Yufei Wang, Yuwei Zhang, Jixiang Wan, Shenyue Wang, Ping Liu, Xudong Zhang

由于移动设备的普及以及对用户日常活动数据进行观察以实现更好的用户与计算机交互的需求，人类活动识别（HAR）已成为研究人员关注的焦点。本文收集了一个名为 OPPOHAR 的人类活动识别数据集，该数据集包含手机 IMU 数据。为了促进 HAR 系统在手机中的应用并实现用户特定的活动识别，我们提出了一种称为非平稳 BERT 的新型轻量级网络，并采用两阶段训练方法。我们还提出了一种简单但有效的数据增强方法，以探索 IMU 中加速度计和陀螺仪数据之间的更深层关系。该网络在各种活动识别数据集上实现了最先进的性能测试，数据增强方法证明了其广泛的适用性。

发布时间: 9/26/2024

查看原文

基于多数据集分类的医疗电子记录深度学习框架及其预测分析

作者: Syed Mohd Faisal Malik, Md Tabrez Nafis, Mohd Abdul Ahad, Safdar Tanweer

在当今的医疗保健领域，为了保护患者数据，电子健康记录已成为宝贵的存储库，为利用深度学习技术进行预测分析创造了巨大的机会。通过将深度学习技术整合到对不同数据集的分类中，视网膜眼底图像、肝硬化分期和心脏病诊断预测已显示出令人鼓舞的结果。本研究提出了一种新颖的深度学习预测分析框架，通过预处理来自三个不同来源的数据来对多个数据集进行分类。提出了一种结合残差网络和人工神经网络的混合深度学习模型，用于检测心脏病、肝硬化和视网膜疾病等急性慢性疾病，其性能优于现有模型。数据集准备涉及诸如分类数据转换、降维和缺失数据合成等方面。特征提取通过对分类数据集使用标度变换，对图像数据集使用 ResNet 架构来有效地进行。生成的特征被整合到一个统一的分类模型中。严格的实验和评估结果表明，视网膜眼底图像、肝硬化分期和心脏病诊断预测的准确率分别高达 93%、99% 和 95%。通过对 F1 分数、精确率和召回率指标的详细分析，证明了所提出方法的有效性。本研究对方法和实验进行了全面的探索，提供了对电子健康记录中深度学习预测分析的深入了解。

发布时间: 9/26/2024

查看原文

低比特大型语言模型综述：基础、系统和算法

作者: Ruihao Gong, Yifu Ding, Zining Wang, Chengtao Lv, Xingyu Zheng, Jinyang Du, Haotong Qin, Jinyang Guo, Michele Magno, Xianglong Liu

大型语言模型（LLMs）在自然语言处理领域取得了显著进展，在各种任务中展现出卓越的性能。然而，其昂贵的内存和计算需求对其实际部署提出了重大挑战。低比特量化已成为缓解这些挑战的关键方法，通过降低模型参数、激活值和梯度的比特宽度来减少内存使用和计算需求。本文对针对 LLMs 的低比特量化方法进行了全面综述，涵盖了基本原理、系统实现和算法策略。首先介绍了低比特 LLMs 的基本概念和新的数据格式概述，然后回顾了跨各种硬件平台促进低比特 LLMs 的框架和系统。接下来，我们对高效低比特训练和推断 LLMs 的技术和工具包进行了分类和分析。最后，我们讨论了低比特 LLMs 的未来趋势和潜在进展。我们从基础、系统和算法角度进行的系统概述可以为未来的工作提供宝贵的见解和指导，以通过低比特量化来提高 LLMs 的效率和适用性。

发布时间: 9/26/2024

查看原文

CaBRNet：一个用于开发和评估基于案例推理模型的开源库

作者: Romain Xu-Darme (LSL), Aymeric Varasse (LSL), Alban Grastien (LSL), Julien Girard (LSL), Zakaria Chihani (LSL)

在可解释人工智能领域，人们致力于设计自解释模型，这是一种比事后方法更原则性的选择，事后方法试图在模型不透明地做出决策后解释这些决策。然而，这条富有成果的研究路线存在一些常见的缺点：缺乏可重复性、不可行的比较以及标准不一致。本文提出了 CaBRNet，一个开源的、模块化的、向后兼容的案例推理网络框架：https://github.com/aiser-team/cabrnet。

发布时间: 9/26/2024

查看原文

MSI-Agent：将多尺度洞察融入具身智能体，以实现更优的规划和决策

作者: Dayuan Fu, Biqing Qi, Yihuai Gao, Che Jiang, Guanting Dong, Bowen Zhou

大型语言模型 (LLM) 在许多自然语言处理任务中取代了传统方法。然而，在命名实体识别 (NER) 中，现有的基于 LLM 的方法...

发布时间: 9/26/2024

查看原文

思想的审判：大型语言模型中的二元逻辑推理法庭

作者: Sungjune Park, Daeseon Choi

本文提出了一种名为“思想判断”（JoT）的新颖提示工程技术，专门针对二元逻辑推理任务。JoT 采用三种角色——律师、检察官和法官——来帮助模型进行更可靠、更准确的推理。在这个框架中，法官使用高级模型，而律师和检察官使用低级模型。这种结构有助于法官更好地理解律师和检察官的回应，从而做出更准确的判断。在大型语言模型 (LLM) 基准数据集（如 BigBenchHard 和 Winogrande）上的实验结果表明，在二元逻辑推理任务中，JoT 的性能优于现有方法，包括思维链 (CoT) 和自一致性 (SC)。此外，在现实世界任务中，如假新闻检测和短信垃圾邮件检测，JoT 表现出与现有技术相当或更好的性能。JoT 显着提高了模型在二元推理任务中的准确性和可靠性，并显示出在各个领域实际应用的潜力。未来的研究应旨在进一步拓宽 JoT 的适用范围，并优化其在现实世界问题解决中的实施。

发布时间: 9/26/2024

查看原文

预备，开始，预测！建模级联的连续时间动态以预测信息流行度

作者: Xin Jing, Yichen Jing, Yuhuan Lu, Bangchao Deng, Sikun Yang, Dingqi Yang

信息流行度预测在病毒式营销和新闻推荐等多个领域都至关重要，但也极具挑战性。准确预测信息流行度的关键在于巧妙地建模信息级联背后所观察到的事件（如推文的转发）的潜在时间信息扩散过程。为此，大多数现有方法要么采用循环神经网络来捕捉从第一个到最后一个观察事件的时间动态，要么开发基于自激点过程的统计模型来进行预测。然而，信息扩散本质上是一个复杂的连续时间过程，具有不规则的观察离散事件，而循环神经网络由于无法捕捉事件之间的不规则时间间隔而对其进行了过度简化，自激点过程由于缺乏灵活性而无法捕捉复杂的扩散过程。针对这一背景，我们提出了 ConCat，它对级联的连续时间动态进行建模，用于信息流行度预测。一方面，它利用神经常微分方程 (ODE) 来根据级联图和顺序事件信息对级联中不规则事件进行连续时间建模。另一方面，它将级联事件视为由条件强度函数参数化的神经时间点过程 (TPP)，这也有助于流行度预测任务。我们进行了大量实验，在三个真实世界数据集上评估了 ConCat。结果表明，与最先进的基线相比，ConCat 取得了优异的性能，在三个数据集上相对于表现最佳的基线分别提高了 2.3%-33.2%。

发布时间: 9/26/2024

查看原文

基于蕴涵推理的大语言模型隐私政策分类

作者: Bhanuka Silva, Dishanika Denipitiyage, Suranga Seneviratne, Anirban Mahanti, Aruna Seneviratne

尽管许多在线服务为最终用户提供隐私政策，以便他们阅读并了解正在收集哪些个人数据，但这些文件通常冗长且复杂。因此，绝大多数用户根本不会阅读它们，导致在不知情的情况下收集数据。为了使隐私政策更易于用户理解，人们已经做出了几项尝试，例如对它们进行总结、为关键部分提供自动注释或标签，或者提供聊天界面来回答特定问题。随着大型语言模型 (LLM) 的最新进展，有机会开发更有效的工具来解析隐私政策并帮助用户做出明智的决策。在本文中，我们提出了一种基于蕴涵的 LLM 框架，用于将隐私政策段落分类为用户易于理解的有意义标签。结果表明，我们的框架优于传统的 LLM 方法，平均 F1 分数提高了 11.2%。此外，我们的框架提供了内在可解释和有意义的预测。

发布时间: 9/26/2024

查看原文