arXiv 论文列表

作者: Qiuhao Lu, Rui Li, Elham Sagheb, Andrew Wen, Jinlian Wang, Liwei Wang, Jungwei W. Fan, Hongfang Liu

诊断预测是医疗保健中的一个关键任务，及时准确地识别疾病状况可以显著影响患者的预后。传统的机器学习和深度学习模型在这一领域取得了显著的成功，但往往缺乏可解释性，而可解释性是临床环境中的一个关键需求。在本研究中，我们探索了神经符号方法，特别是逻辑神经网络 (LNN)，用于开发可解释的诊断预测模型。本质上，我们设计并实现了基于 LNN 的模型，这些模型通过逻辑规则将特定领域知识与可学习的阈值相结合。我们的模型，特别是 $M_{\text{multi-pathway}}$ 和 $M_{\text{comprehensive}}$，在糖尿病预测的案例研究中，表现出优于传统模型（如逻辑回归、SVM 和随机森林）的性能，在准确率 (高达 80.52%) 和 AUROC 分数 (高达 0.8457) 方面取得了更高的成绩。LNN 模型中学习到的权重和阈值直接提供了对特征贡献的洞察，增强了可解释性，而不会影响预测能力。这些发现突出了神经符号方法在弥合医疗保健 AI 应用中准确率和可解释性之间的差距方面的潜力。通过提供透明且可适应的诊断模型，我们的工作有助于推动精准医疗的发展，并支持公平医疗解决方案的开发。未来的研究将集中于将这些方法扩展到更大、更多样化的数据集，以进一步验证其在不同疾病和人群中的适用性。

发布时间: 10/4/2024

查看原文

Bayes-CATSI：一种用于医疗时间序列数据插补的变分贝叶斯方法

作者: Omkar Kulkarni, Rohitash Chandra

医学时间序列数据集存在缺失值，需要数据插补方法，然而，传统的机器学习模型由于缺乏预测中的不确定性量化而无法满足要求。在这些模型中，CATSI（上下文感知时间序列插补）通过将上下文向量融入插补过程，捕捉每个患者的全局依赖关系，从而脱颖而出。本文提出了一种贝叶斯上下文感知时间序列插补（Bayes-CATSI）框架，该框架利用变分推断提供的**不确定性量化**。我们考虑了从脑电图 (EEG)、眼电图 (EOG)、肌电图 (EMG)、心电图 (EKG) 中提取的时间序列。变分推断假设后验分布的形状，并通过最小化 Kullback-Leibler (KL) 散度找到最接近真实后验分布的变分密度。因此，我们将变分贝叶斯深度学习层集成到 CATSI 模型中。结果表明，Bayes-CATSI 不仅提供了**不确定性量化**，而且在插补性能方面也优于 CATSI 模型。具体来说，Bayes-CATSI 的一个实例比 CATSI 提高了 9.57%。我们提供了一个开源代码实现，用于将 Bayes-CATSI 应用于其他医学数据插补问题。

发布时间: 10/4/2024

查看原文

用于医疗笔记生成的通用人工智能框架

作者: Hui Yi Leong, Yi Fan Gao, Shuai Ji, Bora Kalaycioglu, Uktu Pamuksuz

大型语言模型 (LLM) 已在众多自然语言处理任务中取代了传统方法。然而，在命名实体识别 (NER) 中，现有的基于 LLM 的方法...

发布时间: 10/4/2024

查看原文

面向数字人目标姿态引导的全身抓取运动生成

作者: Quanquan Shao, Yi Fang

抓取操作是人类与日常生活物体交互的基本模式。抓取动作的合成在动画和机器人等许多应用中也极具需求。在物体抓取研究领域，大多数工作集中于使用平行夹持器或灵巧手生成最后的静态抓取姿势。特别是对于完整的人形智能体而言，完整手臂的抓取动作生成仍未得到充分探索。在这项工作中，我们提出了一种针对数字人的抓取动作生成框架，数字人是虚拟世界中具有高度自由度的拟人化智能体。给定一个已知初始姿势的物体在 3D 空间中的位置，我们首先基于现成的目标抓取姿势生成方法为全身数字人生成目标姿势。利用初始姿势和这个生成的目標姿势，使用基于变压器的网络生成整个抓取轨迹，该轨迹将初始姿势和目标姿势平滑自然地连接起来。此外，还设计了两个后优化组件，分别减轻了脚滑和手物体穿透问题。在 GRAB 数据集上进行了实验，以证明该方法在随机放置的未知物体上生成全身抓取动作的有效性。

发布时间: 10/4/2024

查看原文

时序图记忆网络用于知识追踪

作者: Seif Gad, Sherif Abdelfattah, Ghodai Abdelrahman

跟踪学生在回答过去练习题时的知识增长，是自动辅导系统定制学习体验的重要目标。然而，实现这一目标并非易事，因为它需要对多个知识组件 (KC) 的知识状态进行建模，同时考虑学习过程中它们的时间和关系动态。知识追踪方法通过使用循环模型对 KC 的时间动态建模，或使用图模型对 KC 和问题之间的关系动态建模，来解决这一任务。尽管如此，仍然缺乏能够学习任务关系和时间动态之间联合嵌入的方法。此外，许多考虑学生在学习过程中遗忘行为影响的方法使用手工特征，限制了它们在不同场景下的泛化能力。在本文中，我们提出了一种新方法，使用深度时间图记忆网络联合建模知识状态的关系和时间动态。此外，我们提出了一种通用技术，使用时间衰减约束在图记忆模块上表示学生的遗忘行为。我们通过使用多个知识追踪基准证明了我们提出的方法的有效性，并将其与最先进的方法进行了比较。

发布时间: 10/4/2024

查看原文

基于卷积神经网络的图像分类分析：水稻叶片病害预测的多特征应用及对农民的建议

作者: Biplov Paneru, Bishwash Paneru, Krishna Bikram Shah

本研究提出了一种利用 8 种不同的卷积神经网络 (CNN) 算法改进水稻病害分类的新方法，这将推动精准农业领域的发展。该研究还开发了一个基于 Tkinter 的应用程序，为农民提供功能丰富的界面。借助这个尖端应用程序，农民可以通过实现实时病害预测并提供个性化建议，从而做出及时且明智的决策。将包括 ResNet-50、InceptionV3、VGG16 和 MobileNetv2 在内的基于尖端 CNN 传输学习算法的技术与 UCI 数据集无缝集成，加上用户友好的 Tkinter 界面，代表着朝着现代化农业实践和保障可持续作物管理迈出的重大进步。显著的结果包括 ResNet-50 的准确率为 75%、DenseNet121 的准确率为 90%、VGG16 的准确率为 84%、MobileNetV2 的准确率为 95.83%、DenseNet169 的准确率为 91.61% 和 InceptionV3 的准确率为 86%。这些结果简要概括了模型的能力，帮助研究人员选择合适的策略，以实现准确且成功的水稻作物病害识别。VGG19 的准确率为 70%，Nasnet 的准确率为 80.02%，出现了严重的过拟合。Renset101 的准确率仅为 54%，efficientNetB0 的准确率仅为 33%。一个经过 MobileNetV2 训练的模型已成功部署在 TKinter GUI 应用程序上，以使用图像或实时视频捕获进行预测。

发布时间: 10/4/2024

查看原文

人工智能对话式访谈：利用大型语言模型作为自适应访谈者来改变调查方式

作者: Alexander Wuttke, Matthias A{\ss}enmacher, Christopher Klamm, Max M. Lang, Quirin W\"urschinger, Frauke Kreuter

传统的人类意见征集方法在深度和规模之间面临权衡：结构化调查能够收集大规模数据，但限制了受访者用自己的语言表达意外想法的能力，而对话式访谈能够提供更深入的见解，但资源密集。本研究探讨了用大型语言模型 (LLMs) 取代人类访谈员进行可扩展对话式访谈的可能性。我们的目标是在受控环境中评估 AI 对话式访谈的性能，并确定改进的机会。我们对大学学生进行了一项小规模、深入的研究，他们被随机分配到接受 AI 或人类访谈员的访谈，两者都使用相同的政治主题问卷。各种定量和定性指标评估了访谈员对指南的遵守情况、回答质量、参与者参与度以及访谈的整体有效性。研究结果表明，AI 对话式访谈能够产生与传统方法相当的优质数据，并具有可扩展性的额外优势。根据我们的经验，我们提出了有效实施的具体建议。

发布时间: 10/4/2024

查看原文

决策中的因果关系重要性：推荐系统视角

作者: Emanuele Cavenaghi, Alessio Zanga, Fabio Stella, Markus Zanker

因果关系在推荐系统 (RSs) 社区中正受到越来越多的关注，该社区已经意识到 RSs 可以从因果关系中获益匪浅，从而将准确的预测转化为有效且可解释的决策。事实上，RS 文献反复强调，在现实世界场景中，推荐算法会遭受许多类型的偏差，因为确保无偏性的假设很可能无法满足。在本讨论文件中，我们使用潜在结果和结构因果模型，从因果关系的角度对 RS 问题进行表述，通过给出要估计的因果量的正式定义和一个通用的因果图作为参考，以促进未来的研究和发展。

发布时间: 10/4/2024

查看原文

NFDIcore 2.0：基于 BFO 的多领域研究基础设施本体

作者: Oleksandra Bruns, Tabea Tietz, Joerg Waitelonis, Etienne Posthumus, Harald Sack

本文介绍了 NFDIcore 2.0，一个符合基本形式本体 (BFO) 的本体，旨在代表德国国家研究数据基础设施 (NFDI) 的多元化研究社区。NFDIcore 确保了跨越各种研究学科的互操作性，从而促进跨领域研究。每个领域的具体需求通过特定的本体模块来解决。本文讨论了本体开发和映射过程中的经验教训，并通过在不同研究领域的使用案例进行实际验证。NFDIcore 的独创性在于其对 BFO 的遵守、使用 SWRL 规则进行高效的知识发现，以及其模块化、可扩展的设计，以满足异构研究领域的需要。

发布时间: 10/4/2024

查看原文

像素字节：捕捉多模态生成统一表示

作者: Fabien Furfaro

本报告介绍了 PixelBytes，一种用于统一多模态表示学习的新方法。受现有序列模型（如图像 Transformer、PixelCNN 和 Mamba-Bytes）的启发，我们的方法旨在以连贯的表示方式捕获不同的输入，探索不同数据类型（特别是文本、音频和像素化图像（精灵））的集成。我们对专门的 PixelBytes 精灵宝可梦数据集进行了实验。最初，我们研究了各种模型架构，包括循环神经网络 (RNN)、状态空间模型 (SSM) 和基于注意力的模型，重点是双向处理和我们的卷积 PxBy 嵌入技术。随后，我们根据数据缩减策略和自回归学习的有效性对模型进行了评估。我们专门在预测和自回归模式下检查了长短期记忆 (LSTM) 网络，用于我们的主要实验。我们的研究结果表明，在这种情况下，自回归模型优于预测模型。通过采用灵活的多模态建模方法，PixelBytes 为基础模型的持续发展做出了贡献，这些模型能够理解和生成多模态数据。完整的 PixelBytes 项目（包括代码、模型和数据集）可在网上获取。

发布时间: 10/4/2024

查看原文