arXiv 论文列表

作者: Xin Wang, Ting Dang, Vassilis Kostakos, Hong Jia

医疗保健监测对于早期检测、及时干预和持续管理健康状况至关重要，最终可以提高个人的生活质量。最近的研究表明，大型语言模型 (LLM) 在支持医疗保健任务方面展现出令人印象深刻的性能。然而，现有的基于 LLM 的医疗保健解决方案通常依赖于云端系统，这引发了隐私问题，并增加了个人信息泄露的风险。因此，人们越来越关注在移动电话和可穿戴设备等设备上本地运行这些模型以保护用户隐私。小型语言模型 (SLM) 可能是解决隐私和计算问题的潜在候选者，因为它们更有效，更适合本地部署。然而，SLM 在医疗保健领域的性能尚未得到研究。本文考察了 SLM 准确分析健康数据（如步数、卡路里、睡眠分钟数和其他重要统计数据）的能力，以评估个人的健康状况。我们的结果表明，TinyLlama 拥有 11 亿个参数，使用 4.31 GB 内存，延迟为 0.48 秒，在各种医疗保健应用中表现出比其他四个最先进 (SOTA) SLM 更好的性能。我们的结果表明，SLM 可以潜在地部署在可穿戴设备或移动设备上，用于实时健康监测，为高效且保护隐私的医疗保健提供切实可行的解决方案。

发布时间: 10/1/2024

查看原文

Lab-AI：面向临床医学的个性化实验室检验结果解释检索增强型语言模型

作者: Xiaoyu Wang, Haoyong Ouyang, Balu Bhasuran, Xiao Luo, Karim Hanna, Mia Liza A. Lustria, Zhe He

大型语言模型 (LLM) 已取代传统方法，应用于众多自然语言处理任务。然而，在命名实体识别 (NER) 中，现有的基于 LLM 的方法...

发布时间: 10/1/2024

查看原文

利用大型语言模型：微调 BERT 用于自然语言中魅力型领导力策略的检测

作者: Yasser Saeid, Felix Neub\"urger, Stefanie Kr\"ugl, Helena H\"uster, Thomas Kopinski, Ralf Lanwehr

这项工作研究了利用经过微调的双向编码器表示来自 Transformer (BERT) 模型的自然语言中的魅力型领导力策略 (CLT) 的识别。基于为这项任务生成和整理的我们自己的庞大 CLT 语料库，我们的方法包括训练一个能够准确识别自然语言中这些策略存在的机器学习模型。进行了一项性能评估，以评估我们模型在检测 CLT 方面的有效性。我们发现，对所有 CLT 检测的总准确率为 98.96%。这项研究的结果对心理学和管理研究具有重大意义，为简化目前文本中魅力评估的复杂过程提供了潜在方法。

发布时间: 10/1/2024

查看原文

机器人导航行为与人类意图和偏好的对齐

作者: Haresh Karnan

机器学习领域的最新进展为移动机器人提供了新的方式来获得先进的导航能力。然而，这些基于学习的方法也带来了一个问题，即学习到的导航行为可能与人们的意图和偏好不一致，这个问题被称为价值错位。为了减轻这种风险，本论文旨在回答以下问题：“我们如何利用机器学习方法使自主移动机器人的导航行为与人类的意图和偏好保持一致？” 首先，本论文通过引入一种新的方法来学习导航行为，该方法通过模仿人类提供的预期导航任务的演示来学习导航行为，来回答这个问题。这一贡献使移动机器人能够通过模仿获得自主视觉导航能力，使用一种新颖的目标函数，该函数鼓励代理与人类的导航目标保持一致，并对错位进行惩罚。其次，本论文介绍了两种算法，通过以自监督的方式学习视觉地形感知，来增强移动机器人的地形感知越野导航能力。这一贡献使移动机器人能够尊重人类操作员在城市室外环境中导航不同地形的偏好，同时通过利用多模态表示将这些偏好推断到视觉上新颖的地形。最后，在机器人导航人类居住环境的背景下，本论文介绍了一个数据集和一个算法，用于在室内和室外环境中以社会合规的方式进行机器人导航。总之，本论文的贡献在解决自主导航中的价值错位问题方面迈出了重要的一步，使移动机器人能够以与人类意图和偏好一致的目标进行自主导航。

发布时间: 10/1/2024

查看原文

IW-Bench：评估用于图像到网页转换的大型多模态模型

作者: Hongcheng Guo, Wei Zhang, Junhao Chen, Yaonan Gu, Jian Yang, Junjia Du, Binyuan Hui, Tianyu Liu, Jianxin Ma, Chang Zhou, Zhoujun Li

近年来，大型多模态模型的进步在图像理解能力方面取得了重大进展。尽管取得了这些进步，但缺乏专门用于评估这些大型模型的图像到网页转换能力的稳健基准。首先，必须确保生成的网页元素的完整性。这些元素包括可见和不可见类别。以前的评估方法（例如，BLEU）由于网页中存在不可见元素，因此容易受到重大更改的影响。此外，重要的是要衡量网页的布局信息，即元素之间的位置关系，而以前的工作忽略了这一点。为了应对这些挑战，我们策划并对齐了一个图像和相应网页代码的基准（IW-Bench）。具体来说，我们提出了元素准确性，通过解析文档对象模型 (DOM) 树来测试元素的完整性。还提出了布局准确性，通过将 DOM 树转换为公共子序列来分析元素的位置关系。此外，我们设计了一种五跳多模态思维链提示，以获得更好的性能，它包含五个跳跃：1）SoM 提示注入。2）推断元素。3）推断布局。4）推断网页代码。5）反思。我们的基准包含 1200 对图像和网页代码，难度等级不同。我们对现有大型多模态模型进行了广泛的实验，提供了对其在图像到网页领域的表现和改进空间的见解。

发布时间: 10/1/2024

查看原文

脑电-肌电 FAConformer：用于脑电和肌电融合的频率感知卷积-Transformer

作者: ZhengXiao He, Minghong Cai, Letian Li, Siyuan Tian, Ren-Jie Dai

运动模式识别范式是脑机接口 (BCI) 用于运动功能康复的主要形式，也是最容易推广的应用。近年来，许多研究人员建议鼓励患者在基于 MI 的 BCI 康复训练系统中同时执行真实的运动控制。肌电图 (EMG) 信号是最直接的生理信号，可以评估运动的执行。多模态信号融合对于解码运动模式具有重要的现实意义。因此，我们针对脑电和肌电信号提出了一种多模态运动模式识别算法：EEG-EMG FAConformer，该方法包含多个与时间和频率信息相关的注意力模块，用于运动模式识别。我们特别设计了一个频带注意力模块，以准确有效地编码脑电信息。此外，还开发了多尺度融合模块、独立通道特定卷积模块 (ICSCM) 和融合模块等模块，这些模块可以有效地消除脑电和肌电信号中的无关信息，并充分利用隐藏的动力学，并显示出良好的效果。大量实验表明，EEG-EMG FAConformer 在 Jeong2020 数据集上优于现有方法，展现出出色的性能、高鲁棒性和令人印象深刻的稳定性。

发布时间: 10/1/2024

查看原文

早期情感信息的联合学习让多模态模型更好地理解你

作者: Mengying Ge, Mingyang Li, Dongkai Tang, Pengbo Li, Kuo Liu, Shuhao Deng, Songbai Pu, Long Liu, Yang Song, Tao Zhang

本文介绍了我们在多模态情感识别挑战赛 (MER2024) 子挑战赛中的情感识别解决方案。为了缓解音频和文本之间的模态竞争问题，我们采用了一种基于大语言模型的早期融合策略，其中音频和文本的联合训练首先进行。然后，联合的音频-文本模态特征将与其他单模态特征进行后期融合。为了解决数据不足和类别不平衡的问题，我们使用多轮多模态投票进行数据挖掘。此外，为了提高音频特征的质量，我们采用语音源分离对音频进行预处理。我们的模型在 MER2024-SEMI 和 MER2024-NOISE 中均排名第二，验证了我们方法的有效性。

发布时间: 10/1/2024

查看原文

将 SPARQL 和大型语言模型集成用于学术数据源上的问答

作者: Fomubad Borista Fondi, Azanzi Jiomekong Fidel

在 2024 年国际语义网大会 (ISWC) 上，学术混合链接数据问答 (QALD) 挑战赛侧重于对各种学术来源进行问答 (QA)：DBLP、SemOpenAlex 和基于维基百科的文本。本文描述了一种将 SPARQL 查询、分治算法和基于 BERT 的案例 SQuad2 预测相结合的方法。它首先使用 SPARQL 查询收集数据，然后应用分治法来管理各种问题类型和来源，并使用 BERT 来处理个人作者问题。该方法使用精确匹配和 F 分数指标进行评估，表明在学术环境中提高 QA 准确性和效率的潜力。

发布时间: 10/1/2024

查看原文

医学人工智能的安全挑战

作者: Xiaoye Wang, Nicole Xi Zhang, Hongyu He, Trang Nguyen, Kun-Hsing Yu, Hao Deng, Cynthia Brandt, Danielle S. Bitterman, Ling Pan, Ching-Yu Cheng, James Zou, Dianbo Liu

近年来，人工智能（AI），特别是深度学习和大语言模型（LLMs）的进步，加速了其在医学领域的应用。然而，这些发展也引发了公众对 AI 安全应用的担忧。在医疗保健领域，这些担忧尤为重要，因为 AI 的伦理和安全部署对于保护患者健康和隐私至关重要。本综述考察了 AI 实践中可能危及医学安全的潜在风险，包括跨不同人群的性能下降、运行稳定性不一致、有效模型调优需要高质量数据以及模型开发和部署期间数据泄露的风险。对于医务人员、患者和研究人员来说，LLMs 提供了一种通过语言与 AI 和数据交互的便捷方式。然而，它们的出现也加剧了安全担忧，特别是由于幻觉等问题。本文的第二部分探讨了医疗环境中特定于 LLM 的安全问题，包括处理复杂逻辑的局限性、将 AI 目标与人类价值观相一致的挑战、理解的错觉以及对多样性的担忧。对安全 AI 的深思熟虑的开发可以加速其在现实世界医疗环境中的应用。

发布时间: 10/1/2024

查看原文

深度模型预测优化

作者: Jacob Sacks, Rwik Rana, Kevin Huang, Alex Spitzer, Guanya Shi, Byron Boots

机器人学中的一大挑战是设计鲁棒的策略，使机器人在现实世界中能够执行复杂且灵活的行为。一方面，我们有无模型强化学习 (MFRL)，它具有极强的灵活性和通用性，但通常会导致策略脆弱。另一方面，模型预测控制 (MPC) 在每个时间步长不断地重新规划，以保持对扰动和模型误差的鲁棒性。然而，尽管 MPC 在现实世界中取得了成功，但它往往无法达到最佳策略。这是由于模型质量、短期规划范围导致的短视行为以及计算约束导致的近似。即使有了完美的模型和足够的计算能力，MPC 也可能陷入不良的局部最优解，严重依赖于优化算法的质量。为此，我们提出了深度模型预测优化 (DMPO)，它通过经验直接学习 MPC 优化算法的内循环，专门针对控制问题的需求。我们在真实的四旋翼敏捷轨迹跟踪任务上评估了 DMPO，它在给定计算预算的情况下，提高了基线 MPC 算法的性能。它可以使用更少的样本比最佳 MPC 算法性能提高高达 27%，并比使用 MFRL 训练的端到端策略性能提高 19%。此外，由于 DMPO 需要更少的样本，因此它还可以使用少 4.3 倍的内存来实现这些优势。当我们将四旋翼暴露在带有附着阻力板的湍流风场中时，DMPO 可以零样本适应，同时仍然优于所有基线。更多结果可以在 https://tinyurl.com/mr2ywmnw 中找到。

发布时间: 10/1/2024

查看原文