arXiv 论文列表

作者: Pablo Romero, Lifeng Han, Goran Nenadic

药物提取和挖掘在医疗保健自然语言处理研究中扮演着重要角色，因为它在医院环境中具有实际应用，例如将药物信息映射到标准临床知识库（SNOMED-CT、BNF 等）。在本研究中，我们调查了最先进的大型语言模型（LLM）在文本挖掘任务中的应用，这些任务涉及药物及其相关属性，例如剂量、途径、强度和不良反应。此外，我们探索了不同的集成学习方法（\textsc{Stack-Ensemble} 和 \textsc{Voting-Ensemble}）来增强来自单个 LLM 的模型性能。我们的集成学习结果表明，在一般和特定领域，它比单独微调的基模型 BERT、RoBERTa、RoBERTa-L、BioBERT、BioClinicalBERT、BioMedRoBERTa、ClinicalBERT 和 PubMedBERT 表现更好。最后，我们构建了一个实体链接功能，将提取的医疗术语映射到 SNOMED-CT 代码和英国国家处方集（BNF）代码，这些代码进一步映射到药物和器械词典 (dm+d) 和 ICD。我们的模型工具包和桌面应用程序可在 \url{https://github.com/HECTA-UoM/ensemble-NER} 公开获取。

发布时间: 10/1/2024

查看原文

眼动追踪与大型语言模型：阅读位置可视化

作者: Sikai Yang, Gang Yan

在切换行时失去阅读进度会令人沮丧。眼动追踪技术通过突出显示已读段落，帮助用户避免错误的切换行，为解决这一问题提供了潜在的解决方案。然而，眼动追踪精度（2-3 厘米）与文本行间距（3-5 毫米）之间的差距使得直接应用变得不切实际。现有的方法利用线性阅读模式，但在跳跃阅读时会失效。本文提出了一种支持线性阅读和跳跃阅读的阅读跟踪和突出显示系统。基于对 16 名用户的注视行为研究的实验见解，设计了两种注视误差模型，以实现跳跃阅读检测和重新定位。该系统进一步利用大型语言模型的上下文感知能力来辅助阅读跟踪。还利用了阅读跟踪领域特定的行-注视对齐机会，以实现注视结果的动态和频繁校准。受控实验表明，该系统能够可靠地跟踪线性阅读，并且在跟踪跳跃阅读方面达到了 84% 的准确率。此外，对 18 名志愿者的真实场景测试表明，该系统在跟踪和突出显示已读段落方面非常有效，提高了阅读效率，并增强了用户体验。

发布时间: 10/1/2024

查看原文

大型语言模型的秘密应用

作者: Zhiping Zhang, Chenxinran Shen, Bingsheng Yao, Dakuo Wang, Tianshi Li

大型语言模型（LLM）的进步已经将人工智能使用透明度的责任分散化。具体而言，LLM 用户现在被鼓励或要求披露使用 LLM 生成的内容进行各种现实世界任务。然而，一种新兴现象，即用户秘密使用 LLM，给确保最终用户遵守透明度要求带来了挑战。我们的研究采用混合方法，包括探索性调查（报告了 125 个现实世界中的秘密使用案例）和针对 300 名用户的受控实验，以调查 LLM 秘密使用的背景和原因。我们发现，这种秘密行为通常由某些任务触发，超越了用户之间的社会人口统计和个性差异。研究发现，任务类型会影响用户使用秘密行为的意图，主要通过影响用户对 LLM 使用的外部判断感知。我们的结果为未来设计干预措施以鼓励更透明地披露 LLM 或其他人工智能技术的使用的工作提供了重要见解。

发布时间: 10/1/2024

查看原文

语音信号增强的高级聚类技术：模糊 C 均值、K 均值和核模糊 C 均值方法的综述与元分析

作者: Abdulhady Abas Abdullah, Aram Mahmood Ahmed, Tarik Rashid, Hadi Veisi, Yassin Hussein Rassul, Bryar Hassan, Polla Fattah, Sabat Abdulhameed Ali, Ahmed S. Shamsaldin

语音信号处理是现代通信技术的基石，其任务是在嘈杂的环境中提高音频数据的清晰度和可理解性。该领域的主要挑战是从背景噪声中有效分离和识别语音，这对从语音助手到自动转录服务的各种应用至关重要。语音识别的质量直接影响技术驱动型通信中的用户体验和可访问性。这篇综述文章探讨了高级聚类技术，特别是关注核模糊C均值（KFCM）方法，以应对这些挑战。我们的研究结果表明，与传统方法（如K均值（KM）和模糊C均值（FCM））相比，KFCM在处理语音信号中的非线性、非平稳噪声条件方面具有更优越的性能。这篇综述最显著的成果是KFCM对各种噪声环境的适应性，使其成为语音增强应用的可靠选择。此外，本文还指出了当前方法的不足，例如需要更动态的聚类算法，这些算法可以在不影响语音识别质量的情况下实时适应变化的噪声条件。主要贡献包括对当前聚类算法的详细比较分析，以及建议进一步整合将KFCM与神经网络相结合的混合模型以提高语音识别准确率。通过这篇综述，我们倡导向更复杂、更自适应的聚类技术转变，这些技术可以显着改善语音增强，并为更具弹性的语音处理系统铺平道路。

发布时间: 10/1/2024

查看原文

策略梯度方法的强多项式时间与验证分析

作者: Caleb Ju, Guanghui Lan

强化学习缺乏一个原则性的最优性度量，导致研究依赖于算法之间的比较或基线比较，而没有最优性证书。我们专注于有限状态和动作马尔可夫决策过程 (MDP)，开发了一个简单且可计算的差距函数，它为最优性差距提供了上限和下限。因此，差距函数的收敛是比最优性差距收敛更强的收敛模式，它等效于我们称之为无分布收敛的新概念，其中收敛与任何问题相关的分布无关。我们证明了基本策略镜像下降在确定性和随机设置中都表现出快速的无分布收敛。我们利用无分布收敛来揭示几个新的结果。首先，确定性策略镜像下降可以在强多项式时间内求解无正则化 MDP。其次，在运行随机策略镜像下降时，无需额外样本即可获得精度估计，并且可以将其用作终止标准，这可以在验证步骤中验证。

发布时间: 10/1/2024

查看原文

RMLR：将多项式逻辑回归扩展到一般几何空间

作者: Ziheng Chen, Yue Song, Rui Wang, Xiaojun Wu, Nicu Sebe

黎曼神经网络将深度学习技术扩展到黎曼空间，在机器学习领域引起了广泛关注。为了更好地对流形值特征进行分类，研究人员开始将欧几里得多项式逻辑回归 (MLR) 扩展到黎曼流形。然而，现有的方法由于过度依赖于特定的几何性质而适用性有限。本文提出了一种在一般几何上设计黎曼 MLR 的框架，称为 RMLR。我们的框架只需要最少的几何性质，因此具有广泛的适用性，使其能够与各种几何形状一起使用。具体来说，我们在对称正定 (SPD) 流形和特殊正交群（即旋转矩阵集）上展示了我们的框架。在 SPD 流形上，我们开发了五类 SPD MLR，它们基于五种类型的幂变形度量。在旋转矩阵上，我们基于流行的双不变度量提出了 Lie MLR。在不同的黎曼骨干网络上进行的大量实验验证了我们框架的有效性。

发布时间: 10/1/2024

查看原文

微流：一款基于 Rust 的高效 TinyML 推理引擎

作者: Matteo Carnelos, Francesco Pasti, Nicola Bellotto

MicroFlow 是一个开源 TinyML 框架，使用 Rust 编程语言将神经网络 (NN) 部署到嵌入式系统，专门为效率和鲁棒性而设计，适用于关键环境中的应用。为了实现这些目标，MicroFlow 采用了一种基于编译器的推理引擎方法，并结合了 Rust 的内存安全性和功能。该解决方案能够成功地将 NN 部署到资源极其有限的设备上，包括仅有 2kB RAM 的裸机 8 位微控制器。此外，MicroFlow 能够比其他最先进的解决方案使用更少的 Flash 和 RAM 内存来部署 NN 参考模型（例如唤醒词和人员检测）。与现有引擎相比，它还可以针对中等大小的 NN 实现更快的推理速度，并且在更大的 NN 上也能获得类似的性能。实验结果证明了 MicroFlow 在资源特别有限的关键环境中部署 TinyML 模型的效率和适用性。

发布时间: 10/1/2024

查看原文

**非配对多模态混合物的可识别共享成分分析**

作者: Sagar Shrestha, Subash Timilsina, Xiao Fu

多模态学习中的一个核心任务是整合来自多个特征空间（例如，文本和音频）的信息，从而提供数据模态不变的基本表示。最近的研究表明，当每个模态中的样本由共享和私有成分的线性混合生成时，经典工具（如典型相关分析 (CCA)）可以证明识别出共享成分，直至微小的歧义。这种可识别性结果是在跨模态样本根据其共享信息进行对齐/配对的条件下获得的。本工作更进一步，研究了跨模态样本未对齐的多模态线性混合中的共享成分可识别性。提出了一种基于分布差异最小化的损失函数，在此基础上，推导出了一系列确保共享成分可识别性的充分条件。我们的条件基于跨模态分布差异特征和密度保持变换去除，这比现有的依赖于独立成分分析的研究要温和得多。通过添加合理的结构约束，也提供了更宽松的条件，这些约束是受各种应用中可用的辅助信息的启发。可识别性主张通过使用合成数据和真实世界数据得到了彻底的验证。

发布时间: 10/1/2024

查看原文

基于源推理攻击的跨筒仓联邦学习数据审计

作者: Jiaxin Li, Marco Arazzi, Antonino Nocera, Mauro Conti

联邦学习（FL）中的源推断攻击（SIA）旨在识别哪个客户端使用了目标数据点进行本地模型训练。它允许中央服务器审计客户端的数据使用情况。在跨数据孤岛的 FL 中，一个客户端（数据孤岛）会从多个主体（例如，个人、作者或设备）收集数据，这会带来主体信息泄露的风险。主体成员推断攻击（SMIA）针对这种情况，并试图推断在跨数据孤岛的 FL 中，是否有任何客户端使用来自目标主体的數據点。然而，现有的关于 SMIA 的结果是有限的，并且基于对攻击场景的强假设。因此，我们提出了一个主体级源推断攻击（SLSIA），它消除了 SIA 中只有单个客户端可以使用目标数据点的关键约束，以及 SMIA 中对使用目标主体数据的客户端进行不精确检测的限制。攻击者位于服务器端，控制一个目标数据源，并试图检测所有使用来自目标主体的數據点的客户端。我们的策略利用二元攻击分类器来预测本地模型在来自目标主体的测试数据上返回的嵌入是否包含表明客户端使用来自该主体的數據点训练模型的独特模式。为了实现这一点，攻击者使用来自目标主体的數據点派生的數據在本地预先训练模型，然后利用它们构建二元攻击分类器的训练集。我们的 SLSIA 在三个数据集上明显优于以前的方法。具体来说，SLSIA 在 50 个目标主体上实现了 0.88 的最大平均准确率。分析嵌入分布和输入特征距离表明，具有稀疏主体的數據集更容易受到我们的攻击。最后，我们建议使用项目级和主体级差分隐私机制来防御我们的 SLSIA。

发布时间: 10/1/2024

查看原文

深度脉冲神经网络中的成员隐私评估

作者: Jiaxin Li, Gorka Abad, Stjepan Picek, Mauro Conti

人工神经网络（ANN）通常使用非线性函数来模拟神经元，并输出浮点数，在正向传播过程中始终接收来自数据点的相同信号。与 ANN 不同，脉冲神经网络（SNN）在数据点的正向传播过程中会接收各种输入信号，并以生物学上可信的方式模拟神经元，即如果神经元的累积膜电位大于阈值，则产生一个脉冲（二进制值）。尽管 ANN 在人脸识别和目标检测等多个任务中取得了显著成功，但由于其低功耗、快速推理和事件驱动特性，SNN 近年来受到了关注。虽然针对 ANN 的隐私威胁已被广泛研究，但针对 SNN 的研究却少得多。例如，众所周知，ANN 易受成员推断攻击（MIA）的影响，但这种攻击是否也适用于 SNN 尚不清楚。本文通过考虑八种 MIA 来评估 SNN 的成员隐私，其中七种 MIA 是受针对 ANN 的 MIA 的启发。我们的评估结果表明，当 ANN 和 SNN 都使用神经形态数据集（具有时间维度）进行训练时，SNN 比 ANN 更容易受到攻击（在平衡攻击精度方面最高高出 10%）。另一方面，当使用静态数据集（没有时间维度）训练 ANN 或 SNN 时，其脆弱性取决于所使用的数据集。如果我们将使用静态数据集训练的 ANN 转换为 SNN，则 MIA 的精度会下降（在目标模型的测试精度下降 7.6% 的情况下，最大下降 11.5%）。接下来，我们通过超参数研究来探索 MIA 对 SNN 的影响因素。最后，我们表明，用于静态数据的基本数据增强方法和两种最近用于神经形态数据的数据增强方法可以显着（最大减少 25.7%）降低 MIA 对 SNN 的性能。

发布时间: 10/1/2024

查看原文