arXiv 论文列表

ConTextual：在保留上下文的标记过滤和知识图谱的帮助下提高临床文本摘要能力

作者: Fahmida Liza Piya, Rahmatollah Beheshti

arXiv:2504.16394v2 宣告类型: 交叉替换摘要：未结构化的临床数据可以作为独特且丰富的信息来源，能够有意义地指导临床实践。从这种数据中提取最相关的上下文是充分挖掘其潜在价值、朝着最优化和及时的患者护理决策的关键。尽管先前的研究探索了各种临床文本总结的方法，但大多数前期研究要么将所有输入词统一处理，要么依赖于基于启发式的过滤器，这些方法可能会忽略细微的临床线索，无法优先处理对决策至关重要的信息。在这项研究中，我们提出了一种名为Contextual的新框架，该框架结合了上下文保留的标记过滤方法和特定领域的知识图谱（KG）来增强上下文。通过保留上下文特定的重要标记并结合结构化知识，Contextual 提高了语言连贯性和临床真实性。我们在两个公开基准数据集上的广泛实证评估表明，Contextual 始终优于其他基线方法。我们提出的方法强调了标记级别过滤和结构化检索在提高语言完整性和临床一致性、以及为临床文本生成提供可扩展解决方案方面的作用。

发布时间: 5/13/2025

查看原文

MetaMolGen：一种用于从头分子设计的神经图motif生成模型

作者: Zimo Yan, Jie Zhang, Zheng Xie, Chang Liu, Yizhen Liu, Yiping Song

arXiv:2504.15587v2 宣告类型: replace-cross 摘要：分子生成在药物发现和材料科学中起着重要作用，特别是在数据稀少的情况下，传统生成模型往往难以实现满意的条件泛化。为了解决这一挑战，我们提出了MetaMolGen，这是一种基于元学习的分子生成器，适用于少量样本和属性条件下的分子生成。MetaMolGen 通过将图模式映射到标准化的潜在空间来标准化图模式的分布，并采用轻量级自回归序列模型生成忠实反映底层分子结构的SMILES序列。此外，它还通过集成到生成过程中的可学习属性投影器支持具有目标属性的分子的条件生成。实验结果表明，MetaMolGen 在低数据情况下一致生成有效的和多样的SMILES序列，并且优于传统的基线方法。这一结果突显了它在快速适应和高效条件生成方面的优势，以适用于实践中的分子设计。

发布时间: 5/13/2025

查看原文

动态环境中超额因果决策自主移动机器人技术

作者: Luca Castri, Gloria Beraldo, Nicola Bellotto

arXiv:2504.11901v3 宣布类型: 替换-交叉摘要：机器人在共享环境（如仓库、购物中心和医院）中的日益集成需求深入理解其背后的动力学和人类行为，包括个人在各种活动和互动中参与的时间、地点和方式。这种知识超越了简单的相关性研究，需要更全面的原因分析。通过利用因果推断来建模因果关系，我们可以更好地预见关键的环境因素，并使自主机器人更有效地规划和执行任务。为此，我们提出了一种基于因果关系的决策框架，该框架基于学习到的因果模型进行推理，以预测电池消耗和人类障碍，理解这些因素如何影响机器人任务执行。这种推理框架帮助机器人决定何时以及如何完成给定任务。为此，我们还开发了一种名为PeopleFlow的新Gazebo仿真器，用于建模共享工作空间中上下文敏感的人机空间交互。PeopleFlow具有受时间、环境布局和机器人状态等上下文因素影响的现实人类和机器人轨迹，并能够模拟大量代理。虽然仿真器具有通用性，但在本文中我们选择了一个类似仓库的环境作为案例研究，我们对该环境进行了广泛评估，将我们提出的因果方法与非因果基线进行比较。我们的研究结果表明了所提出解决方案的有效性，强调了因果推理如何使自主机器人在与人类共存的动态环境中更有效地运行和操作。

发布时间: 5/13/2025

查看原文

理解学习者-大语言模型聊天机器人互动及提示指南的影响

作者: Cansu Koyuturk, Emily Theophilou, Sabrina Patania, Gregor Donabauer, Andrea Martinenghi, Chiara Antico, Alessia Telari, Alessia Testa, Sathya Bursic, Franca Garzotto, Davinia Hernandez-Leo, Udo Kruschwitz, Davide Taibi, Simona Amenta, Martin Ruskov, Dimitri Ognibene

arXiv:2504.07840v2 公告类型: 替换交叉摘要：大规模语言模型（LLMs）通过使人工智能聊天机器人能够进行基于自然语言的交流，已经彻底改变了人机交互。这些模型被设计得直观且用户友好，使用户能够以最小的努力表达请求。然而，尽管这些模型易于使用，研究表明用户往往在有效提示方面存在困难，导致响应效率低下。现有研究强调了LLMs在解释模糊或结构不良的提示方面的局限性，以及用户在制定精确查询方面面临的困难。本研究通过一项教育实验调查了学习者与AI之间的互动，该实验为参与者提供了有效的提示结构化指导。我们介绍了并比较了三种类型的提示指南：通过结构化方法开发的一种任务特定框架，以及两个基线方法。为了评估用户行为和提示的有效性，我们分析了来自107名用户共642次互动的数据集。使用Von NeuMidas，一种扩展的适用于LLM交互分析的实践注解方案，我们分类了常见的提示错误，并确定了反复出现的行为模式。然后，我们通过观察用户行为的变化、提示策略的遵循情况以及AI生成响应的整体质量，评估了不同指南的影响。我们的发现提供了用户如何与LLMs互动以及结构化提示指导在增强AI辅助沟通中的作用的深入理解。通过比较不同的教学框架，我们为提高用户在AI互动中的能力提供了新的见解，其对于提高AI素养、提高聊天机器人的可用性以及设计更响应式的AI系统具有重要意义。

发布时间: 5/13/2025

查看原文

SCAM：多模态基础模型在现实世界典型排版鲁棒性评估

作者: Justus Westerhoff, Erblina Purelku, Jakob Hackstein, Jonas Loos, Leo Pinetzki, Lorenz Hufe

arXiv:2504.04893v3 宣传类型: 替换交叉摘要：版式攻击利用了文本和视觉内容在多模态基础模型中的相互作用，在图像中嵌入误导性文本时导致分类错误。然而，现有的数据集在规模和多样性方面都有限，这使得研究这些漏洞变得困难。在本文中，我们引入了SCAM，这是迄今为止规模最大、最多样化的实际世界版式攻击图像数据集，包含了跨越数百个对象类别和攻击词汇的1,162张图像。通过在SCAM上对视觉-语言模型（VLMs）进行全面基准测试，我们证明了版式攻击显著降低了性能，并确定了训练数据和模型架构影响这些攻击的易感性。我们的研究发现，由于它们的选择的视觉编码器，最先进的大型视觉-语言模型（LVLMs）仍然存在版式攻击，尽管较大的大型语言模型（LLMs）骨干可以减轻这些攻击的脆弱性。此外，我们证明了合成攻击与真实世界的（手写）攻击极为相似，验证了其在研究中的使用。我们的工作提供了一个全面的资源和实证见解，以促进对鲁棒性和值得信赖的多模态AI系统的未来研究。我们将在www.bliss.berlin/research/scam上公开发布本文中介绍的数据集以及评估代码。

发布时间: 5/13/2025

查看原文

通过特征选择技术增强中风疾病分类的机器学习模型

作者: Mahade Hasan, Farhana Yasmin, Xue Yu

arXiv:2504.00485v2 通知类型: 替换交叉摘要：心血管疾病仍然是全球导致死亡和疾病的主要原因，要求开发准确可靠的预测模型以促进早期检测和干预。尽管最新的工作集中在预测心血管疾病的各种机器学习方法上，但它们未能实现显著的准确性。为应对这一需求，我们应用了九种机器学习算法XGBoost、逻辑回归、决策树、随机森林、k近邻（KNN）、支持向量机（SVM）、高斯朴素贝叶斯（Gaussian NB）、自适应 boosting 和线性回归，基于一系列生理指标来预测心血管疾病。我们的方法涉及特征选择技术，以识别最相关的预测因子，旨在通过细化模型来提高性能和可解释性。我们使用了网格搜索超参数调整和交叉验证等过程来减少过拟合。此外，我们还开发了一种新型的投票系统，结合了特征选择技术，以推动心血管疾病的分类。此外，我们使用关键性能指标（包括准确率、精确率、召回率、F1分数和受试者操作特征曲线下的面积（ROC AUC））对模型进行了评估。在这些模型中，XGBoost表现出色，实现了99%的准确率、精确率、F1分数，98%的召回率和100%的ROC AUC。本研究为早期心血管疾病诊断和预防性医疗提供了有希望的方法。

发布时间: 5/13/2025

查看原文

LightSNN：轻量级稀疏accurate精确神经网络架构搜索

作者: Yesmine Abdennadher, Giovanni Perin, Riccardo Mazzieri, Jacopo Pegoraro, Michele Rossi

arXiv:2503.21846v2 宣传类型: 替换-交叉摘要：脉冲神经网络(SNNs)因其高效的能量消耗，固有的激活稀疏性以及适用于边缘设备的实时处理而备受推崇。然而，当前大多数SNN方法采用类似于传统人工神经网络(ANNs)的架构，这导致在应用于SNNs时表现出次优性能。尽管SNNs在能量效率方面表现出色，但在使用传统架构时，其准确性往往低于传统的ANNs。为此，在本工作中，我们提出了一种名为LightSNN的快速且高效的神经网络架构搜索(NAS)技术，专门针对SNNs，并自主利用最合适的架构，通过强化稀疏性在准确性和效率之间取得良好的平衡。基于脉冲NAS网络(SNASNet)框架，采用包含反向连接的细胞搜索空间来构建我们的无训练剪枝NAS机制。我们的技术利用稀疏感知汉明距离适应性评估不同数据样本中的各种脉冲激活模式。我们在静态数据集(CIFAR10和CIFAR100)和神经形态数据集(DVS128-Gesture)上进行了系统的实验。我们的LightSNN模型在CIFAR10和CIFAR100上达到了最先进的结果，提高了DVS128Gesture数据集的性能4.49%，并且显著减少了搜索时间，相对于SNASNet实现了高达98倍的加速，在DVS128Gesture数据集上运行速度比现有最佳方法快30%。代码在GitHub上可用：https://github.com/YesmineAbdennadher/LightSNN。

发布时间: 5/13/2025

查看原文

基于大语言模型的生成检索幻觉缓解在支付宝搜索中的应用

作者: Yedan Shen, Kaixin Wu, Yuechen Ding, Jingyuan Wen, Hong Liu, Mingjie Zhong, Zhouhan Lin, Jia Xu, Linjian Mo

arXiv:2503.21098v2 宣告类型: replace-cross 摘要：生成式检索（GR）随着大型语言模型（LLMs）的出现已经彻底革新了文档检索，并且基于LLM的GR正逐渐被行业采纳。尽管它具有显著的优势和潜力，但基于LLM的GR在某些情况下会产生幻觉，生成与查询无关的文档，这严重挑战了其在实际应用中的可信度。因此，我们提出了一种优化的GR框架，旨在减轻检索幻觉的问题，该框架在模型训练中结合了知识蒸馏推理，并引入决策代理进一步提高检索精度。具体来说，我们使用LLM来评估和推理从检索中得到的查询-文档（q-d）对，然后将推理数据作为迁移知识传授给GR模型。此外，我们利用决策代理作为后处理步骤，通过检索模型扩展GR检索到的文档，并从多角度选择最相关的文档作为最终的生成式检索结果。我们在真实世界数据集上的离线实验以及在支付宝中的基金搜索和保险搜索的在线A/B测试中均展示了该框架在提高检索质量和转化收益方面的优越性和有效性。

发布时间: 5/13/2025

查看原文

面向6G的自主人工智能网络：一种生成式基础模型作为代理的方法

作者: Yong Xiao, Guangming Shi, Ping Zhang

arXiv:2503.15764v2 Announce Type: replace-cross 摘要：人工智能和网络融合在提高网络性能和启用新服务能力方面的前景最近引起了广泛关注。现有的网络AI解决方案虽然强大，但主要基于闭环和被动学习框架构建，导致在自主解决方案查找和动态环境适应方面存在重大局限性。最近，代理人工智能被引入作为解决上述局限性、通往真正普遍智能并且有益的人工智能系统的道路上的有前途的解决方案。关键是创建一个网络生态系统，以支持多种自主和具身人工智能代理实现其目标。在本文中，我们重点探讨代理人工智能网络的新挑战和要求。我们提出了AgentNet，这是一种支持人工智能代理之间交互、协作学习和知识转移的新框架。我们介绍了AgentNet的通用架构框架，然后提出了一种基于生成基础模型（GFM）的实现，在这种实现中，创建了多个GFM作为代理，形成一个交互知识库，以便根据不同的任务要求和环境特征启动具身人工智能代理的开发。我们考虑了工业自动化基于数字孪生和元宇宙基于信息娱乐系统两个应用场景，以描述如何应用AgentNet支持人工智能代理之间的高效任务驱动协作和交互。

发布时间: 5/13/2025

查看原文

堆砌闪存线性注意力：更高效的线性RNN和xLSTM内核

作者: Maximilian Beck, Korbinian P\"oppel, Phillip Lippe, Sepp Hochreiter

arXiv:2503.14376v2 宣告类型: replace-cross 摘要: 具有门控机制的线性RNN最近在语言建模方面展示了与Transformer相竞争的性能。尽管它们在序列长度上的线性计算扩展在理论上为Transformer提供了运行时间优势，但在实践中实现这些优势需要优化的定制内核，因为Transformer依赖于高度高效的Flash Attention内核（Dao, 2024）。利用线性RNN的分块并行形式，Flash Linear Attention (FLA) (Yang & Zhang, 2024) 显示出线性RNN内核比Flash Attention更快，通过在输入序列的块上并行化实现。然而，由于FLA的块大小有限，许多中间状态必须在GPU内存中实现。这导致了低算术强度和高内存消耗及IO成本，尤其是在长上下文预训练时。在本工作中，我们提出了一种新的线性RNN内核算法Tiled Flash Linear Attention (TFLA)，通过在每个块内引入额外的序列并行化层次，使得可以实现任意大的块大小和高算术强度。首先，我们将TFLA应用于具有矩阵记忆的xLSTM。其次，我们提出了一种具有Sigmoid输入门控和减少计算量的mLSTM变体，即使在相等的语言建模性能下也能实现更快的内核运行时间。在我们的速度基准测试中，我们展示了基于TFLA的新mLSTM内核超越了高度优化的Flash Attention、Linear Attention和Mamba内核，为高效长上下文序列建模提供了新的性能标准。

发布时间: 5/13/2025

查看原文