arXiv 论文列表

作者: Pietro Alessandro Aluffi, Patrick Zietkiewicz, Marya Bazzi, Matt Arderne, Vladimirs Murevics

arXiv:2502.04349v1 宣告类型：交叉摘要：大型语言模型（LLMs）的迅速进化已经改变了对话代理，使其能够实现复杂的人机交互。然而，评估框架往往侧重于单一任务，未能捕捉多轮对话的动态性质。本文介绍了一种动态基准框架，通过与合成用户交互来评估基于LLM的对话代理。该框架结合生成代理模拟，评估其在关键维度上的表现：信息提取、情境意识以及适应性互动。通过模拟用户行为的各方面，我们的工作提供了一种可扩展、自动化且灵活的基准测试方法。应用场景实验（以贷款申请为例）表明，在单次提取和少量示例提取条件下，该框架的有效性得到了验证。结果显示，适应性策略提高了数据提取准确性，特别是在处理模糊响应时更为明显。未来的工作将扩展其在更广泛领域的适用性，并加入额外的评估指标（如对话连贯性、用户参与度）。本研究提供了一种结构化、可扩展的方法来评估基于LLM的对话代理，有助于其实现实际部署。

发布时间: 2/10/2025

查看原文

基于提示的大语言模型深度剪裁

作者: Juyun Wee, Minjae Park, Jaeho Lee

arXiv:2502.04348v1 类别: cross 摘要：深度剪枝旨在通过简单地移除几个不那么重要的变压器块来减少大型语言模型的推理成本，而无需任何针对硬件的特殊复杂性。然而，我们的实验证据表明，变压器块的重要性可能高度依赖于任务——对某个任务至关重要的块在另一个任务上移除后不会降低准确性。基于这一观察，我们开发了一种动态深度剪枝算法，称为PuDDing（Prompt-routed Dynamic Depth Pruning），该算法根据输入提示来确定要从模型中移除哪些块。PuDDing通过训练一个轻量级的路由器来预测在一系列选项中的最佳移除集来运作，其中此选项集也是以数据驱动的方式构建的。在常识推理基准测试上的实证结果表明，PuDDing有效地加速了推理语言模型，并在任务性能上优于静态深度剪枝基线。

发布时间: 2/10/2025

查看原文

SCALM：通过大规模语言模型检测智能合约中的不良实践

作者: Zongwei Li, Xiaoqi Li, Wenkai Li, Xin Wang

arXiv:2502.04347v1 类型: cross 摘要：随着以太坊平台的不断成熟和广泛应用，保持高标准的智能合约编写实践至关重要。尽管不良的智能合约实践可能不会直接导致安全问题，但它们确实增加了遇到问题的风险。因此，为了理解和避免这些不良实践，本文首次系统地研究了智能合约中的不良实践，并探讨了超过35个具体问题。具体而言，我们提出了一种基于大型语言模型（LLMs）的框架，SCALM。该框架结合了反向步进提示和检索增强生成（RAG）技术，以有效地识别和解决各种不良实践问题。我们的多项实验使用了多种LLMs和数据集，结果显示，SCALM在检测智能合约中的不良实践方面优于现有工具。

发布时间: 2/10/2025

查看原文

使用ML、DL和LLM在Tweets/X中进行多语言网络威胁检测：一种比较分析

作者: Saydul Akbar Murad, Ashim Dahal, Nick Rahimi

arXiv:2502.04346v1 交叉公告类型摘要：随着假信息和有害内容在社交媒体平台（如 Twitter，现在称作 'X'）上的传播日益广泛，在当今数字时代，网络威胁检测已成为一个重要领域。这些网络威胁经常隐藏在推文中，对个人、社区乃至国家构成了重大风险，突显了有效检测系统的重要性。虽然之前的研究已经探索了基于推文的威胁，但许多工作局限于特定语言、领域或地理位置，或者依赖于单一模型方法，这限制了其在多种实际场景中的适用性。为了弥补这些不足，我们的研究重点是使用多种先进模型进行多语言推文网络威胁检测。研究分为三个阶段进行：（1）我们使用手动和极性标注方法收集并标注了四种语言（英语、中文、俄语和阿拉伯语）的推文数据集，以确保高质量的注释；（2）通过对每个数据集进行机器学习（ML）和深度学习（DL）模型的单独分析，评估其在不同语言中的性能；（3）最后，我们将这四个数据集合并成一个多语言数据集，并应用深度学习和大型语言模型（LLM）架构来评估它们在多种语言中识别网络威胁的有效性。我们的结果显示，在机器学习模型中，随机森林（RF）获得了最高的性能；然而，Bi-LSTM架构在所有数据集中的表现始终优于其他DL和LLM架构。这些发现证明了Bi-LSTM在多语言网络威胁检测中的有效性。此论文的代码可在以下链接找到：https://github.com/Mmurrad/Tweet-Data-Classification.git。

发布时间: 2/10/2025

查看原文

经方：一种专家级中医诊断与辨证施治的大语言模型

作者: Yehan Yan, Tianhao Ma, Ruotai Li, Xinhan Zheng, Guodong Shan, Chisheng Li

arXiv:2502.04345v1 类别: cross 摘要: 传统中医药（TCM）在健康保护和疾病治疗中发挥着重要作用，但其实际应用需要广泛的医学知识和临床经验。现有的中医药大型语言模型（LLMs）在综合医疗咨询和诊断方面表现出关键的局限性，并且在基于证候辨别的治疗中不够准确。为了解决这些问题，本研究建立了一种名为 JingFang（JF）的新型中医药大型语言模型，展示了专家级的医疗诊断和基于证候辨别的治疗能力。我们创新了一种多智能体动态协作思维链条机制（MDCCTM），使JF具有有效的准确诊断能力。此外，我们开发了一种病证智能体以及双阶段检索方案（DSRS），以显著增强JF基于证候辨别的疾病治疗能力。JingFang 不仅促进了大型语言模型的使用，还促进了中医药在人类健康保护和疾病治疗中的有效实践。

发布时间: 2/10/2025

查看原文

机器学习和深度学习模型在精神疾病检测中的使用教程

作者: Yeyubei Zhang, Zhongyan Wang, Zhanyi Ding, Yexin Tian, Jianglai Dai, Xiaorui Shen, Yunchong Liu, Yuchen Cao

arXiv:2502.04342v1 宣告类型：交叉摘要：社交媒体已成为了解心理健康的重要来源，为研究人员提供了一种从用户生成的帖子中检测如抑郁等条件的方法。本文给出了在这些平台上应用机器学习和深度学习方法进行心理健康检测时遇到的常见挑战的实用指导。它着重介绍了处理多样数据集、改进文本预处理以及解决数据不平衡和模型评估等问题的策略。通过实际案例和逐步说明，展示了如何有效应用这些技术，并强调透明性、可重复性和伦理考虑。通过分享这些方法，本文旨在帮助研究者构建更可靠且广泛适用的心理健康研究模型，从而为早期检测和干预提供更好的工具。

发布时间: 2/10/2025

查看原文

SNAP 社交圈数据集中社区检测算法的比较分析

作者: Yash Malode, Amit Aylani, Arvind Bhardwaj, Deepak Hajoary

arXiv:2502.04341v1 社区检测类型: 交叉摘要：在网络研究中，社区检测一直是网络科学中的一个重要主题，众多论文和算法提出了发现网络内部结构的方法。本文通过对SNAP社交圈数据集进行实验，对该数据集源自Facebook社交媒体网络的几个知名社区检测算法进行了比较分析。所采用的算法包括Louvain、Girvan-Newman、谱聚类、K-Means聚类等。我们基于模块度、归一化切比雪夫比值、轮廓系数、紧凑性和可分性等不同指标来评估这些算法的性能。我们的研究结果揭示了每种算法在检测社交网络中各种有意义的社区方面的有效性，指出了它们的优点和局限性。该研究有助于理解社区检测方法，并为在分析真实世界社交网络时应用这些方法提供了有价值的指导。

发布时间: 2/10/2025

查看原文

自适应思维图：测试时自适应推理，统一链、树和图结构

作者: Tushar Pandey, Ara Ghukasyan, Oktay Goktas, Santosh Kumar Radha

arXiv:2502.05078v1 宣告类型: 新摘要: 大型语言模型（LLMs）展示了令人印象深刻的推理能力，但它们的表现高度依赖于提示策略和模型规模。尽管强化学习和微调已被部署以增强推理，但这些方法会带来巨大的计算和数据开销。在本工作中，我们提出了适应性思想图（AGoT），这是一种动态的、基于图的推理框架，仅在测试时增强LLM的推理能力。AGoT 不依赖于固定步长的方法（如思维链（CoT）或思维树（ToT）），而是递归地将复杂查询分解为结构化的子问题，形成一个动态的有向无环图（DAG），包括相互依赖的推理步骤。通过仅扩展那些需要进一步分析的子问题，AGoT 统一了链式、树状和图状范式的优点，形成一个协调的框架，将计算资源集中使用在最需要的地方。我们在涵盖多跳检索、科学推理和数学问题解决等多样基准上进行了验证，科学推理任务（GPQA）的最佳表现提高了46.2%，这与通过密集计算的强化学习方法获得的收益相当，并优于最先进的迭代方法。这些结果表明，动态分解和结构化递归提供了一种可扩展且成本效益高的替代方案，即后训练修改的替代方案，为LLMs提供了更稳健和通用的推理。

发布时间: 2/10/2025

查看原文

组合数据上的计算与学习

作者: Simon Zhang

arXiv:2502.05063v1 通告类型: 新摘要：21世纪是一个数据驱动的时代，人类的活动和行为、物理现象、科学发现、技术进步以及世界上几乎发生的一切都导致了数据的大规模生成、收集和利用。数据间的连接性是一个极其重要的属性。一个简单的例子是万维网，其中每一个网页都通过超链接与其他网页相连，提供了一种有向连接的形式。组合数据是指根据某些连接规则组合的数据项。其他形式的组合数据包括社交网络、网格、社区聚类、集合系统和分子。本博士学位论文专注于组合数据的学习和计算。我们研究并分析连接数据内部和跨连接的数据的拓扑和连接性特征，以提高学习性能并实现高算法效率。

发布时间: 2/10/2025

查看原文

分析高级AI系统与生命和意识的定义相悖之处

作者: Azadeh Alavi, Hossein Akhoundi, Fatemeh Kouchmeshki

arXiv:2502.05007v1 通告类型: 新摘要: 人工智能是否有可能在功能意义上真正达到意识状态；本文通过生命这一概念的视角探讨了这一开放式问题，该概念统一了牛津、NASA和Koshland提出的基本生物学标准，以及诸如适应性自我维持、涌现复杂性和原始的自我参照建模等实证特征。我们提出了若干度量标准，以评估高级AI系统是否获得了意识，同时强调我们并不声称所有AI分支都能达到意识状态。相反，我们认为具有免疫样破坏防御、镜像自我识别模拟或元认知更新的足够先进架构或许能跨越类似生命样或意识样的关键阈值。为展示这些想法，我们首先评估了适应性自我维持能力，并在训练过程中引入了受控数据破坏攻击。结果表明，AI具备检测这些不一致并恢复或自我纠正的能力，类似于再生生物学过程。我们还借鉴动物启发的镜像自我识别测试，将其应用于神经嵌入，发现部分训练的CNN能够完全准确地区分自我特征与其他外来特征。然后，我们通过在五款最先进的聊天机器人（ChatGPT4、Gemini、Perplexity、Claude和Copilot）上进行基于问题的镜像测试，展示了它们能够识别自己的答案与来自其他聊天机器人的答案的不同。

发布时间: 2/10/2025

查看原文