arXiv:2504.00047v1 Announce Type: cross
摘要:微流控活细胞成像提供了微生物细胞工厂的数据。然而,连续获取数据具有挑战性,因为高通量实验往往缺乏实时洞察,从而延迟了对随机事件的响应。我们引入了实验自动化管道(Experiment Automation Pipeline)中的三个组件以实现事件驱动的显微镜智能微流控单细胞分析:一种快速准确的深度学习自动对焦方法,用于预测对焦偏移;实时分割方法的评估;以及实时数据分析仪表板。我们的自动对焦方法达到了0.0226μm的均方绝对误差,并且推断时间低于50ms。在 eleven 种深度学习分割方法中,Cellpose 达到了 93.58% 的全景质量,而基于距离的方法最快(121ms,全景质量 93.02%)。所有的六种深度学习基础模型都不适合实时分割。
arXiv:2504.00046v1 交叉主题类型:跨领域
摘要:近年来,社交媒体已成为用户在灾难和紧急情况下迅速分享反馈和问题的主要渠道,在危机管理中发挥着关键作用。虽然在收集和分析社交媒体内容方面取得了显著进展,但仍迫切需要通过增强自动化、聚合和定制来提升这些数据的价值,以便为包括新闻界、警察、紧急医疗服务和消防员在内的多样化的利益相关者提供量身定制的见解。这对于提高救助努力、资源分配和媒体沟通等协调活动至关重要。本文提出了一种方法,利用大语言模型(LLM)的能力来增强灾难响应和管理。我们的方法结合了分类技术和生成式AI,以弥合用户反馈和利益相关者特定报告之间的差距。在灾难性事件期间共享的社交媒体帖子被分析,重点关注用户报告的问题、服务中断以及遇到的挑战。我们使用全谱范围的大语言模型,利用像BERT这样的分析模型来精确、多维度地分类内容类型、情感、情感、地理定位和主题。然后使用生成式模型如ChatGPT来生成针对不同受众的人类可读、信息丰富的报告,通过详细分类综合产生的见解。我们将传统的分析方法,使用直接在ChatGTP中使用提示来进行帖子分析,与我们的先进方法进行了比较,该方法采用了多维度分类、子事件选择和定制报告生成策略。我们的方法在定量指标(如文本一致性分数和潜在表示)和自动工具和现场专家进行的定性评估中都表现出优越的性能,为多样化的灾难响应利益相关者提供了精确的见解。
arXiv:2504.00043v1 类型: cross
摘要: 当前用于大型语言模型(LLMs)和大型视觉-语言模型(LVLMs)的推理评估框架主要侧重于评估基于文本的推理或视觉-语言理解能力,但缺乏文本和视觉约束之间的动态互动。为解决这一限制,我们引入了CrossWordBench,这是一个基准测试,旨在通过 crossword 拼字游戏这一媒介评估LLMs和LVLMs的推理能力,该任务要求同时遵循文本线索的语义约束和视觉栅格结构的交叉约束。CrossWordBench 利用了一种可控的拼图生成框架,能够生成多种格式(文本和图像)的拼图,并提供了从直接拼图解决到互动模式的不同评估策略。我们对超过20个模型的广泛评估表明,具备推理能力的LLMs在有效利用交叉字母约束方面显著优于非推理模型。我们还展示了LVLMs在该任务中遇到困难,其拼图解决性能与栅格解析准确性之间存在很强的相关性。我们的研究结果提供了对当前LLMs和LVLMs推理能力限制的见解,并提供了一种有效的创建多模态约束任务的方法,以供未来评估使用。
arXiv:2504.00040v1 交叉公告类型
摘要:Categorical Compositional Distributional(DisCoCat)框架使用量子理论的数学框架,通过形式图来建模自然语言的意义。DisCoCat 图可以与张量网络和量子电路相关联。在量子自然语言处理(QNLP)的各种上下文中,DisCoCat 图与密度矩阵有所关联。先前在 QNLP 中使用密度矩阵涉及将多义词建模为更基本词的概率分布(例如,“queen”这个词可能指的是在位的女王或国际象棋中的棋子)。在本文中,我们研究了使用过程的概率分布来解释句子中的句法多义性。这些句子的意义通过密度矩阵来表示。我们展示了如何在量子电路中创建表示句子意义的概率分布,并解释了这种方法如何扩展文献中的任务。我们进行了一个实验来验证所提出的理论。
arXiv:2504.00038v1 宣告类型: cross
摘要:对抗训练(AT)是一种有效的方法,用于增强对抗鲁棒性,但通常会以牺牲泛化能力为代价。最近的研究试图利用干净的训练来辅助对抗训练,然而不同的结论之间存在矛盾。我们全面总结了代表性策略,并以多视角假说为重点,为不同研究中的矛盾现象提供了一个统一的解释。此外,我们深入分析了先前研究中干净训练模型向对抗训练模型转移的知识组合,并发现它们可以分为两类:降低学习难度和提供正确的指导。基于这一发现,我们提出了一种新的想法,即利用干净训练进一步提高高级AT方法的性能。我们揭示了对抗训练面临泛化能力下降部分原因是其在学习某些样本特征方面存在困难,而通过充分利用干净训练,这一问题可以得到缓解。
arXiv:2504.00037v1 类型:跨架构蒸馏
摘要:视觉变换器(ViTs)通过全局自注意力取得了显著的进步,但它们的 quadratic 复杂度对于高分辨率输入可能会变得不可接受。在本文中,我们提出了一种名为 ViT-Linearizer 的跨架构蒸馏框架,该框架将丰富的 ViT 表示转为线性时间、循环风格的模型。我们的方法采用了 1) 激活匹配,这是一种中间约束,鼓励学生调整其逐令牌依赖关系,使之与教师产生的依赖关系对齐,以及 2) 掩码预测,这是一个上下文重构目标,要求学生预测教师对于未见(掩码)令牌的表示,从而有效地将 quadratic 自注意力的知识转移至学生,同时保持高效复杂度。实验结果表明,我们的方法在高分辨率任务中提供了显著的速度提升,显著解决了推理过程中的硬件挑战。此外,它还提升了基于 Mamba 的架构在标准视觉基准上的性能,在基线规模模型上,ImageNet 的顶级准确率达到 84.3%。我们的结果突显了基于 RNN 的解决方案对于大规模视觉任务的良好潜力,缩小了理论效率与实际应用之间的差距。
arXiv:2504.00036v1 Announce Type: cross
摘要:机器学习已经在关键领域,如医学中取得了成功。然而,从生物医学数据中提取有意义的洞察往往受到可用疾病标签缺乏的限制。在本研究中,我们展示了即使在疾病建模预测改进有限的情况下,机器学习如何被利用来增强可解释性并揭示生物意义的相关性。我们从头训练了10K数据集上的LightGBM模型来填补代谢组学特征,并将这些特征应用于UK生物银行(UKBB)进行下游分析。填充的代谢组学特征随后被用于生存分析以评估其对疾病相关风险因素的影响。结果,我们的方法成功识别了先前预测模型未知的生物相关联接。此外,我们对关键代谢组学特征进行了全基因组关联研究(GWAS),揭示了血管性痴呆与吸烟之间的关联。尽管这是一条已确立的流行病学关系,但这种关联并未包含在模型的训练数据中,这验证了该方法提取有意义信号的能力。此外,通过将生存模型作为输入整合到10K数据中,我们发现了代谢物质与肥胖之间的关联,证明了在无需直接结果标签的情况下推断未来患者疾病风险的能力。这些发现突显了利用外部生物库在数据有限的情况下提取有价值的生物医学洞察的潜力。我们的结果表明,当仔细结合生存分析和遗传研究时,基于较小数据集训练的机器学习模型仍然可以用于揭示真实的生物关联。
arXiv:2504.00035v1 宣告类型: cross
摘要: 在上下文学习(ICL)和高效微调方法的推动下,大型语言模型(LLMs)在下游任务中的应用效率得到了显著提升。然而,这也引发了关于模仿和侵犯个人创造性数据版权的担忧。当前的数据版权保护方法主要集中在内容安全上,但在保护文本风格版权方面缺乏有效性。在本文中,我们介绍了一种新颖的隐式零水印方案,即MiZero。该方案建立了一个精确的水印领域,用于保护受版权保护的风格,超越了传统的扭曲风格特征的水印方法。具体而言,我们利用LLMs和设计的实例分隔机制提取凝练列表,这些列表引导MiZero生成水印。广泛的实验表明,MiZero有效地验证了文本风格的版权归属,对抗AI模仿。
arXiv:2504.00031v1 类型: cross
摘要: 为了有效地将大型语言模型(LLMs)部署到特定应用场景中,通常会应用微调技术来增强其在专门任务上的性能。这一过程往往涉及使用用户数据进行微调,而这些用户数据可能包含敏感信息。尽管不被推荐,但用户在消息中发送密码的情况并非罕见,如果在微调模型时使用这些数据,可能会导致密码泄露。在本研究中,使用了低秩适应(LoRA)技术对客户支持数据和来自RockYou密码字典的密码进行了微调。从密码列表前200个密码中,有37个被成功恢复。进一步地,因果追踪表明密码信息主要集中在少数几层。最后,使用了一种名为单秩模型编辑(ROME)的技术从模型中移除密码信息,结果使得被恢复的密码数量从37降至0。
arXiv:2504.00030v1 类型: cross
摘要:推测性解码通过使用较小的草稿模型来提出标记,然后由较大的目标模型验证,从而加快大型语言模型(LLM)的推理速度。然而,选择一个最佳的推测长度对于最大化速度提升并最小化不必要的计算至关重要。我们引入了 \textit{GammaTune} 和 \textit{GammaTune+},这两种无需训练的自适应算法可以根据标记接受率动态调整推测长度,并采用基于启发式的切换机制。在 SpecBench 上跨多个任务和模型对进行评估,我们的方法在其他基于启发式的做法和固定长度的推测性解码中表现更佳,使用 \textit{GammaTune} 实现了平均 15%(±5%)的速度提升,使用 \textit{GammaTune+} 实现了 16%(±3%)的速度提升,同时减少了性能波动。这使 \textit{GammaTune} 成为一种在实际部署中稳健且高效的解决方案。