arXiv 论文列表

作者: Arefeh Kazemi, Sri Balaaji Natarajan Kalaivendan, Joachim Wagner, Hamza Qadeer, Brian Davis

arXiv:2502.15860v2 Announce Type: replace-cross 摘要：网络霸凌（CB）对儿童构成了紧迫的威胁，凸显了迫切需要 robust 的检测系统以确保在线安全。然而，开发此类系统的进展受到大型、特定于专门任务和目标年龄组的标记数据集稀缺性的阻碍。创建这些数据集在很大程度上依赖于人工注释，不仅耗费资源，还因标注人员接触到有害内容而引发伦理和法律方面的重大关切，尤其是在从脆弱群体（如儿童）中获取此类数据时。本文通过利用大型语言模型（LLMs）生成合成数据和标签，来应对这些挑战。我们的实验表明，合成数据使基于 BERT 的 CB 分类器能够达到与在全真数据集上训练的分类器相近的性能（准确率为 75.8% 对 81.5%）。此外，LLMs 还能有效地为真实但未标记的数据进行标注，从而使基于 BERT 的分类器达到相当的性能水平（准确率为 79.1% 对 81.5%）。这些结果突显了 LLMs 作为生成 CB 检测所需数据的可扩展、伦理和经济有效的解决方案的潜力。

发布时间: 4/8/2025

查看原文

胎儿CLIP：胎儿超声图像分析的视觉-语言基础模型

作者: Fadillah Maani, Numan Saeed, Tausifa Saleem, Zaid Farooq, Hussain Alasmawi, Werner Diehl, Ameera Mohammad, Gareth Waring, Saudabi Valappi, Leanne Bricker, Mohammad Yaqub

arXiv:2502.14807v2 宣告类型: replace-cross 摘要：基础模型在医疗领域的应用越来越有效，提供了可以在大型数据集上预先训练的模型，这些模型可以轻松地适应下游任务。尽管取得了进展，但胎儿超声图像仍然是基础模型面临的一个具有挑战性的领域，这主要是由于其固有的复杂性，通常需要大量的额外训练，并且由于配对多模态数据的稀缺性而受到限制。为了克服这些挑战，我们在这里引入了FetalCLIP，这是一种具备生成胎儿超声图像通用表示能力的视觉-语言基础模型。FetalCLIP通过配对有210,035张胎儿超声图像和文本的多样数据集进行多模态学习进行预先训练。这是迄今为止用于基础模型开发的最大规模的配对数据集。这种独特的训练方法使FetalCLIP能够有效地学习胎儿超声图像中存在的复杂解剖特征，从而生成稳健的表示，这些表示可以用于各种下游应用。在包括分类、孕周估计、先天性心脏病（CHD）检测以及胎儿结构分割在内的多种关键胎儿超声应用的广泛基准测试中，FetalCLIP超越了所有基线模型，同时展示出了出色的推广能力和即使在有限标注数据的情况下仍具有强大的性能。我们计划为更广泛的科学界公开发布FetalCLIP模型。

发布时间: 4/8/2025

查看原文

基于试验-错误-解释的上下文学习个性化对齐无参调优

作者: Hyundong Cho, Karishma Sharma, Nicolaas Jedema, Leonardo F. R. Ribeiro, Alessandro Moschitti, Ravi Krishnan, Jonathan May

arXiv:2502.08972v3 通告类型: replace-cross 摘要：语言模型与集体的声音对齐，导致生成的输出并不符合特定用户的风格。在本文中，我们提出了一种无需调优的方法——试错解释上下文学习（TICL），该方法通过少于10个用户的示例来个性化语言模型以进行文本生成任务。TICL 通过试错解释过程迭代地扩展上下文学习提示，添加由模型生成的负样本和解释，这些负样本和解释提供具体的指导以适应特定用户的风格。TICL 在与LLM作为裁判的两两比较中取得了高达91.5%的优势胜率，并且在个人化对齐任务中撰写电子邮件、文章和新闻文章方面优于竞争性的无需调优基线。无论是从词汇层面还是定性层面的分析都表明，负样本和解释使得语言模型能够更有效地学习风格化的上下文，并克服了它们零样本输出中对结构化和正式短语的偏差。通过提前加载推理计算来创建一个针对特定用户的上下文学习提示，该方法在测试时不需要额外的生成步骤，TICL 提出了一种新颖而简单的个人化对齐方法。

发布时间: 4/8/2025

查看原文

MetaSC：语言模型的测试时安全规范优化

作者: V\'ictor Gallego

arXiv:2502.07985v2 宣告类型: replace-cross 摘要：我们提出了一种新型动态安全框架，在不修改模型权重的情况下优化语言模型（LM）的安全推理。该方法基于最近在自我批判方法方面的进展，利用了一个元批判机制，该机制迭代更新称为规范的安全提示，以适应地推动批判和修订过程。此测试时优化不仅提高了对对抗性逃狱请求的性能，还在多种通用安全相关任务中也产生了提高，如避免道德危害或追求诚实的回答。我们在几种语言模型上的实证评估表明，动态优化的安全提示比固定系统提示和静态自我批判防御带来了显著更高的安全得分。代码已发布在 https://github.com/vicgalle/meta-self-critique.git 。

发布时间: 4/8/2025

查看原文

通过大规模语言模型的数据合成与分析实现 scalable 和伦理化的内部威胁检测

作者: Haywood Gelman, John D. Hastings

arXiv:2502.07045v2 宣告类型：替换-交叉摘要：内部威胁在组织中的影响力远超其人数所应有的程度，这主要是由于内部人员对系统、信息和基础设施的内部访问权限。例如，匿名用户提供基于网络的职业搜索网站评论，这种行为对组织构成了内部威胁的风险。此类风险信号可能存在于公开的职业搜索网站评论的匿名提交中。本研究探讨了大型语言模型（LLMs）在分析和检测职业网站评论中的内部威胁情绪方面的潜力。为解决伦理的担忧数据收集问题，本研究利用LLMs生成合成数据，结合现有的职业评论数据集。对生成的语氧行为评分与专家人工评分进行了对比分析。研究结果表明，在大多数情况下，LLMs与人工评价表现出一致，从而有效地识别出威胁情绪的细微指标。在人类生成的数据上的表现低于合成数据，这表明在评估真实世界数据方面仍有改进空间。文本多样性分析发现，人类生成的数据集和LLM生成的数据集之间存在差异，且合成数据的多样性略低。总体而言，结果表明LLMs在内部威胁检测中的应用潜力，并通过克服与数据收集相关的伦理和后勤障碍，提供了一个可扩展的内部情绪测试解决方案。

发布时间: 4/8/2025

查看原文

“感觉就像被弃置在暗处”：探索重症护理环境中老年患者家属的信息需求及设计机会

作者: Shihan Fu, Bingsheng Yao, Smit Desai, Yuqi Hu, Yuling Sun, Samantha Stonbraker, Yanjun Gao, Elizabeth M. Goldberg, Dakuo Wang

arXiv:2502.05115v2 通报类型：替换-交叉摘要：老年患者的患者群体在重症监护病房（ICU）患者中正在迅速增长。在这种情况下，家属护理人员被期望代表昏迷的患者访问和解释患者的医疗信息。然而，目前护理人员不得不依赖负担过重的临床医生进行信息更新，并且通常缺乏理解复杂医学信息的健康素养。我们的项目旨在探讨ICU老年患者家属的信息需求，从中我们可以提出设计机会，以指导未来的AI系统。该项目从对11位护理人员的形成性访谈开始，以识别他们在访问和解释医疗信息方面的挑战；从这些发现中，我们进一步总结了设计要求，并提出了一种AI系统原型以应对护理人员的挑战。该系统原型具有两个关键功能：时间轴可视化，展示AI提取和总结的老年患者的关键医疗事件；以及基于LLM的聊天机器人，提供具有上下文感知的信息支持。我们在论文的结论部分报告了对该系统的后续用户体验评估，并讨论了针对老年患者ICU护理人员的未来基于AI的系统。

发布时间: 4/8/2025

查看原文

协作推理以实现高效的大语言模型解码和 token 级路由

作者: Wenhao Zheng, Yixiao Chen, Weitong Zhang, Souvik Kundu, Yun Li, Zhengzhong Liu, Eric P. Xing, Hongyi Wang, Huaxiu Yao

arXiv:2502.01976v4 宣告类型: replace-cross 摘要：大型语言模型在各种任务上取得了显著的成功，但在推理过程中面临着高昂的计算成本问题，这限制了它们在资源受限的应用中的部署。为了解决这一问题，我们提出了一种名为 Token 级路由协作推理 (CITER) 的新框架，该框架通过 Token 级路由策略使小规模和大规模语言模型 (SLMs & LLMs) 之间能够高效协作。具体而言，CITER 将非关键 Token 转发给 SLM 以提高效率，将关键 Token 转发给 LLM 以获得泛化质量。我们将路由器训练作为策略优化过程，路由器根据预测质量和生成的推理成本获得奖励。这使得路由器能够学习预测 Token 级路由分数，并基于当前 Token 和其决策对未来影响做出路由决策。为了进一步加速奖励评估过程，我们引入了一种捷径，大幅减少了奖励估计的成本，提高了我们方法的实用性。在五个基准数据集上的 extensive 实验表明，CITER 在降低推理成本的同时保持了高质量的生成，为实时和资源受限的应用提供了有前途的解决方案。我们的数据和代码可在 https://github.com/aiming-lab/CITER 获取。

发布时间: 4/8/2025

查看原文

TinyML 生命周期与大型语言模型整合：现实、幻觉还是机遇？

作者: Guanghan Wu, Sasu Tarkoma, Roberto Morabito

arXiv:2501.12420v2 宣告类型: replace-cross 摘要：物联网（IoT）应用不断演进的需求正推动着越来越多的智能边缘计算，使在资源受限的环境中实现实时洞察和决策成为可能。轻量级机器学习（TinyML）已成为这一演进的关键推动因素，促进了如微控制器和嵌入式系统等设备上的ML模型部署。然而，管理TinyML生命周期的复杂性，包括数据处理、模型优化和转换以及设备部署等阶段，带来了一系列重大挑战，往往需要大量的人工干预。鉴于这些挑战，我们开始探索大型语言模型（LLMs）是否能够帮助自动化和简化TinyML生命周期。我们开发了一个框架，该框架利用了LLMs的自然语言处理（NLP）和代码生成能力，以减少开发时间和降低TinyML部署的门槛。通过一个涉及计算机视觉分类模型的案例研究，我们展示了该框架在自动化TinyML生命周期的关键阶段方面的能力。我们的发现表明，LLM驱动的自动化有可能改进生命周期开发过程并适应多样化的需要。然而，尽管这种方法显示出前景，但在实现完全自动化解决方案方面仍存在障碍和限制。本文揭示了将LLMs整合到TinyML工作流中所面临的挑战和机遇，为高效、AI辅助的嵌入式系统开发提供了宝贵的见解。

发布时间: 4/8/2025

查看原文

利用生成对抗网络优化活跃外观模型的模型拟合

作者: Anurag Awasthi

arXiv:2501.11218v3 宣传类型：替换-交叉摘要：活动外观模型（AAMs）是一种成熟的用于将可变形模型拟合到图像中的技术，但它们受到线性外观假设的限制，并且在处理复杂变化时会遇到困难。在本文中，我们探讨了是否可以通过生成对抗网络（GAN）来改进AAM的拟合过程。我们使用基于U-Net的生成器和PatchGAN判别器构建了一个GAN增强框架，在拟合过程中尝试细化外观模型。这种方法试图解决传统AAM优化方法可能无法处理的非线性外观变化和遮挡等挑战。在面部对齐数据集上的有限实验表明，增强的GAN-AAM在某些手动干预下可以比经典方法实现更高的准确性和更快的收敛速度。这些结果表明GAN作为一种工具，在困难条件下提高可变形模型拟合的可行性和高效性能的可行性，并且表明未来需要更多面向大规模评估的进一步工作来验证这一方法。

发布时间: 4/8/2025

查看原文

使用语义图增强不确定性建模以检测幻觉

作者: Kedi Chen, Qin Chen, Jie Zhou, Xinqi Tao, Bowen Ding, Jingwen Xie, Mingchen Xie, Peilong Li, Feng Zheng, Liang He

arXiv:2501.02020v3 宣告类型: replace-cross 摘要：大型语言模型（LLMs）容易生成非事实或不忠实的陈述，这损害了其在现实世界场景中的应用。最近的研究集中在基于不确定性的幻觉检测上，通过利用LLM的输出概率来进行不确定性的计算，而无需依赖外部知识或频繁从LLM中抽样。然而，大多数方法仅考虑单个独立词的不确定性，而词和句子间的复杂语义关系并未得到充分研究，这限制了对跨越多个词和句子的幻觉的检测。在本文中，我们提出了一种通过语义图增强不确定性建模以提高幻觉检测的方法。具体而言，我们首先构建了一个能够很好地捕捉实体词和句子间关系的语义图。然后，我们将两个实体之间的关系纳入不确定性传播中，以增强句子级别的幻觉检测。鉴于幻觉是由于句子间的冲突引起的，我们还提出了一种基于图的不确定性校准方法，该方法将句子与其语义图中邻居的矛盾概率结合起来，用于不确定性计算。在两个数据集上的广泛实验表明，我们提出的方法具有巨大的优势，特别是在段落级别的幻觉检测中，我们获得了19.78%的显著改进。

发布时间: 4/8/2025

查看原文