arXiv 论文列表

作者: Maria Dhakal, Chia-Yi Su, Robert Wallace, Chris Fakhimi, Aakash Bansal, Toby Li, Yu Huang, Collin McMillan

arXiv:2505.09021v1 类型: cross 摘要：本文描述了一种通过使用定制的人工智能（AI）工具重写代码注释以在不同质量维度上改进代码注释的方法。我们首先进行一项实证研究，然后采用基于扎根理论的定性分析来确定需要改进的质量维度。然后，我们提出了一种使用大型语言模型（LLM）来沿质量维度重写现有代码注释的程序。我们使用GPT-4o 实施了该程序，然后将其精简为一个可以在内部运行的小型模型，以便用户可以保持数据的所有权。我们分别评估了使用GPT-4o 实现的方法及其精简模型版本。我们在评估中展示了该程序如何在质量维度上改进代码注释。我们将在一个在线仓库中发布所有数据和源代码，以实现可重复性。

发布时间: 5/15/2025

查看原文

基于自动编码器驱动的任务和新环境识别的持续强化学习

作者: Zeki Doruk Erden, Donia Gasmi, Boi Faltings

arXiv:2505.09003v1 宣传类型: 横向摘要: 对于强化学习代理来说，持续学习仍然是一个重大挑战，特别是在没有外部信号指示任务或环境变化的情况下保留和利用现有信息。在这项研究中，我们探讨了自动编码器在检测新任务以及将观察到的环境匹配到先前遇到的环境中方面的有效性。我们的方法将策略优化与熟悉自动编码器结合在一个端到端的持续学习系统中。该系统可以识别并学习新任务或环境，同时保留早期经历的知识，并且在重新遇到已知环境时可以选择性地检索相关知识。初步结果表明，在没有外部信号指示任务变化或重遇的情况下，可以实现成功的持续学习，这为该方法论前景带来了希望。

发布时间: 5/15/2025

查看原文

机器学习中的图形处理

作者: Majed Jaber, Julien Michel, Nicolas Boutry, Pierre Parrend

arXiv:2505.08964v1 通告类型: 交叉摘要：动态网络中复杂、多步骤和快速演变的攻击剧增，要求具备先进网络威胁检测能力。GPML（Graph Processing for Machine Learning）库通过将原始网络流量痕迹转换为图表示形式，解决了这一需求，从而为网络行为提供高级洞察。该库提供了工具以在动态网络中检测交互异常和社区迁移。GPML 支持社区和谱度量的提取，增强实时检测和历史取证分析能力。该库采用坚固的基于图的方法，应对现代网络安全挑战。

发布时间: 5/15/2025

查看原文

追踪无形之物：理解学生在AI支持设计工作中的判断

作者: Suchismita Naik, Prakash Shukla, Ike Obi, Jessica Backus, Nancy Rasche, Paul Parsons

arXiv:2505.08939v1 Announce Type: 交叉摘要：随着生成式AI工具被集成到设计工作流程中，学生们越来越多地将这些工具不仅仅用作辅助工具，而是作为合作者使用。本研究分析了来自33个学生团队在人机交互设计课程中的反思，以探讨学生们在使用AI工具时所做的判断。我们发现了设计判断的既定形式（例如，工具性、欣赏性、质量）和新兴类型：代理分配判断和可靠性判断。这些新类型捕捉了学生们与AI协商创意责任以及评估其输出可信度的方式。我们的研究结果表明，生成式AI为设计推理引入了新的复杂层面，促使学生不仅要反思AI生产了什么，还要思考何时依靠它。通过对这些判断的凸显，我们提供了一个概念框架，用以理解学生在设计情境中如何与AI进行协同创意的解释工作。

发布时间: 5/15/2025

查看原文

基于模板引导的肺段重建方法：神经隐式函数的应用

作者: Kangxian Xie, Yufei Zhu, Kaiming Kuang, Li Zhang, Hongwei Bran Li, Mingchen Gao, Jiancheng Yang

arXiv:2505.08919v1 宣告类型: cross 摘要: 肺段的高質量三维重建在肺癌的肺段切除手术和手术治疗计划中起着至关重要的作用。由于目标重建所需的分辨率要求，传统的基于深度学习的方法往往受到计算资源限制或粒度有限的限制。相反，隐式建模因其在任何分辨率下的计算效率和连续表示而受到青睐。我们提出了一种基于神经隐式函数的方法来学习一个3D表面，以实现解剖学意识的、精确的肺段重建，通过变形可学习的模板表示为形状。此外，我们引入了两个临床相关的评估指标来全面评估重建。由于缺乏公开可用的形状数据集来基准重建算法，我们开发了一个名为Lung3D的形状数据集，其中包括800个标记的肺段的3D模型及其相应的气道、血管、静脉和肺段间静脉。我们证明了所提出的方法优于现有方法，为肺段重建提供了新的视角。代码和数据将在 https://github.com/M3DV/ImPulSe 获取。

发布时间: 5/15/2025

查看原文

当重复序列驱动词汇：T2T灵长类基因组的字节对编码分析

作者: Marina Popova, Iaroslav Chelombitko, Aleksey Komissarov

arXiv:2505.08918v1 交叉类型: cross 摘要：telomere-to-telomere (T2T)基因组装配的出现为比较基因组学开辟了新的途径，然而对于基因组序列的有效分词策略仍鲜有探索。在本试点研究中，我们使用字节对编码（BPE）对包括三个人类装配在内的九个T2T灵长类基因组进行了应用，采用我们自定义的工具dnaBPE对固定词汇量为512,000个分词的独立BPE分词器进行了训练。我们的分析表明，所有装配之间仅有11,569个分词是共享的，而几乎991,854个分词仅属于单一基因组，这表明随着装配比较的增加，共享词汇量急剧下降。此外，基于分词重叠推导的系统发育树未能重现现有灵长类关系，这一差异归因于特定物种高度重复元素的不成比例影响。这些发现突显了BPE分词的双重性质：虽然它有效地压缩了重复序列，但其对高拷贝元素的敏感性限制了其作为通用工具在比较基因组学中的应用。我们讨论了潜在的混合策略和重叠重复序列处理方法，强调了在开发大规模基因组语言模型时对领域特定适应性的需求。用于本研究的dnaBPE工具是开源的，并可在https://github.com/aglabx/dnaBPE获得。

发布时间: 5/15/2025

查看原文

一种基于范畴语义的新可处理描述逻辑

作者: Chan Le Duc, Ludovic Brieulle

arXiv:2505.08916v1 公告类型：交叉摘要：生物医学本体包含大量的涉及负知识的概念或角色名称，如 lacks_part、absence_of。这种使用标签而不是逻辑构造器的表示方式不允许推理器将 lacks_part 解释为 has_part 的一种否定形式。已知将否定引入可处理的描述逻辑（DL）EL，允许合取、存在限制和概念包含，会使其变得不可处理，因为获得的逻辑隐含地包含了析取和普遍限制，这些与其它构造器相互作用。在本文中，我们提出了一种新的 EL 扩展，允许表示负知识的同时保持可处理性。为此，我们引入了描述逻辑 SH（包括 EL、析取、否定、普遍限制、角色包含和传递角色）所有逻辑构造器的范畴语义。逻辑构造器的范畴语义通常描述为涉及多个对象的一组范畴性质，而不使用集合成员关系。为了恢复可处理性，我们需要通过识别导致不可处理的独立范畴性质并删除它们来削弱析取和普遍限制的语义。我们证明，削弱语义后得到的逻辑比 EL（包含底部概念、传递角色和角色包含）更为表达力强。

发布时间: 5/15/2025

查看原文

FareShare：一个工会用于估计损失工资并挑战任意AI和算法停用的工具

作者: Varun Nagaraj Rao, Samantha Dalal, Andrew Schwartz, Amna Liaqat, Dana Calacci, Andr\'es Monroy-Hern\'andez

arXiv:2505.08904v1 通知类型: 全文摘要: 当一位跑腿司机突然被平台切断联系，失去了与乘客、工资和日常工作联系时会发生什么？停用—— gig 工作者突然失去平台访问权限——通常通过任意的 AI 和算法决策进行，而几乎没有解释或申诉途径。这代表了最严重的算法控制形式之一，并且经常严重破坏工人的经济稳定性。最近，美国各州的政策现在要求在基于过去收入的错误停用期间提供申诉程序和恢复补偿。然而，劳工组织者仍然缺乏有效的工具来支持这些复杂、容易出错的工作流程。我们与华盛顿州最大的跑腿劳工工会合作了六个月，设计了 FareShare，这是一种计算工具，通过自动化被停用司机的工资损失估算。在随后的三个月中，我们在现场部署 FareShare 注册了 178 个账户注册。我们观察到，该工具可以将工资损失计算时间减少超过 95%，消除手动数据录入错误，并使法律团队能够更有效地生成仲裁文件。除了这些收益之外，部署还揭示了在高风险劳工环境中信任、同意和工具采用的重要的社会技术挑战。

发布时间: 5/15/2025

查看原文

LLMs与人类世界中的人工智能模型相比，人类在其中的作用所带来的性能提升

作者: Lucas McCullum, Pelagie Ami Agassi, Leo Anthony Celi, Daniel K. Ebner, Chrystinne Oliveira Fernandes, Rachel S. Hicklen, Mkliwa Koumbia, Lisa Soleymani Lehmann, David Restrepo

arXiv:2505.08902v1 Announce Type: cross 摘要：目前，相当一部分研究精力被用来将大型语言模型（LLM）与一群人类专家进行比较，而“专家”这一术语在这种情境下往往定义模糊或随不同状态不断变化，特别是随着LLM版本的不断更新。如果没有适当的保护措施，LLM将威胁到那些为了确保患者安全而经过长期精心设计的现有医疗安全交付结构。LLM创新的主要驱动力源于社区的研究努力，如果这些努力继续遵循“人类与LLM对抗”的原则，这将加速这一趋势。因此，未来的研究工作必须集中于有效地界定和确保在快速发展的新型LLM模型中，LLM在临床环境中的安全使用。在此沟通中，我们证明了与其将LLM与人类进行比较，不如发展使人类与LLM几乎共生地高效协作的策略。

发布时间: 5/15/2025

查看原文

WaLLM —— 一个基于 WhatsApp 的 LLM 动力聊天机器人部署的洞察

作者: Hiba Eltigani, Rukhshan Haroon, Asli Kocak, Abdullah Bin Faisal, Noah Martin, Fahad Dogar

arXiv:2505.08894v1 通知类型: 横向摘要: 近年来，生成式AI技术的进步，如ChatGPT，已经改变了教育、知识获取以及日常决策中的信息访问方式。然而，在许多发展中国家和地区，由于持续存在的数字鸿沟，信息访问仍然是一个挑战。为了帮助缩小这一差距，我们开发了一款名为WaLLM的定制AI聊天机器人，部署在广泛使用的通讯平台WhatsApp上。除了回答查询之外，WaLLM还提供多种功能以增强用户参与：每日热门问题、推荐跟进问题、趋势和近期查询，以及基于排行榜的奖励系统。我们的服务已运营超过6个月，累计收到约100名用户提出的14700多个查询。在这篇论文中，我们介绍了WaLLM的设计，并进行了系统性的日志分析以理解用户互动。结果显示，用户查询中有55%寻求事实信息。“健康和福祉”是最受欢迎的话题（占28%），包括营养和疾病相关的查询，这表明用户认为WaLLM是一个可靠的信息来源。三分之二的用户活动发生在发布每日热门问题后的24小时内。访问“排行榜”功能的用户与未访问该功能的用户相比，与WaLLM交互的频率要高出三倍。最后，我们讨论了基于文化定制、用户界面设计以及在发展中国家地区适当地调整用户对AI系统的信任度的相关影响。

发布时间: 5/15/2025

查看原文