arXiv 论文列表

作者: Zijian Ding, Michelle Brachman, Joel Chan, Werner Geyer

arXiv:2503.16791v2 通知类型: replace-cross 摘要：数据分析涵盖了从高层次的概念推理到低层次的执行任务的范围。虽然AI增强的工具在执行任务方面的支持越来越强，但在概念任务方面仍需要智能化的支持。本文研究了一种有序节点-链接树接口的设计，该接口增加了AI生成的信息提示和可视化，作为一种潜在的假设探索共享表示。通过一个设计探针（n=22），参与者生成了平均21.82个假设的图表。我们的研究发现表明，节点-链接图充当了“引导栏”，有助于结构化的工作流，提供全面的概览，并使回溯更加高效。AI生成的信息提示，尤其是可视化，帮助用户将抽象的概念转化为数据支持的概念，从而减少认知负担。我们进一步讨论了节点-链接图如何支持假设形成中的并行探索和迭代改进，这可能增强人类与AI合作的数据分析的广度和深度。

发布时间: 4/22/2025

查看原文

预防LLM代理权限提升的流程完整性机制

作者: Juhee Kim, Woohyuk Choi, Byoungyoung Lee

arXiv:2503.15547v2 宣告类型: replace-cross 摘要：大型语言模型（LLMs）与工具结合，形成强大的LLM代理，提供广泛的服务。与传统软件不同，LLM代理的行为在运行时由用户或工具的数据以自然语言提示决定。这种灵活性赋予了一种具有无限能力和编程能力的新计算范式，但也引入了新的安全风险，容易受到权限提升攻击的影响。此外，用户提示容易被LLM代理以不安全的方式解释，导致非确定性行为，可能被攻击者利用。为应对这些安全风险，我们提出了提示流完整性（PFI）系统，这是一种面向系统安全的解决方案，旨在防止LLM代理的权限提升。通过分析LLM代理的架构特征，PFI包含三种缓解技术，即代理隔离、安全的不信任数据处理以及权限提升的护栏。我们的评估结果显示，PFI有效地防止了权限提升攻击，同时确保了LLM代理的实用性。

发布时间: 4/22/2025

查看原文

面向通用身份保留视频合成

作者: Yong Zhong, Zhuoyi Yang, Jiayan Teng, Xiaotao Gu, Chongxuan Li

arXiv:2503.14151v2 通告类型: replace-cross 摘要：我们提出了Concat-ID，这是一种统一的身份保留视频生成框架。Concat-ID 使用变分自编码器提取图像特征，将这些特征与视频潜在变量沿序列维度进行拼接，仅利用 3D 自注意力机制，无需额外模块。引入了一种新颖的跨视频配对策略和多阶段训练程序，以平衡身份一致性与面部可编辑性，同时增强视频的自然度。广泛的实验证明了Concat-ID 在单身份和多身份生成方面优于现有方法，并且能够无缝扩展到多主体场景中，包括虚拟试穿和背景可控生成。Concat-ID 建立了身份保留视频合成的新基准，提供了一种具有多样性和扩展性的解决方案，适用于广泛的应用场景。

发布时间: 4/22/2025

查看原文

OCPM$^2$: 对基于对象的事件数据提取扩展过程挖掘方法论

作者: Najmeh Miri, Shahrzad Khayatbashi, Jelena Zdravkovic, Amin Jalali

arXiv:2503.10735v2 Announce Type: replace-cross 摘要：对象中心的流程挖掘（OCPM）能够从多个角度分析业务流程。例如，可以从学生、教师和小组的角度来检查教育路径。这种分析依赖于对象中心事件数据（OCED），它可以捕捉事件与对象类型之间的关系，代表不同的视角。与传统的流程挖掘技术不同，提取OCED减少了在转换分析关注点时重复日志提取的需要。然而，记录这些复杂的关系增加了日志提取过程的复杂性。为了应对这一挑战，本文提出了一种基于PM\inst{2}（一个成熟的流程挖掘框架）的OCED提取方法。我们的方法引入了一个结构化的框架，指导数据分析师和工程师进行OCED的提取以进行流程分析。通过在实际教育环境中应用这种方法，我们验证了该框架的有效性，并从学习管理系统和行政评分系统中提取了对象中心事件日志（OCEL），这是一种记录OCED的标准格式。

发布时间: 4/22/2025

查看原文

KNighter: 以LLM合成检查器transform静态分析

作者: Chenyuan Yang, Zijie Zhao, Zichen Xie, Haoyu Li, Lingming Zhang

arXiv:2503.09002v2 宣布类型: replace-cross 摘要：静态分析是用于关键系统（如操作系统核）的错误检测的强大技术。然而，设计和实现静态分析器极具挑战性，耗时且通常局限于预定义的错误模式。尽管大型语言模型（LLMs）在静态分析方面展现了一定的潜力，但由于计算限制和背景限制，直接将它们应用于扫描大型系统仍然是不现实的。我们提出了KNighter，这是第一个通过自动从历史错误模式合成静态分析器来解锁可扩展的LLM基础静态分析的方法。我们的重要见解在于，而不是直接使用LLMs来分析庞大的系统，而是利用LLMs生成由历史补丁知识引导的特定静态分析器。KNighter通过一个多阶段合成流水线来实现这一愿景，该流水线通过原始补丁验证检查器的正确性，并采用自动化精炼过程来迭代减少假阳性。我们在Linux内核上的评估表明，KNighter生成了能够检测现有手动编写分析器忽略的多种错误模式的高精度检查器。截至目前，KNighter合成的检查器已发现Linux内核中的92个新关键性长期未发现的错误（平均4.3年）；其中77个已得到确认，57个已修复，16个已经分配了CVE编号。这项工作确立了一个全新的可扩展、可靠且可追踪的LLM基础静态分析范式，通过检查器合成应用于实际系统中。

发布时间: 4/22/2025

查看原文

基于潜隐图扩散模型的多Agent自动出价

作者: Dom Huh, Prasant Mohapatra

arXiv:2503.05805v3 宣告类型: replace-cross 摘要：本文提出了一种基于扩散的自适应竞价框架，利用图表示方法来建模大规模拍卖环境。在这种设置中，代理必须在由关键性能指标(KPI)定义的约束条件下动态优化竞价策略，同时在以不确定、稀疏和随机变量为特征的竞争环境中运作。为了应对这些挑战，我们引入了一种结合可学习的图基嵌入与基于规划的潜在扩散模型(LDM)的新型方法。通过捕捉影响曝光机会和拍卖环境多代理动态的内在模式和细微差异，图表示能够进行丰富而复杂的自适应竞价结果计算。借助奖励对齐技术，LDM 的后验分布被微调以生成能够最大化 KPI 指标并满足约束阈值的自适应竞价轨迹。在真实世界和合成拍卖环境上的实证评估表明，该方法在多个常见 KPI 指标上的自适应竞价性能显著提升，并且在预测拍卖结果方面也具有较高的准确性。

发布时间: 4/22/2025

查看原文

AILuminate: 介绍来自MLCommons的AI风险与可靠性基准v1.0

作者: Shaona Ghosh, Heather Frase, Adina Williams, Sarah Luger, Paul R\"ottger, Fazl Barez, Sean McGregor, Kenneth Fricklas, Mala Kumar, Quentin Feuillade--Montixi, Kurt Bollacker, Felix Friedrich, Ryan Tsang, Bertie Vidgen, Alicia Parrish, Chris Knotz, Eleonora Presani, Jonathan Bennion, Marisa Ferrara Boston, Mike Kuniavsky, Wiebke Hutiri, James Ezick, Malek Ben Salem, Rajat Sahay, Sujata Goswami, Usman Gohar, Ben Huang, Supheakmungkol Sarin, Elie Alhajjar, Canyu Chen, Roman Eng, Kashyap Ramanandula Manjusha, Virendra Mehta, Eileen Long, Murali Emani, Natan Vidra, Benjamin Rukundo, Abolfazl Shahbazi, Kongtao Chen, Rajat Ghosh, Vithursan Thangarasa, Pierre Peign\'e, Abhinav Singh, Max Bartolo, Satyapriya Krishna, Mubashara Akhtar, Rafael Gold, Cody Coleman, Luis Oala, Vassil Tashev, Joseph Marvin Imperial, Amy Russ, Sasidhar Kunapuli, Nicolas Miailhe, Julien Delaunay, Bhaktipriya Radharapu, Rajat Shinde, Tuesday, Debojyoti Dutta, Declan Grabb, Ananya Gangavarapu, Saurav Sahay, Agasthya Gangavarapu, Patrick Schramowski, Stephen Singam, Tom David, Xudong Han, Priyanka Mary Mammen, Tarunima Prabhakar, Venelin Kovatchev, Rebecca Weiss, Ahmed Ahmed, Kelvin N. Manyeki, Sandeep Madireddy, Foutse Khomh, Fedor Zhdanov, Joachim Baumann, Nina Vasan, Xianjun Yang, Carlos Mougn, Jibin Rajan Varghese, Hussain Chinoy, Seshakrishna Jitendar, Manil Maskey, Claire V. Hardgrove, Tianhao Li, Aakash Gupta, Emil Joswin, Yifan Mai, Shachi H Kumar, Cigdem Patlak, Kevin Lu, Vincent Alessi, Sree Bhargavi Balija, Chenhe Gu, Robert Sullivan, James Gealy, Matt Lavrisa, James Goel, Peter Mattson, Percy Liang, Joaquin Vanschoren

arXiv:2503.05731v2 通知类型: 替换-交叉摘要：AI系统快速的发展和部署迫切需要标准的安全评估框架。本文介绍了AILuminate v1.0，这是首个全面的行业标准基准，用于评估AI产品的风险和可靠性。其开发采用了开放流程，包括来自多个领域的参与者。该基准评估了AI系统在12种危险类别中的抗辩能力，包括暴力犯罪、非暴力犯罪、性犯罪、儿童性剥削、无差别武器、自杀和自伤、知识产权、隐私、诽谤、仇恨言论、色情内容以及专门建议（选举、财务、健康、法律）。我们的方法包括完整的评估标准、广泛的提示数据集、创新的评估框架、评分和报告系统，以及长期支持和演进的技术及组织基础设施。特别地，基准采用了易于理解的五级评分体系（较差到优秀），并结合了基于熵的系统响应评估的创新系统。此外，本报告还指出了我们方法及其建立安全基准的局限性，包括评估者的不确定性以及单轮交互的限制。本工作代表了建立全球AI风险和可靠性评估标准的关键一步，同时也承认了在多轮交互、多模态理解、其他语言覆盖率以及新兴危险类别等方面的持续开发需求。我们的 findings 为模型开发者、系统集成商和政策制定者提供了宝贵的见解，帮助促进更安全的AI部署。

发布时间: 4/22/2025

查看原文

超越马特罗什卡：重新审视稀疏编码以实现自适应表示

作者: Tiansheng Wen, Yifei Wang, Zequn Zeng, Zhong Peng, Yudi Su, Xinyang Liu, Bo Chen, Hongwei Liu, Stefanie Jegelka, Chenyu You

arXiv:2503.01776v3 通知类型: 替换-交叉摘要：许多大规模系统依赖高质量的深度表示（嵌入）来促进诸如检索、搜索和生成建模等任务。Matryoshka Representation Learning (MRL) 最近作为自适应嵌入长度的解决方案出现，但需要重新训练整个模型，并且在较短的长度下表现出明显的性能下降。在本文中，我们展示了稀疏编码为实现自适应表示提供了一种具有最低开销和更高保真的有吸引力的替代方案。我们提出了 Contrastive Sparse Representation (CSR)，该方法将预训练的嵌入稀疏化为高维但选择性激活的功能空间。通过利用轻量级自动编码和任务感知对比目标，CSR 保留了语义质量的同时，允许在不同稀疏级别进行灵活且成本效益高的推理。在图像、文本和多模态基准上的广泛实验表明，与 MRL 相比，CSR 在准确性和检索速度方面表现更佳，通常是显著的 margin，同时还将训练时间缩短到 MRL 所需时间的一小部分。我们的结果确立了稀疏编码作为一种强有力的范式，用于效率和保真度都至关重要的实际应用场景中的自适应表示学习。代码可在 https://github.com/neilwen987/CSR_Adaptive_Repr取得。

发布时间: 4/22/2025

查看原文

MedUnifier：通过离散视觉表示统一医疗数据上的多模态预训练和视觉生成任务

作者: Ziyang Zhang, Yang Yu, Yucheng Chen, Xulei Yang, Si Yong Yeo

arXiv:2503.01019v3 宣告类型: replace-cross 摘要：尽管在视觉语言预训练（VLP）方面取得了显著进展，当前的方法主要侧重于特征提取和跨模态理解，对生成或转换视觉内容的关注相对不足。这一差距阻碍了模型从文本提示中合成连贯且新颖的视觉表示的能力，从而降低了多模态学习的有效性。在本工作中，我们提出了MedUnifier，这是一种专门针对医学数据的统一VLP框架。MedUnifier将基于文本的图像生成能力与多模态学习策略（包括图像-文本对比对齐、图像-文本匹配和基于图像的文本生成）无缝集成。不同于依赖连续视觉表示的传统方法，我们的方法采用了视觉向量量化，不仅促进了更连贯的跨模态理解学习策略，还能通过有效利用离散表示提升多模态生成质量。通过在已确立的标准基准上的实验，包括单模态任务（监督微调）、跨模态任务（图像-文本检索和零样本图像分类）以及多模态任务（医学报告生成、图像合成），展示了MedUnifier的有效性，其在各种任务上的性能达到当前最好水平。MedUnifier也为医疗保健领域广泛的语言和视觉任务提供了一个高度可适应的工具，标志着向开发适用于医学应用的一般化AI模型迈进。

发布时间: 4/22/2025

查看原文

超时空之外的隐写术：多模态AI链

作者: Ching-Chun Chang, Isao Echizen

arXiv:2502.18547v2 宣告类型：替换-交叉摘要：隐写术是秘密写作的艺术和科学，在网络安全领域有着广泛的应用。随着人工智能的不断发展，其生成逼真内容的能力成为网络犯罪分子手中的一种威胁，他们试图操纵和扭曲事实。合成内容引入了非平凡的风险，这些风险可能会覆盖为了隐写术目的所作的细微改变。当在空间域和时间域中的信号都面临意外覆盖的风险时，这要求我们反思什么，如果有的话，仍然不变。本研究提出了一种用于视听媒体的隐写术范式，在空间域和时间域之外隐藏信息。开发了一条多模态人工智能链，将视听内容分解为掩藏文本，将信息嵌入语言域，然后通过同步视听模态与结果的隐写文本来重构视听内容。信息通过偏向语言生成模型的词采样过程进行编码，并通过分析词选择的概率分布进行解码。在零比特和多比特容量设置下评估信息传输的准确性。通过生物特征和语义相似性进行真实性评估，捕捉记录的面部和声音的身份，以及通过媒体传达的核心思想。通过对比封面文本和隐写文本之间的统计比较来检查机密性。在包括视听重新采样、换脸、语音克隆及其组合的各种场景下测试稳健性。

发布时间: 4/22/2025

查看原文