arXiv 论文列表

CryptoX : 组合推理评估大规模语言模型

作者: Jiajun Shi, Chaoren Wei, Liqun Yang, Zekun Moore Wang, Chenghao Yang, Ge Zhang, Stephen Huang, Tao Peng, Jian Yang, Zhoufutu Wen

arXiv:2502.07813v1 结构类型: 交叉摘要: 组合推理能力长期以来被认为是大型语言模型LLMs泛化和智能涌现的关键。然而，尽管存在许多相关的推理基准，但在现有的基准中，LLMs的组合推理能力很少被研究或量化。在本文中，我们介绍了CryptoX，这是一个评估框架，这是首次将现有的基准与密码学相结合，以量化LLMs的组合推理能力。基于CryptoX，我们构建了CryptoBench，它将这些原则整合到几个基准中，用于系统的评估。我们使用CryptoBench对广泛使用的开源和闭源LLMs进行了详细实验，揭示了开源和闭源LLMs之间巨大的差距。我们进一步进行了彻底的机械可解释性实验，揭示了LLMs组合推理的内部机制，包括子问题分解、子问题推理和总结子问题结论。基于CryptoBench的分析，我们强调了独立研究组合推理的价值，并强调了增强LLMs组合推理能力的需求。

发布时间: 2/13/2025

查看原文

CP-Guard+: 一种新的协作感知领域中恶意代理检测与防御范式

作者: Senkang Hu, Yihang Tao, Zihan Fang, Guowen Xu, Yiqin Deng, Sam Kwong, Yuguang Fang

arXiv:2502.07807v1 安全公告类型：交叉摘要：协作感知（CP）是一种有潜力的安全方法，用于连接和自动驾驶，能够使多辆车共享感知信息以提高感知性能。然而，与单辆车感知相比，CP系统的开放性使其更容易受到恶意攻击，这些攻击可以注入恶意信息以误导自我车辆的感知，对安全驾驶造成严重风险。为了缓解这种脆弱性，我们首先提出了一种新的恶意代理检测范式，能够在特征级别有效识别恶意代理，而无需验证最终的感知结果，大幅减少了计算开销。基于这一范式，我们引入了CP-GuardBench，这是首个用于训练和评估各种CP系统恶意代理检测方法的全面数据集。此外，我们开发了一种鲁棒的防御方法，称为CP-Guard+，通过精心设计的双中心对比损失（DCCLoss）增强了良性特征和恶意特征之间的表示差距。最后，我们在CP-GuardBench和V2X-Sim上进行了广泛的实验，并证明了CP-Guard+的优越性。

发布时间: 2/13/2025

查看原文

量子赋能的信用风险评估：一种基于混合量子-经典深度神经网络的行类型相关预测分析新方法

作者: Rath Minati, Date Hema

arXiv:2502.07806v1 宣告类型: cross 摘要：将量子深度学习（QDL）技术融入金融风险分析领域，为创新开创了新的途径。本研究介绍了一种结合量子深度学习技术与自适应建模的行依赖预测分析（RTDPA）的信贷风险评估框架。通过利用RTDPA，所提出的方法针对不同的贷款类别定制预测模型，旨在提高信用风险评估的准确性和效率。虽然本文探讨了将量子方法与经典深度学习相结合进行风险评估的可能性，但它更侧重于这种混合框架的可行性和性能，而不是声称其在整个行业的颠覆性影响。研究结果提供了关于量子技术如何补充传统金融分析的见解，为信用风险预测建模的进一步进步铺平了道路。

发布时间: 2/13/2025

查看原文

生成式AI和大型语言模型在健康与医学领域的监管科学创新：全球行动呼吁

作者: Jasmine Chiat Ling Ong, Yilin Ning, Mingxuan Liu, Yian Ma, Zhao Liang, Kuldev Singh, Robert T Chang, Silke Vogel, John CW Lim, Iris Siu Kwan Tan, Oscar Freyer, Stephen Gilbert, Danielle S Bitterman, Xiaoxuan Liu, Alastair K Denniston, Nan Liu

arXiv:2502.07794v1 宣告类型：交叉摘要：在医疗保健中集成生成式人工智能（GenAI）和大型语言模型（LLMs）带来了前所未有的机遇和挑战，需要创新的监管方法。GenAI和LLMs提供了广泛的应用，从自动化临床工作流程到个性化诊断。然而，GenAI和LLMs的非确定性输出、广泛的功能性和复杂整合挑战了现有的医疗设备监管框架，包括整个产品生命周期（TPLC）的方法。我们在这里讨论了TPLC方法在GenAI和基于LLM的医疗设备监管中的局限性，并倡导全球合作以推进监管科学研究。这为基础开发创新方法，包括适应性政策和监管沙盒，以在实际环境中测试并完善治理提供了基础。国际协调，如国际医疗设备监管论坛所见，对于管理LLM对全球健康的影响至关重要，包括LLM固有偏差所推动的加剧健康不平等的风险。通过汇集多学科专长、优先采用迭代、数据驱动的方法，并关注不同人群的需求，全球监管科学研究使LLM在医疗保健中的负责任和公平发展成为可能。

发布时间: 2/13/2025

查看原文

生成式AI可以实现平等吗？

作者: Philip Feldman, James R. Foulds, Shimei Pan

arXiv:2502.07790v1 类型: cross 摘要：近年来，“基础”生成型AI模型的迅猛发展建立在对在线资源的大量利用之上，而这些资源的利用往往并没有相应的回报。这一模式反映了并加剧了监视资本主义的剥削性实践，而巨大的利润潜力已经挑战了科技组织负责任AI实践的承诺，引发了重大的伦理和社会关注。然而，一种有前景的替代方案正在浮现：依赖于用户自愿和协作提供的内容的模型的发展。本文探讨了这种“平等主义”生成型AI的方法，受到维基百科成功模式的启发。我们将探讨这一方法对未来基础模型设计、开发及其限制的潜在影响。我们认为，这种方法不仅在伦理上是有据可循的，还可能导致更响应用户需求、训练数据更具多样性的模型，最终更符合社会价值观。此外，我们还将探讨这种方法可能面临的挑战和限制，包括可扩展性、质量控制以及由志愿者提供的内容中的潜在偏差等问题。

发布时间: 2/13/2025

查看原文

AI助手能帮助学生编写形式规范吗？基于ChatGPT和B-方法的一项研究

作者: Alfredo Capozucca, Daniil Yampolskyi, Alexander Goldberg, Maximiliano Cristi\'a

arXiv:2502.07789v1 类别:交叉学科摘要：本文探讨了人工智能助手，特别是OpenAI的ChatGPT，在使用B方法作为形式化规格技术时，对本科生教授形式化方法(FM)所起的作用。虽然现有的研究展示了AI在编程任务中的有效性，但没有研究报道其对形式化规格的影响。我们研究了ChatGPT在编写B规格时是否提供了优势，并分析了学生对其输出的信任程度。我们的研究表明，AI并未帮助学生提高其规格的正确性，低信任与更好的结果相关。此外，我们还识别出了一种与ChatGPT交互的行为模式，这种模式可能影响B规格的正确性。

发布时间: 2/13/2025

查看原文

使用零样本学习和基于MaxSAT的故障定位的反例引导程序修复

作者: Pedro Orvalho, Mikol\'a\v{s} Janota, Vasco Manquinho

arXiv:2502.07786v1 宣布类型:交叉摘要:为入门级编程作业（IPAs）自动编程修复（APR）受到每年参加编程课程的学生人数众多的启发。由于为IPAs提供反馈需要大量时间和精力，因此个性化反馈通常涉及建议学生修改程序。基于形式方法（FM）的语义修复方法是有效的，但有限制。这些工具擅长识别错误的部分，但如果正确的实现与错误的实施共享相同的控制流图，它们也只能修复程序。相反，大型语言模型（LLMs）被用于APR，但通常制作广泛的修改而不是最小的修改。这导致了更侵入性的修复，使学生更难从错误中学习。总之，LLMs在完成字符串方面表现出色，而基于FM的错误定位在识别程序的错误部分方面表现出色。在本文中，我们提出了一种将两者优势结合的新方法，通过零样本学习来增强IPAs的APR。我们的方法使用基于MaxSAT的错误定位来识别程序中的错误部分，然后向LLM呈现不含这些错误语句的程序草图。这种混合方法遵循CEGIS循环，逐步完善程序。我们要求LLM合成缺失的部分，然后该程序与测试集进行检查。如果建议的程序不正确，则从测试集中反馈一个反例给LLM。我们的实验表明，使用基于MaxSAT的无bug程序草图的反例引导方法，显著提高了所有六种评估的LLM的修复能力。该方法使LLM能够使用更小的修复来修复更多程序，优于其他配置和最先进的符号程序修复工具。

发布时间: 2/13/2025

查看原文

机器学习与量子智能在健康数据场景中的应用

作者: Sanjeev Naguleswaran

arXiv:2410.21339v1 交叉类型: 报告摘要：量子计算的出现为数据科学带来了新的可能性，提供了解决复杂、数据密集型问题的独特能力。传统的机器学习算法常常在高维或数据质量有限的数据集上面临挑战，这在医疗健康领域尤为常见。量子机器学习通过利用量子特性，如叠加和纠缠，来增强模式识别和分类能力，可能超越经典的算法。本文探讨了量子机器学习在医疗健康领域的应用，重点关注量子核方法和混合量子-经典网络在心脏病预测和 COVID-19 检测中的可行性及性能评估。

发布时间: 2/13/2025

查看原文

基于集合的方法用于量化基于LLM的分类不确定性

作者: Srijith Rajamohan, Ahmed Salhin, Josh Frazier, Rohit Kumar, Yu-Cheng Tsai, Todd Cook

arXiv:2502.08631v1 宣告类型: 新闻摘要：大型语言模型（LLMs）的输出取决于模型内部的参数以及输入到上下文窗口中的输入。这里提出的假设是在贪婪采样策略下，LLM的输出变化是模型参数知识中蕴含的概念确定性以及输入词汇变化性的函数。通过微调模型可以减少模型输出对输入词汇变化的敏感性。然后将其应用于分类问题，并提出了一种概率方法来估计预测类别的确定性。

发布时间: 2/13/2025

查看原文

基于表示学习推动电子健康记录数据多机构研究

作者: Doudou Zhou, Han Tong, Linshanshan Wang, Suqi Liu, Xin Xiong, Ziming Gan, Romain Griffier, Boris Hejblum, Yun-Chung Liu, Chuan Hong, Clara-Lea Bonzel, Tianrun Cai, Kevin Pan, Yuk-Lam Ho, Lauren Costa, Vidul A. Panickan, J. Michael Gaziano, Kenneth Mandl, Vianney Jouhet, Rodolphe Thiebaut, Zongqi Xia, Kelly Cho, Katherine Liao, Tianxi Cai

arXiv:2502.08547v1 本文类型: 新闻摘要: EHRs 的采用扩展了在临床护理和研究中利用数据驱动算法的机会。有效开展多机构 EHR 研究的主要瓶颈在于系统间的数据异质性，存在许多既不存在或代表不同临床概念的代码。数据隐私的需求进一步限制了纳入多机构患者水平数据的可能性，这些数据是研究不同患者亚组相似性和差异性所必需的。为了解决这些挑战，我们开发了 GAME 算法。该算法已在 7 家机构和 2 种语言下进行测试和验证，结合了多个层次的数据整合：(1) 机构级整合，使用知识图谱建立代码与现有知识源之间的关系，提供标准代码及其相互关系的医疗背景；(2) 机构间整合，利用语言模型确定机构特定代码与已建立的标准代码之间的关系；以及 (3) 使用图注意力网络量化代码之间关系的强度。通过迁移学习和联邦学习联合训练嵌入，以保护数据隐私。在这项研究中，我们展示了 GAME 在多种条件下选择相关特征作为 AI 驱动算法输入的适用性，例如心力衰竭、类风湿性关节炎。然后，我们强调了在不共享患者级数据的情况下，利用 GAME 合并的多机构 EHR 数据在研究阿尔茨海默病患者和精神疾病患者自杀风险方面的应用，特别是在阿尔茨海默病的结局方面。

发布时间: 2/13/2025

查看原文