LLM2D

arXiv 论文列表

作者: Mart\'in Rodr\'iguez, Gustavo Rossi, Alejandro Fernandez
arXiv:2505.09830v1 Announce Type: 剪切 摘要:单元测试的设计和实现是许多程序员忽视的一项复杂任务。本研究评估了大型语言模型(LLMs)在自动生成测试用例方面的潜力,将其与手动测试进行比较。开发了一种优化的提示,将代码和需求相结合,涵盖了等价类划分和边界值等关键情况。通过定量指标和手动定性分析,比较了LLMs与训练有素程序员的优势与劣势。结果表明,LLMs的有效性取决于精心设计的提示、稳健的实现和精确的需求说明。尽管具有灵活性且前景广阔,但LLMs仍然需要人类监督。本研究强调了手动定性分析在单元测试评估自动化中的重要性,作为必不可少的补充。
发布时间: 5/16/2025
查看原文
作者: Dmitry Rybin, Yushun Zhang, Zhi-Quan Luo
arXiv:2505.09814v1 声明类型:交叉 摘要:我们提出了一种新算法RXTX,用于计算矩阵与其转置的乘积$XX^{t}$。与现有最先进的方法相比,RXTX的乘法和加法操作少用了5%。即使是小尺寸的矩阵$X$,该算法也能实现加速。该算法是通过结合基于机器学习的搜索方法与组合优化方法发现的。
发布时间: 5/16/2025
查看原文
作者: Timour Ichmoukhamedov, David Martens
arXiv:2505.09807v1 交叉公告类型: 摘要:一些近期的工作认为,大型语言模型(LLMs)具有一个普遍的真实方向,在模型的激活空间中,真实的陈述与虚假的陈述是可以线性区分的。已经证明,仅在模型的单个隐藏状态下进行训练的线性探针已经在多个领域进行了泛化,并且甚至可以在LLM对话中用于谎言检测。在本文中,我们探讨了这种真实方向在各种对话格式之间的泛化能力。我们发现,对于以谎言结束的简短对话,泛化效果良好,但对于输入提示中谎言出现较早的较长对话格式,泛化效果较差。我们提出了一种解决方案,通过在每个对话结尾添加一个固定的关键词汇,显著提高了这种类型的泛化能力。我们的结果显示了向新环境下可靠LLM谎言检测器泛化的挑战。
发布时间: 5/16/2025
查看原文
作者: Aditya Nagori, Ayush Gautam, Matthew O. Wiens, Vuong Nguyen, Nathan Kenya Mugisha, Jerome Kabakyenga, Niranjan Kissoon, John Mark Ansermino, Rishikesan Kamaleswaran
arXiv:2505.09805v1 声明类型: cross 摘要:对患者亚群进行聚类对于个性化护理和有效使用资源至关重要。传统的聚类方法在处理高维度和异质的医疗健康数据时存在困难,并缺乏上下文理解。这项研究使用低收入国家(LIC)的儿童脓毒症数据集评估了基于大型语言模型(LLM)的聚类方法与经典方法的效果,该数据集包含2,686条记录,其中包含28个数值变量和119个分类变量。患者记录被序列化成文本,并且在有和没有聚类目标的情况下进行了序列化。使用量化的LLAMA 3.1 8B、DeepSeek-R1-Distill-Llama-8B带低秩适应(LoRA)以及Stella-En-400M-V5模型生成嵌入。将k-means聚类应用于这些嵌入。经典的比较包括在UMAP和FAMD降维混合数据上应用K-Medoids聚类。通过轮廓得分和统计测试评估聚类的质量和独特性。Stella-En-400M-V5获得了最高的轮廓得分(0.86)。带有聚类目标的LLAMA 3.1 8B在更高的聚类数量时表现更好,能够识别出具有不同营养、临床和社会经济特征的亚群。基于LLM的方法通过捕捉更丰富的上下文和优先考虑关键特征,超越了经典技术。这些结果突显了在资源有限的环境中,LLM在上下文表型和知情决策方面的潜在价值。
发布时间: 5/16/2025
查看原文
作者: Skylar S. Gay, Tucker Netherton, Barbara Marquez, Raymond Mumme, Mary Gronberg, Brent Parker, Chelsea Pinnix, Sanjay Shete, Carlos Cardenas, Laurence Court
arXiv:2505.09796v1 宣布类型: cross 摘要:有效审查放射治疗计划的质量需要一个稳健且定期更新的案例集以及演示多种可能的计划方法及其后果的灵活性。然而,当前的临床模式并不能满足这些需求。为了解决这个问题,我们开发了“虚拟剂量师”模型,既能生成次优治疗计划的训练案例,又能通过简单的自然语言提示让受训者提高计划质量,仿佛在与剂量师沟通。剂量的生成和修改过程既准确又快速,并且只需要适度的资源。这项工作是首次将剂量分布预测与自然语言处理相结合;提供了一条既可用于生成次优训练计划,又可让受训者练习其关键计划审查和改进技能的稳健管道,从而解决了当前临床模式所面临的挑战。
发布时间: 5/16/2025
查看原文
作者: J. Moreno-Casanova, J. M. Au\~n\'on, A. M\'artinez-P\'erez, M. E. P\'erez-Mart\'inez, M. E. Gas-L\'opez
arXiv:2505.09794v1 交叉类型 摘要:研究项目,包括那些专注于癌症的研究,依赖于从临床报告中手动提取信息。这一过程耗时且容易出错,限制了数据驱动方法在医疗保健中的效率。为解决这些挑战,自然语言处理(NLP)提供了从电子健康记录(EHRs)中自动化提取相关信息的替代方案。在本研究中,我们专注于肺癌和乳腺癌,因为它们的发病率高并且对公共卫生有重大影响。这两种癌症的早期发现和有效数据管理对于改善患者预后至关重要。为了提高数据提取的准确性和效率,我们利用了GMV的NLP工具uQuery,该工具在识别临床文本中的相关实体并将其转换为标准化格式(如SNOMED和OMOP)方面表现出色。uQuery不仅能检测和分类实体,还能将它们与上下文信息联系起来,包括否定实体、时间方面和患者相关的细节。在此工作中,我们探索了NLP技术,特别是命名实体识别(NER),以自动识别和提取与这两种癌症相关的EHR中的关键临床信息。我们使用了Health Research Institute Hospital La Fe(IIS La Fe)的数据集,其中包含200份标注的乳腺癌报告和400份肺癌报告,使用Doccano平台手动标记了八个临床实体。为了执行NER,我们微调了基于RoBERTa的生物医学语言模型bsc-bio-ehr-en3,该模型之前在西班牙语上进行了预训练。我们使用Transformers架构进行了微调,从而使这些癌症类型中的临床实体识别变得准确。我们的结果显示出整体表现强劲,尤其是在识别实体如MET和PAT方面尤为突出,尽管对于较不常见的实体如EVOL仍然存在挑战。
发布时间: 5/16/2025
查看原文
arXiv:2505.09766v1 宣告类型: cross 摘要:本文介绍了一种利用核反应堆外部探测器获得的实时测量数据重建中子通量空间分布的方法。基尔霍夫-亥姆霍茨(K-H)方程本质上定义了通过边界数据估算领域内标量场的问题,因此它是处理此任务的自然数学框架。主要挑战在于针对特定领域和中子扩散过程推导格林函数。虽然简化几何结构下的格林函数存在解析解,但其对于复杂的非均匀领域(例如核反应堆)的推导则需要数值方法。本文的目标是通过将K-H方程表述为逆问题并求解来展示数据驱动格林函数近似的有效性。在建立格林函数必须满足的对称性属性后,从单能中子扩散模型推导了K-H方程。随后对解释传感器读数和实现中子通量重建算法的过程进行了全面描述。最后,证明了从采样数据推导出的格林函数的存在性和唯一性,确保了所提方法及其预测的可靠性。
发布时间: 5/16/2025
查看原文
arXiv:2505.09757v1 类型: 交叉领域 摘 要: 近期自主权去中心化人工智能代理(DeAgents)的发展趋势将基于大型语言模型(LLM)的人工智能代理与区块链智能合约和可信执行环境(TEEs)等去中心化技术结合起来。这些防篡改的信任缺失基础层使代理能够通过拥有加密钱包私钥和控制数字资产及社交媒体账号来实现自主权。DeAgent 消除了集中控制,减少了人类干预,从而解决了集中式人工智能系统中固有的关键信任问题。然而,鉴于LLM可靠性方面的持续挑战,如幻觉,这在信任缺失和不可靠的自主性之间创造了悖论性的紧张关系。本研究通过与DeAgent利益相关者(专家、创始人和开发者)的访谈,探讨他们的动机、好处以及治理困境,填补了这一实证研究缺口。研究结果将指导未来DeAgent系统的开发和协议设计,并为未来交互式网络中社会技术人工智能系统治理的讨论提供信息。
发布时间: 5/16/2025
查看原文
作者: Benjamin Paa{\ss}en, Suzana Alpsancar, Tobias Matzner, Ingrid Scharlau
arXiv:2505.09747v1 类型: cross 摘要:在可信人工智能的口号下,当代人工智能研究的重点在于设计能够激发人类信任的AI系统和使用实践,从而促进这些系统的采纳。然而,受AI系统影响的人可能不会仅仅因为系统的设计而被说服——如果该系统嵌入在这样的社会环境中,并且可以合理相信它违背了个人的利益,那么他们也不应被说服。在这种情况下,对系统的不信任可能是合理的,并且是建立有意义的信任的基础。我们提出“健康不信任”这一术语,以描述对某些使用AI实践采取的一种合理且谨慎的态度。我们探讨了计算机科学、社会学、历史学、心理学和哲学中关于信任和不信任的先有概念,概述了健康不信任可能填补的一个剩余空白,并从尊重人类自主权的角度将健康不信任概念化为AI使用的关键部分。
发布时间: 5/16/2025
查看原文
作者: Yuan-Hang Zhang, Massimiliano Di Ventra
arXiv:2505.09742v1 宣告类型: 交叉 摘要: 我们提出了一种生成式、端到端解决白盒组合优化问题的方法,该方法在NP问题上兼顾样本效率和解的质量。受基于退火算法的启发,我们将白盒目标函数视为能量函数,并训练一个神经网络来模拟相关的玻尔兹曼分布。通过对温度进行条件化处理,网络可以捕捉从高温时近乎均匀到低温时围绕全局最优解尖峰的连续分布,从而学习能量景观的结构并促进全局优化。当查询昂贵时,依赖温度的分布自然地支持数据增强,提高样本效率。当查询便宜但问题仍然困难时,模型学习隐含的变量交互,实际上“打开了”白盒。我们在有限和无限查询预算下的具有挑战性的组合任务中验证了我们的方法,显示出与当前最先进的黑盒优化器竞争的性能。
发布时间: 5/16/2025
查看原文