arXiv:2504.20357v1 类型: cross
摘要:软件无处不在,存在于社会的方方面面。因此,确保软件得到良好测试以减轻不良用户体验以及可能造成的严重财务和人员损失至关重要。然而,软件测试非常昂贵,耗费宝贵的时间和资源。因此,过去几十年来,自动软件测试领域引起了研究者的兴趣。在我们对现有和过去的研究论文的综述中,我们发现遗传算法和粒子群优化领域的改进方面存在信息空白。我们还发现当前自动测试面临的知识空白。因此,我们在此系统文献综述中提出了这一观点,旨在总结关于进化方法及其改进和结果限制的现有知识。这些改进包括混合算法组合以及与变异测试和神经网络的互操作性。我们还将探讨这些算法中使用的主测试标准以及当前领域中影响可读性、模拟等方面的挑战。
arXiv:2504.20355v1 类型: cross
摘要:近年来,使用提示来引导大型语言模型的输出增加了许多。然而,即使是经验丰富的专家也发现挑选合适的词语来构建适合所需任务的提示非常困难。为了解决这个问题,LLM 驱动的提示优化成为了一个重要的问题。现有的提示优化方法在全球范围内优化提示,这意味着在完成复杂任务时,所有提示令牌都需要在大规模词汇表中进行优化。庞大的优化空间(令牌)导致对更好提示的指导不足。在这项工作中,我们引入了局部提示优化(LPO),并与任何通用自动提示工程方法集成。我们识别提示中的优化令牌,并在优化步骤中引导LLM仅关注这些令牌。我们在多种自动提示工程方法下的数学推理(GSM8k 和 MultiArith)和 BIG-bench Hard 基准测试中观察到显著的性能提升。此外,我们展示了LPO比全球方法更快地收敛到最优提示。
arXiv:2504.20348v1 宣告类型: cross
摘要: 大型语言模型(LLMs)在边缘AI系统中实现了实时功能调用,但引入了显著的计算开销,导致高能耗和碳排放。现有方法注重性能优化,而忽视了可持续性,使得它们在能源受限的环境中效率低下。我们引入了CarbonCall,这是一个具有可持续性意识的功能调用框架,该框架集成了动态工具选择、碳意识执行和量化LLM适应性。CarbonCall根据实时的碳强度预测调整功率阈值,并在功率限制下切换模型变体以维持高每秒令牌吞吐量。在NVIDIA Jetson AGX Orin上的实验结果表明,CarbonCall在减少碳排放(最多52%)、降低能耗(30%)和缩短执行时间(30%)的同时,保持了高效运作。
arXiv:2504.20342v1 交叉论文类型:跨领域
摘要:Reflexion 是一个基于人工智能的平台,旨在实现大规模结构化情感自我反思。通过集成实时情感识别、分层反思提示和比喻性故事生成,Reflexion 使用户能够超越基本情感分类,进行自主的情感探索。该系统基于表达性写作理论、认知重构、自我决定以及批判性意识发展的理论,在表面层情感识别的基础上构建起逐步的价值对齐行动规划之旅。初步的多元参与者试点研究表明,该系统在情感表达、认知重构以及感知的心理韧性方面取得了积极成果。Reflexion 代表了面向教育、治疗和公共卫生等领域的可扩展性和理论导向的情感计算干预措施的一个有前景的方向,旨在促进情感素养和心理成长。
arXiv:2504.20323v1 Announce Type: cross
摘要:本报告应对有限标记数据集在开发法律推荐系统方面所面临的挑战,特别是在劳动纠纷等专业领域。我们提出了一种新的方法,通过利用案件中法律文章的共引关系来建立相似性,并实现算法注释。该方法借鉴了案例共引的概念,利用引用先例作为共同法律问题的指示器。为了评估标记结果,我们采用了一种基于原告的指控、被告的反驳和争议点推荐相似案件的系统。评估结果显示,使用微调的文字嵌入模型和合理的BiLSTM模块,推荐的劳动案件在法律文章共引的基础上具有相似性。这项研究为开发法律文件的自动化注释技术作出了贡献,特别是在难以访问全面法律数据库的领域。
arXiv:2504.20314v1 宣告类型: cross
摘要:零阶(ZO)优化是一种新兴的深度神经网络(DNN)训练范式,提供了计算简单性和内存节省的优势。然而,这种看似有前途的方法面临着一个重要且长期以来被忽视的挑战。ZO需要生成大量的高斯随机数,这带来了显著的困难,并且甚至使其在硬件平台(如FPGA和ASIC)上变得不可行。在本文中,我们识别出了这一关键问题,它源自算法设计师和硬件设计师之间的不匹配。为了应对这一问题,我们提出了一种高效的ZO框架——PeZO。具体来说,我们设计了随机数重用策略,大幅减少了随机数生成的需求,并引入了一种硬件友好的自适应缩放方法,用廉价的均匀分布取代了昂贵的高斯分布。我们的实验结果显示,与随机数生成相关的LUT和FF需求减少了48.6%和12.7%,并且最大可节省86%的功耗,同时不牺牲训练性能,使ZO优化在设备上执行成为可能。据我们所知,这是我们首次探索设备上ZO优化的潜力,为未来的研究提供了宝贵的见解。
arXiv:2504.20310v1 安全类型: 横跨领域
摘要: 在本文中,我们发起了一种以密码学为导向的理论研究,探讨在机器学习算法推断过程中攻击者生成的对抗性输入时,检测对抗性输入与对其进行缓解的防御之间的差异。
我们正式定义了由检测防御 (DbD) 和由缓解防御 (DbM)。我们的定义以两个资源受限当事方之间的三轮协议形式给出:训练员/防御者和攻击者。攻击者的目标是在推断过程中生成能够迷惑训练算法的输入。我们定义了正确性、完整性以及稳健性属性,以捕捉推断过程中成功的防御,同时不会过度损害算法在训练分布输入上的性能。
我们首先展示了实现 DbD 和实现 DbM 在机器学习分类任务中是等价的。令人惊讶的是,在机器学习生成学习任务中,情况并非如此,因为每个输入可以生成许多正确输出。我们通过展示一个生成学习任务来区分 DbD 和 DbM,该任务在假设有基于身份的全同态加密 (IB-FHE)、公开可验证的零知识精简非交互式知识论据 (zk-SNARK) 和强不可伪造签名的情况下,可以证明通过缓解防御是可以实现的,但通过检测防御是不可能实现的。缓解阶段使用远少于初始训练算法的样本。
arXiv:2504.20304v1 命名类型: 交叉
摘要: CHILDES 是一个广泛使用的转录儿童及其面向儿童的言语资源。本文介绍了 UD-English-CHILDES,这是第一个基于以前的依赖注释 CHILDES 数据的通用依存关系(UD)语料库,其注释指南具有一致性和统一性。我们的语料库汇总了来自 11 名儿童及其照顾者的注释,总计超过 48,000 个句子。我们使用 UD v2 框架验证现有的金标准注释,并提供额外的 100 万个银标准句子,为计算和语言研究提供了一种一致的资源。
arXiv:2504.20295v1 类别: cross
摘要:数字孪生(DTs)通过使用实时数据、分析和预测模型来优化水资源分配系统。本文介绍了一个用于西班牙供水网络的DT平台,利用长短期记忆(LSTM)网络来预测用水量。然而,机器学习模型容易受到对抗性攻击的影响,如快速梯度符号方法(FGSM)和投影梯度下降(PGD)。这些攻击会操纵关键模型参数,注入细微的失真,导致预测准确性下降。为了进一步利用这些漏洞,我们引入了一种基于学习自动机(LA)和随机LA的方法,该方法动态调整扰动,使对抗性攻击更难被检测。实验结果表明,这种方法显着影响了预测的可靠性,使均绝对百分比误差(MAPE)从26%上升到超过35%。此外,自适应攻击策略进一步放大了这种效应,揭示了人工智能驱动的DTs中的网络安全风险。这些发现强调了需要强大的防御措施的紧迫性,包括对抗性训练、异常检测和安全数据管道。
arXiv:2504.20275v1 类别: cross
摘要:农村地区的供水系统面临着实时监测缺乏、易受网络攻击以及数据处理不稳定等严重挑战。本文提出了一种集成框架,结合了基于LoRaWAN的数据采集、基于机器学习驱动的入侵检测系统(IDS)以及基于区块链的数字孪生(BC-DT)平台,以实现安全透明的水资源管理。该IDS使用长短期记忆(LSTM)自动编码器和隔离森林筛选异常或伪造数据,在通过智能合约将验证后的数据记录到基于身份验证证明(PoA)共识的私有以太坊区块链后,验证数据会流入实时数字孪生模型,支持漏损检测、消费预测和预测性维护。实验结果表明,该系统在不到2秒的延迟下每秒可实现超过80笔交易(TPS),且具有成本效益和可扩展性,最多可以支持1,000个智能水表。本研究展示了在欠连接农村环境中分散式水资源基础设施的一种实用且安全的架构。