arXiv:2502.05694v1 交叉公告类型:cross
摘要:本研究探讨了各种大型语言模型(LLMs)在中文中的零样本端到端关系提取(RE)性能,这是一个不需要标注数据就能同时进行实体识别和关系提取的任务。尽管LLMs在关系提取方面前景看好,但大多数前期工作主要集中在英语上或者假设预先标注的实体,这使得它们在中国RE中的有效性基本上未被探索。为了弥合这一差距,我们根据准确率、效率和适应性评估了ChatGPT、Gemini和LLaMA。ChatGPT在整体性能上表现出最优,平衡了精确率和召回率,而Gemini实现了最快的推理速度,使其适用于实时应用。LLaMA在准确率和延迟方面表现较差,突显了进一步适应的必要性。我们的研究结果为LLMs在零样本中文RE中的优势和局限性提供了见解,揭示了准确率与效率之间的权衡。本研究为未来旨在改善LLMs适应复杂语言任务的研究奠定了基础,特别是在中文NLP领域。
arXiv:2502.05685v1 安全类型:跨领域
摘要:移动计算解决方案为不同类型用户提供灵活性,无论是企业用户、学生,还是为各个年龄段的儿童和成年人都提供娱乐。由于这些新兴技术,移动用户无法以非常有效的方式保护私人信息,网络安全犯罪正在一天天地增加。本文将集中在移动计算行业中的安全漏洞,尤其是针对平板电脑和智能手机。本研究将深入探讨Android与Apple iOS市场的当前安全威胁,揭示初学者或普通用户可能 unaware 的安全风险和威胁。本研究的目的是分析当前的安全风险和威胁,并提供可能部署的解决方案以抵御此类威胁。
arXiv:2502.05684v1 交叉类型公告
摘要:我们如何在最小化性能损失和提供严格保证的同时,有效地从学习成果中去除或“遗忘”不希望的信息,如特定特征或个别数据点?我们提出了一个基于信息论正则化的数学框架,以解决特征和数据点遗忘的问题。对于特征遗忘,我们推导出一种统一的解决方案,同时优化多种学习目标,包括熵、条件熵、KL散度和条件概率的能量。对于数据点遗忘,我们首先提出了一种新定义,作为通过重新训练进行遗忘的实际条件,易于验证,并从推断视角与差分隐私原则相一致。然后,我们为我们框架的数据点遗忘提供了可证明的保证。通过在学习目标灵活性与正则化设计简单性之间的结合,我们的方法对于广泛范围的机器学习和AI应用具有高度的适应性和实用性。
arXiv:2502.05672v1 类别:交叉学科
摘要:本文对Episodic Upside-Down强化学习、目标条件监督学习和在线决策转换器的收敛性和稳定性进行了严格的分析。这些算法在从游戏到机器人任务的各种基准测试中表现相当,但在理论理解上,它们仅限于特定的环境条件。本文为基于监督学习或序列建模的强化学习方法奠定了理论基础。这项研究的核心在于分析在哪些环境条件下,算法能够识别最优解。我们还评估了在环境受到微小噪声影响的情况下,新兴解的稳定性。具体来说,我们研究了命令条件策略、值和目标在底层马尔可夫决策过程的转移内核下的连续性和渐近收敛性。研究表明,如果转移内核位于确定性内核的足够小邻域内,可以实现接近最优的行为。提到的数量在确定性内核下不仅渐近上是连续的,而且在有限的学习周期后也是连续的。开发的方法使我们能够首次以底层转移内核的形式明确地估计策略和值的收敛性和稳定性。从理论角度来看,我们引入了新的概念,例如在段空间中工作、在商拓扑研究连续性以及使用动力系统不动点理论的应用。理论研究伴随以对示例环境的详细调查和数值实验。
arXiv:2502.05670v1 类型: cross
摘要:尽管英文句子在词序方面通常具有灵活性有限的特点,但语素的词序变化却表现出极大的多样性。一种重要的理论认为,语素的词序与其权重直接相关,权重可以通过语素的长度或复杂度来衡量。这种理论在自然语言处理(NLP)的背景下引起了人们的兴趣,因为尽管最近NLP的进步使得大型语言模型(LLMs)取得了显著的性能提升,但仍有许多关于这些模型如何处理语言的问题尚未清晰,以及这种处理方式如何与人类语言处理方式相比较。特别是,一个悬而未决的问题是LLMs是否表现出相同的构成移动模式,并可能为已有的关于构成移动转变何时以及如何在人类语言中发生理论提供见解。我们比较了具有不同特性的多种LLMs,评估了它们在四种构成移动类型上的广泛表现:重NP移动、助词移动、与给与交替和多个Pp。尽管在助词移动方面表现意外,但LLMs在构成顺序方面一般符合人类的偏好。
arXiv:2502.05664v1 类型: cross
摘要: 大型语言模型(LLMs)在代码生成和问题解决方面取得了显著进展。当前的方法使用外部工具迭代调试器,并通过编译器或其他工具的运行时反馈来完善各种方法生成的粗略程序。然而,这些方法的有效性很大程度上依赖于初始代码生成的质量,这仍然是一个开放的挑战。在本文中,我们介绍了CodeSim,这是一种新型的多智能体代码生成框架,通过类人的感知方法全面解决了程序合成、编码和调试的各个阶段。像人类通过视觉仿真验证对任何算法的理解一样,CodeSim独特地通过逐步仿真输入输出来进行计划验证和内部调试。在七个具有挑战性的竞争问题解决和程序合成基准测试中进行的广泛实验表明,CodeSim具有出色的代码生成能力。我们的框架在HumanEval(95.1%)、MBPP(90.7%)、APPS(22%)和CodeContests(29.1%)方面实现了新的最先进结果(pass@1)。此外,当与外部调试器级联时,我们的方法显示出更大的增强潜力。为了促进该领域的进一步研究和发展,我们在以下链接中开源了我们的框架(https://kagnlp.github.io/codesim.github.io/)。
arXiv:2502.05651v1 类别:交叉学科
摘要:不断增长的心理健康服务需求推动了由人工智能驱动的心理健康聊天机器人的兴起,尽管隐私、数据收集和专业技能等方面的问题仍然存在。动机访谈(MI)正成为提高这些聊天机器人开发中专业技能的理论基础,受到了越来越多的关注。然而,现有的数据集在训练聊天机器人方面显示出局限性,导致了对MI和心理治疗领域公开可用资源的大量需求。这些问题在非英语语言中更为突出,而这些语言领域所关注较少。在本文中,我们提出了一种新颖的框架,该框架模拟了专业治疗师的MI会话,并丰富了专业治疗师的专业知识。我们训练了一个模仿专业治疗师行为选择的MI预测模型,并通过指令工程使用大型语言模型(LLMs)生成话语。然后,我们介绍了第一个理论基础是MI的合成数据集KMI,包含1000个高质量的韩语动机访谈对话。通过对生成数据集和在此基础上训练的对话模型的广泛专家评估,我们展示了KMI的质量、专业性和实用性。我们还引入了源自MI理论的新型评估指标,以便从MI的角度评估对话。
arXiv:2502.05641v1 宣告类型: cross
摘要:本文旨在从多模态输入中生成具有物理基础且实际的真人行为,这些输入可能仅部分确定所需的运动。例如,输入可能来自提供手臂运动和身体速度的VR控制器,部分关键点动画,视频中的计算机视觉应用,甚至更高级别的运动目标。这需要一种多功能的低级类人控制器,它可以处理这类稀疏且不明确的指导,无缝地在技能之间切换,并从失败中恢复过来。当前从演示数据学习类人控制器的方法能够捕捉到这些特性的部分,但没有一种能够全部实现。为此,我们介绍了Masked Humanoid Controller (MHC),这是一种新颖的方法,它在增强和选择性掩蔽的运动演示中应用多目标模仿学习。训练方法导致MHC具备追赶不相匹配的输入命令、结合多个运动序列的元素以及从稀疏多模态输入完成未指定运动部分的关键能力。我们展示了在包含87种不同技能的数据集上学习的MHC的关键能力,并展示了多种多模态应用场景,包括与规划框架的集成,以突出MHC能够在没有任何微调的情况下解决用户定义的新任务的能力。
arXiv:2502.05638v1 交叉公告类型
摘要:欧洲的医疗保健系统需要增强的互操作性和数字化,推动了对处理遗留临床数据的创新解决方案的需求。本文介绍了我们项目的结果,该项目旨在利用大型语言模型(LLMs)从无结构的临床报告中提取结构化信息,重点是患者的病史、诊断、治疗以及其他预定义类别。我们开发了一个带有用户界面的工作流程,并通过提示策略和微调评估了不同大小的大型语言模型。我们的结果显示,微调后的较小模型在性能上与较大模型相当或超越,为资源有限的环境提供了效率。我们验证了一个包含60,000个标注的英语临床摘要和24,000个德语翻译的新数据集,并使用了自动和人工检查。评估使用了ROUGE、BERTScore和实体级别指标。该工作强调了该方法的可行性,并概述了未来的改进方向。
arXiv:2502.05637v1 类型: 交叉
摘要: 对抗机器学习(AML)解决的是AI系统中的漏洞,这些漏洞是由于对手操纵输入或训练数据以降低系统性能而产生的。本文提供了逃避攻击和投毒攻击的全面分析,用数学 rigor 化 formalized 防护机制,并讨论了在适应性威胁模型中实现 robust 解决方案的挑战。此外,还强调了认证 robust 性、可扩展性和实际部署中开放的挑战。