arXiv:2409.14593v1 公告类型: 交叉 摘要: 在观察数据中测试假设的因果模型是许多因果推断任务的关键前提。一种自然的方法是测试模型中假设的条件独立关系(CIs)是否在数据中成立。虽然一个模型可以假设关于变量数量的指数级多的CIs,但测试所有这些CIs既不切实际也不必要。因果图以多项式空间编码这些CIs,产生了局部马尔可夫性质,使得模型测试可以通过显著较小的CIs子集进行。基于局部性质的模型测试需要一种算法来列出相关的CIs。然而,在存在隐藏变量和非参数分布的现实设置中,现有算法即使在生成单个CI约束时也可能需要指数时间。在本文中,我们引入了带有隐藏变量的因果图的c-组件局部马尔可夫性质(C-LMP)。由于C-LMP仍然可以调用指数数量的CIs,我们开发了一种多项式延迟算法,以多项式时间间隔列出这些CIs。据我们所知,这是第一个能够在因果图中对隐藏变量进行多项式延迟测试CIs的算法,适用于任意数据分布。对真实世界和合成数据的实验证明了我们算法的实用性。
arXiv:2409.14590v1 公告类型: 交叉 摘要: 机器学习(ML)在医疗等关键领域的应用带来了风险,并需要监管。一个要求是,在高风险应用中,ML系统的决策应为人所理解。"可解释的人工智能"(XAI)领域似乎满足了这一需求。然而,在当前形式下,XAI无法为ML提供质量控制;它本身需要审查。流行的XAI方法无法可靠地回答关于ML模型、其训练数据或给定测试输入的重要问题。我们重申了结果,表明流行的XAI方法系统地将重要性归因于与预测目标无关的输入特征。这限制了它们在模型和数据(不)验证、模型改进和科学发现等目的中的实用性。我们认为,这一限制的根本原因是当前的XAI方法没有解决定义明确的问题,也没有根据解释正确性的客观标准进行评估。研究人员应首先正式定义他们打算解决的问题,然后相应地设计方法。这将导致可以理论验证的解释正确性概念和可以使用真实数据评估的解释性能的客观指标。
arXiv:2409.14586v1 公告类型: 交叉 摘要: 文本生成几乎从定义上就存在一个根本性的局限:一旦生成的标记明显有问题,也无法撤销。在语言模型安全性的背景下,当产生部分不安全的生成内容时,语言模型本质上倾向于继续生成类似的不安全额外文本。这实际上是在野外规避前沿模型安全对齐的方式,尽管在提高其安全性方面做出了巨大努力。我们偏离了将安全对齐视为预防(降低有害响应的概率)的范式,提出了一种回溯技术,允许语言模型通过引入特殊[RESET]标记来“撤销”并从其自身的不安全生成中恢复。我们的方法可以融入SFT或DPO训练中,以优化有用性和无害性。我们展示了经过回溯训练的模型在安全性上始终优于基线模型:在我们的评估中,回溯Llama-3-8B的安全性是基线模型的四倍(6.1% → 1.5%),且在有用性上没有退化。此外,我们的方法在没有专门训练的情况下,还能抵御四种对抗攻击,包括一种自适应攻击。
大型语言模型(LLMs)具有彻底改变科学研究的潜力,但其在特定领域应用中的稳健性和可靠性仍未得到充分探索。本研究对材料科学领域内的LLMs进行了全面的评估和稳健性分析,重点关注领域特定的问答和材料性能预测。本研究使用了三个不同的数据集:1)一组来自本科材料科学课程的多项选择题,2)包含各种钢成分和屈服强度的数据集,3)包含材料晶体结构文本描述和带隙值的带隙数据集。通过多种提示策略评估LLMs的性能,包括零样本链式思维、专家提示和少样本上下文学习。这些模型的稳健性通过各种形式的“噪声”进行测试,从现实干扰到故意的对抗性操作,以评估其在实际条件下的弹性和可靠性。此外,研究揭示了LLMs在预测任务中的独特现象,如当提示示例的接近度改变时出现的模式崩溃行为,以及训练/测试不匹配带来的性能提升。研究结果旨在为LLMs在材料科学中的广泛应用提供有根据的怀疑,并激发提升其稳健性和可靠性的进步,以实现实际应用。
arXiv:2409.14565v1 公告类型: 交叉 摘要: 空间定向障碍是导致飞机致命事故的主要原因。本文探讨了AI代理帮助飞行员保持平衡并防止不可恢复的失控的潜力,通过提供线索和纠正措施来缓解空间定向障碍。我们使用多轴旋转系统(MARS)从在太空飞行模拟条件下自我平衡的人类受试者中收集数据。我们在此数据上训练模型,创建了“数字双胞胎”,展示了不同熟练水平人类的表现特征。然后,我们训练了各种强化学习和深度学习模型,以在预测到失控时提供纠正线索。数字双胞胎和辅助模型随后共同执行了一个具有相同物理特性的虚拟倒立摆(VIP)程序。根据任务指标(如碰撞频率和偏离平衡方向的平均距离),我们从这些模拟中选出了5个表现最佳的助手。这些助手与20名新的人类受试者进行了一项空间信息受损的VIP任务版本的合作研究。我们发现,某些AI助手能够提高人类的表现,而基于强化学习的助手在客观上更有效,但被人类评为信任度和偏好较低。
arXiv:2409.14556v1 公告类型: 交叉 摘要: 作为数据探索和集成的重要组成部分,列类型标注(Column Type Annotation, CTA)旨在为一个表格的列标注一个或多个语义类型。随着大型语言模型(Large Language Models, LLMs)的最新发展,研究人员开始探索利用LLMs进行CTA的可能性,利用其强大的零样本能力。在本文中,我们在这一有前景的工作基础上,通过展示如何使用知识图谱(Knowledge Graph, KG)来增强提供给LLM的上下文信息,改进了基于LLM的CTA方法。我们的方法称为RACOON,在生成过程中结合了预训练的参数化和非参数化知识,以提高LLMs在CTA上的性能。我们的实验表明,与纯LLM推理相比,RACOON实现了高达0.21的微F1改进。
arXiv:2409.14552v1 公告类型: 交叉 摘要: 表情符号在社交平台上获得了极大的流行,成为补充或替代文本的常见手段。然而,现有的数据挖掘方法通常要么完全忽略表情符号,要么简单地将其视为普通的Unicode字符,这可能限制了模型捕捉表情符号中丰富的语义信息以及表情符号与文本之间互动的能力。因此,有必要在社交媒体数据挖掘中释放表情符号的力量。为此,我们首先构建了一个包含三种类型节点(即帖子、单词和表情符号节点)的异构图,以改进帖子中不同元素的表示。边也被明确定义,以模拟这三种元素之间的相互作用。为了促进帖子、单词和表情符号节点之间的信息共享,我们提出了一个用于文本和表情符号协同建模的图预训练框架,该框架包含两个图预训练任务:节点级图对比学习和边级链接重构学习。在包含两种类型下游任务的小红书和Twitter数据集上的广泛实验表明,我们的方法相较于之前的强基线方法取得了显著的改进。
arXiv:2409.14543v1 公告类型: 交叉 摘要: 准确检测和跟踪高速、小物体,如体育视频中的球类,由于运动模糊和遮挡等因素而具有挑战性。尽管最近的深度学习框架如TrackNetV1、V2和V3在网球和羽毛球跟踪方面取得了进展,但它们在部分遮挡或低可见度场景中往往表现不佳。这主要是因为这些模型严重依赖视觉特征,而没有明确结合运动信息,这对于精确跟踪和轨迹预测至关重要。在本文中,我们通过融合高级视觉特征与可学习的运动注意力图,通过一种运动感知融合机制,有效地强调了移动球的位置,从而改进了跟踪性能。我们的方法利用帧差分图,通过运动提示层进行调制,以突出关键运动区域随时间的变化。在网球和羽毛球数据集上的实验结果表明,我们的方法提高了TrackNetV2和V3的跟踪性能。我们将这种基于现有TrackNet的轻量级、即插即用解决方案称为TrackNetV4。
稀疏自编码器(SAEs)已成为将大型语言模型(LLMs)的激活分解为人类可解释的潜在表示的有前途的方法。本文提出两个问题。首先,SAEs在多大程度上提取了单义且可解释的潜在表示?其次,改变SAE的稀疏性或大小对单义性/可解释性有多大影响?通过在一个简单的首字母识别任务中进行研究,我们能够完全访问词汇表中所有标记的真实标签,从而提供比先前研究更详细的分析。关键的是,我们识别出一种称为特征吸收的问题形式,其中看似单义的潜在表示在明显应该触发的情况下未能触发。我们的研究表明,改变SAE的大小或稀疏性不足以解决这一问题,并且存在更深层次的概念问题需要解决。
表格机器学习是工业和科学领域的一个重要领域。在这个领域中,表格行通常被视为独立的数据样本,但有时可以获得关于它们之间关系的额外信息,这些信息可以用来提高预测性能。这种信息可以自然地用图来建模,因此表格机器学习可能会受益于图机器学习方法。然而,图机器学习模型通常在具有同质节点特征的数据集上进行评估,这与表格数据集中存在的数值和类别特征的异质混合几乎没有共同之处。因此,表格和图机器学习研究中使用的数据之间存在关键差异,这使得人们无法理解图模型如何成功地转移到表格数据上。为了弥合这一差距,我们提出了一个具有异质表格节点特征和现实预测任务的多样化图的新基准。我们使用这个基准评估了大量模型,包括文献中之前被忽视的简单方法。我们的实验表明,图神经网络(GNNs)确实经常能为表格数据带来预测性能的提升,但标准的表格模型也可以通过简单的特征预处理来适应图数据,有时甚至能够与GNNs竞争甚至超越它们。基于我们的实证研究,我们为表格和图机器学习领域的研究人员和从业者提供了见解。