arXiv:2502.13339v1 Announce Type: cross
摘要:知识图谱基础模型(KGFMs)是知识图谱(KGs)深度学习的前沿,因为它们可以泛化到具有不同关系词汇的不同知识图谱中。尽管KGFMs在实践中有显著的成功,但对我们对其理论理解仍然非常有限。在本文中,我们对KGFMs的表达能力进行了严格的分析研究。具体来说,我们表明KGFMs的表达能力直接取决于用于学习关系表示的模式。然后我们发现,在现有文献中最常见的模式是二元的,因为关系表示是基于关系对之间的交互来学习的,这限制了模型的表达能力。作为我们研究的一部分,我们设计了使用更丰富模式的KGFMs,这需要基于三元关系之间的交互来学习关系表示。最后,我们通过实验证明了我们的理论发现,使用更丰富的模式在来自不同领域的广泛数据集上表现出更好的性能。
arXiv:2502.13337v1 交叉类型:交叉
摘要:对学生的作业进行评价是有效学习的关键组成部分,其过程的自动化可以显著减轻评阅人的工作负担。随着大语言模型(LLMs)的发展,自动短答案评阅(ASAG)系统提供了一种评估开放型学生回答并提供即时反馈的有希望的解决方案。本文介绍了一种基于最新LLM的ASAG管道。我们的新型基于LLM的ASAG管道在相同的数据集上实现了比现有自定义模型更好的性能。我们还比较了三个OpenAI模型:GPT-4、GPT-4o和o1-preview的评分性能。我们的结果显示,GPT-4o在准确性和成本效益之间取得了最佳平衡。相比之下,尽管o1-preview具有更高的准确度,但它在错误上的更大变异性使其不适用于教室使用。我们研究了使用不同提示策略(无示例、随机选择和基于检索增强生成(RAG)的选择)纳入教师评阅示例的影响。我们的研究结果表明,提供评阅示例可以提高评分准确性,并且基于RAG的选择策略优于随机选择。此外,整合评分标准提高了准确性,因为它为评估提供了结构化的标准。
arXiv:2502.13329v1 宣布类型: cross
摘要:自回归语言模型通过顺序预测生成下一个标记来输出文本,现代方法如链式思考(CoT)提示能够通过增加生成的标记数量来实现最先进的推理能力。然而,是否有时候我们可以在计算早期就推断出模型的行为(例如,在回答问题时选择不作答),从而使得生成变得不必要的问题?我们表明,仅通过输入标记的内部表示,我们往往可以准确地预测整个输出序列的最终行为,而不仅仅是下一个标记。我们利用这一能力并在此内部状态下学习探针来创建早期警告(和退出)系统。具体来说,如果探针能够自信地估计语言模型将如何表现,那么该系统将完全避免生成标记,而是返回估计的行为。在涵盖五个不同任务的27个文本分类数据集中,我们应用此方法来估计在CoT提示下语言模型的最终答案,平均减少了65%的推理成本,同时最坏情况下准确率损失不超过1.4%。我们展示了该方法的潜力,可以在模型选择不回答问题、无法遵循输出格式规范或给出低置信度响应之前抢先识别。我们探讨了该能力的局限性,显示探针可以在未见数据集上泛化,但在语言模型输出更长时表现较差,并且在预测需要模型本身缺乏的知识才能获取的属性时显得力不从心。令人鼓舞的是,性能与模型规模成正比,表明该方法适用于最大的模型。
arXiv:2502.13321v1 宣传类型:交叉
摘要:信任影响用户在AI辅助决策任务中对AI推荐的依赖程度,低信任和高信任分别导致过度和不足的依赖。我们提出,AI助手应通过信任适应性干预来调整其行为,以减少这种不恰当的依赖。例如,当用户信任较低时,提供解释可以促使用户更仔细地考虑助手的建议。在两个决策场景——普通人在回答科学问题中和医生进行医疗诊断中——我们发现,在低信任时刻提供支持性解释,在高信任时刻提供反对性解释,可以最多减少38%的不恰当依赖,并提高20%的决策准确性。我们同样可以通过适当地插入强制暂停来促进深思熟虑,从而减少过度依赖。我们的研究结果强调了AI根据用户信任进行调整如何促进适当的依赖,展示了提高人机合作的激动人心的可能性。
arXiv:2502.13311v1 交叉领域类型:cross
摘要:由大规模语言模型(LLMs)驱动的智能辅导代理在语言学习和科学教育等领域提供了个性化的指导。然而,它们在引导用户解决复杂现实任务方面的能力仍鲜有探索。为解决这一局限,本文专注于编码辅导这一具有挑战性的问题,要求辅导者主动引导学生完成预定义的编码任务。我们提出了一种新的代理工作流——Trace-and-Verify(TRAVER),该工作流结合了知识追踪以估算学生的知识状态,并通过逐步验证确保有效引导以完成任务。我们引入了DICT,这是一种自动评估协议,通过受控的学生模拟和代码生成测试全面评估辅导代理。广泛的实验揭示了编码辅导的挑战,并展示了TRAVER实现了显著更高的成功率。虽然在本文中我们以代码辅导为例,但我们的结果和发现可以扩展到其他任务,为各类任务改进辅导代理提供了宝贵的见解。
arXiv:2502.13297v1 交叉类型公告
摘要:自然语言理解(NLU)是一项使机器能够理解人类语言的任务。某些任务,如立场检测和情感分析,与个体的主观视角密切相关,因此称为个体水平的NLU。此前,这些任务通常被简化为文本级别的NLU任务,忽略了个体因素的影响。这不仅使得推理变得困难且难以解释,还往往导致在创建数据集时产生大量的标签错误。为了克服这些限制,我们提出了一种新的基于个体水平因素的NLU标注指南。具体来说,我们结合了同一个体的其他帖子,然后在考虑所有个体的帖子后标注个体的主观视角。我们使用这一指南扩展并重新标注了立场检测和基于主题的情感分析数据集。我们发现,样本中的错误率高达31.7%和23.3%。进一步地,我们使用大型语言模型在重新标注的数据集上进行了实验,并发现大型语言模型在添加个体因素后在两个数据集上表现良好。GPT-4o和Llama3-70B均在重新标注的数据集上实现了超过87%的准确率。我们还通过消融研究验证了个体因素的有效性。我们呼吁未来的研究者在创建此类数据集时加入个体因素。我们的重新标注数据集可在https://github.com/24yearsoldstudent/Individual-NLU找到。
arXiv:2502.13290v1 宣告类型: cross
摘要:在重症监护环境中提前预测医疗事件对于患者的预后和资源管理至关重要。利用预测模型,医疗提供者可以在问题显现之前预见心脏骤停、败血症或呼吸衰竭等潜在问题。最近,研究重点转向了使用机器学习预见特定不良事件的发作时间点,以便在临床表现之前作出预测。然而,尽管这些模型能够在特定时间间隔内为特定不良事件的发生提供时间预测,但它们的可解释性往往仍是一个难题。在这项研究中,我们探讨了神经时间点过程在不良事件发作预测中的应用,旨在解释临床路径并提供可解释的见解。我们的实验涵盖了六种最先进的神经点过程以及六种重症监护数据集,每个数据集都专注于不同不良事件的发作。这项工作代表了神经时间点过程在事件预测中的一个新颖的应用类别。
arXiv:2502.13278v1 交叉公告类型: cross
摘要: 表情符号在当今的数字世界中被频繁使用,用于表达从简单到复杂的各种想法,因此也被用于情感分析和定向营销活动中。在这项工作中,我们对推特进行了情感分析,并且在Kaggle上使用了表情符号数据集。由于推特是句子,我们使用了通用句子编码器(USE)和双向Transformer编码表示(SBERT)端到端的句子嵌入模型来生成嵌入,这些嵌入用于训练标准的全连接神经网络(NN)和LSTM NN模型。我们观察到,两种模型的文本分类准确率几乎相同,约为98%。相反,当验证集使用训练集中不存在的表情符号构建时,两种模型的准确率急剧下降至70%。此外,我们还使用分布式训练方法而不是传统的单线程模型来训练模型,以提高可扩展性。使用分布式训练方法,我们能够在不牺牲准确性的前提下将运行时间缩短约15%。最后,作为可解释AI的一部分,我们使用Shap算法来解释模型行为并检查给定特征集上的模型偏见。
arXiv:2502.13277v1 交叉公告类型:
摘要:近年来,图对比学习(GCL)的进步在提高图表示方面展示了显著的效果。然而,依赖于预定义的增强(例如节点删除、边扰动、属性遮蔽)可能会导致任务相关信息的损失,并缺乏对多样输入数据的适应性。此外,负样本的选择仍然很少被探索。在本文中,我们介绍了从超图视角提出的HyperGCL,这是一种新颖的多模态GCL框架。HyperGCL通过联合利用输入图的结构和属性,构建三个不同的超图视图,从而实现对比学习中多种模态的全面整合。可学习的自适应拓扑增强技术通过保留重要关系并过滤噪声来增强这些视图。特定视图的编码器从每个视图中捕捉关键特性,而网络意识的对比损失通过利用潜在的拓扑结构有效地定义正样本和负样本。基准数据集上的广泛实验表明,HyperGCL在节点分类性能上达到了最先进的水平。
arXiv:2502.13260v1 交叉公告类型:交叉
摘要:链式推理(CoT,Chain-of-Thought)是一种将复杂任务分解为中间推理步骤的方法,显著增强了大型语言模型(LLMs)在挑战性任务上的性能。然而,CoT 中的详细推理过程常常会导致生成时间过长和计算成本过高,部分原因是包含了不必要的步骤。为了解决这一问题,我们提出了一种使用困惑度作为衡量其重要性的方法来识别关键推理步骤:如果移除某一步骤会导致困惑度显著增加,则该步骤被视作关键步骤。我们的方法使模型能够仅专注于生成这些关键步骤。这可以通过两种方法实现:在少样本链式推理中改进示范示例,或通过仅包含关键步骤的选定示例微调模型。全面的实验验证了我们方法的有效性,该方法在CoT的推理准确性和效率之间取得了更好的平衡。