随着大型语言模型(LLM)日益成为招聘流程中不可或缺的一部分,人们对人工智能造成的偏见也越来越担忧。本研究考察了Claude 3.5 Sonnet、GPT-4o、Gemini 1.5和Llama 3.1 405B生成的候选人面试报告中的偏见,重点关注性别、种族和年龄等特征。我们评估了基于LLM的匿名化方法在减少这些偏见方面的有效性。研究结果表明,虽然匿名化可以减少某些偏见,特别是性别偏见,但其有效程度因模型和偏见类型而异。值得注意的是,Llama 3.1 405B表现出最低的整体偏见。此外,我们比较匿名化数据和非匿名化数据的方法,揭示了一种评估LLM固有偏见的新方法,其应用范围超越招聘领域。本研究强调了仔细选择LLM的重要性,并提出了最大限度地减少人工智能应用中偏见、促进公平与包容性的最佳实践。
我们提出了一种使用少样本思维链(CoT)蒸馏进行个性化睡眠健康管理的新方法,使小型语言模型(>20亿参数)能够在专业的健康领域与大型语言模型(LLM)的性能相媲美。我们的方法同时将问题解决策略、长尾专家知识和个性化推荐能力从更大的模型蒸馏到更高效、更紧凑的模型中。与现有系统不同,我们的方法提供三个关键功能:生成个性化睡眠健康建议、支持用户特定的后续询问以及回答特定领域的知识问题。我们专注于睡眠健康,因为它可以通过可穿戴设备进行测量,并对整体健康产生影响。我们的实验设置包括使用GPT-4o进行数据合成,使用Qwen-max创建指令集,以及使用Qwen2.5 1.5B进行模型蒸馏,这证明了在惩罚、推理和知识应用方面比基线小型模型有了显著改进。使用100份模拟睡眠报告和1000个特定领域的问题进行的实验表明,我们的模型在保持效率以用于实际部署的同时,实现了与大型模型相当的性能。这项研究不仅推动了人工智能驱动的健康管理的发展,而且还提供了一种在资源受限的环境中利用大型语言模型能力的新方法,有可能提高个性化医疗解决方案的可及性。
图上的节点分类经常面临类别不平衡的挑战,这会导致性能偏差,并在实际应用中带来重大风险。尽管已经提出了一些以数据为中心的方法,但它们都没有关注文本属性图 (TAG),因此忽略了利用文本特征中丰富的语义来提升少数节点分类的潜力。鉴于这一关键差距,我们研究了在文本空间中增强图数据的可能性,利用大型语言模型 (LLM) 的文本生成能力来处理 TAG 上不平衡的节点分类问题。具体来说,我们提出了一种名为 LA-TAG(基于大型语言模型的文本属性图增强)的新方法,该方法提示 LLM 根据图中现有的节点文本生成合成文本。此外,为了将这些合成文本属性节点集成到图中,我们引入了一个基于文本的链接预测器来连接合成节点和现有节点。我们在多个数据集和评估指标上的实验表明,我们的框架显著优于传统的非文本数据增强策略和特定的节点不平衡解决方案。这突出了使用 LLM 解决 TAG 上不平衡问题的潜力。
图神经网络 (GNN) 已成为学习图结构数据的强大模型。然而,GNN 缺乏对富文本节点属性的内在语义理解能力,限制了其在应用中的有效性。另一方面,我们经验证明,现有的 GNN 模型在不同的数据集上都不能始终优于其他模型。在本文中,我们研究了大型语言模型 (LLM) 是否可以作为多 GNN 的集成器,并提出了 LensGNN 模型。该模型首先对多个 GNN 进行对齐,将不同 GNN 的表示映射到相同的空间。然后,通过 LoRA 微调,它对齐 GNN 和 LLM 之间的空间,将图标记和文本信息注入到 LLM 中。这使得 LensGNN 能够集成多个 GNN 并利用 LLM 的优势,从而获得更好的性能。实验结果表明,LensGNN 的性能优于现有模型。这项研究通过提供一个强大且优越的解决方案来集成语义和结构信息,从而推动了文本属性图集成学习的发展。我们在此提供我们的代码和数据:https://anonymous.4open.science/r/EnsemGNN-E267/。
归纳知识图谱补全 (KGC) 的目标是预测包含未见实体的缺失三元组。最近的研究工作侧重于将头实体和尾实体之间的推理路径建模为直接的支持证据。然而,这些方法严重依赖于推理路径的存在和质量,这限制了它们在不同场景下的普遍适用性。此外,我们观察到知识图谱中固有的潜在类型约束和相邻事实对于推断缺失三元组也至关重要。为了有效利用知识图谱中的所有有用信息,我们引入了 CATS,这是一种新颖的上下文感知归纳 KGC 解决方案。在适当提示和监督微调的充分指导下,CATS 激活了大型语言模型强大的语义理解和推理能力,以评估查询三元组的存在性,该方案包含两个模块。首先,类型感知推理模块评估候选实体是否与查询关系所需的潜在实体类型匹配。然后,子图推理模块选择相关的推理路径和相邻事实,并评估它们与查询三元组的相关性。在三个广泛使用的数据集上的实验结果表明,在 18 个转导、归纳和少样本设置中的 16 个设置中,CATS 的性能明显优于最先进的方法,平均绝对 MRR 提升了 7.2%。
大型语言模型(LLM)已经取代了众多自然语言处理任务中的传统方法。然而,在命名实体识别(NER)中,现有的基于LLM的方法……
智能技术的进步显著增强了在复杂交通环境中的导航能力,使自动驾驶车辆能够准确地感知环境和预测轨迹。然而,现有的研究往往忽略了场景参与者的联合推理,并且在轨迹预测模型中缺乏可解释性,从而限制了其在现实场景中的实际应用。为此,本文设计了一个面向可解释性的轨迹预测模型,名为可解释条件扩散多模态轨迹预测Traj-Explainer,以检索预测的影响因素并帮助理解预测的内在机制。在Traj-Explainer中,一个改进的条件扩散模型被很好地设计用于捕获场景多模态轨迹模式,同时,一个改进的Shapley值模型被用来合理地学习全局和场景特征的重要性。数值实验通过多个轨迹预测数据集进行,包括Waymo、NGSIM、HighD和MoCAD数据集。此外,我们对已识别的输入因素进行了评估,结果表明它们与人类驾驶经验一致,表明该模型能够适当地学习预测。代码可在我们的开源库中获取:\url{https://anonymous.4open.science/r/Interpretable-Prediction}。
本文分析了约200篇在线文章,利用人工智能技术识别工业5.0的趋势。具体而言,它采用LDA、BERTopic、LSA和K-means等算法,通过各种配置,提取并比较文献中的核心主题。结果揭示了围绕核心主题组的趋同性,同时也强调了工业5.0涵盖广泛的主题。研究得出结论:作为工业4.0的演进,工业5.0是一个宽泛的概念,缺乏明确的定义,难以有效聚焦和应用。因此,为了使工业5.0发挥作用,需要对其进行完善和更清晰的界定。此外,研究结果表明,众所周知的AI技术可以有效地用于趋势识别,尤其是在现有文献广泛且主题缺乏精确界限的情况下。本研究展示了AI在从大型多样化数据集提取有意义的见解方面的潜力,即使在领域主题结构不明确的情况下也是如此。
这份关于主动辅助生活(AAL)技术的资料册是GoodBrother COST行动(2020年至2024年)的一部分。COST行动是欧洲的研究项目,旨在促进跨境合作,团结研究人员、专业人员和机构,共同应对主要的社会挑战。GoodBrother行动关注的是护理环境中视频和音频监控引发的伦理和隐私问题,其目标是在AAL技术帮助老年人和弱势群体同时,确保他们的隐私和数据保护权利始终是重中之重。
本资料册旨在引导您了解AAL技术在改善老年人、护理人员和残疾人生活质量方面的作用。AAL技术为面临认知或身体挑战的人们提供工具,可以增强他们的独立性,协助日常生活,并营造更安全的居住环境。然而,这些技术的兴起也带来了一些关于数据保护和用户自主权的重要问题。
本资源面向广大受众,包括最终用户、护理人员、医疗保健专业人员和政策制定者。它提供了将AAL技术整合到护理环境中,同时保护隐私和确保其伦理使用的实用指导。这里提供的见解旨在赋能用户和护理人员,让他们做出明智的选择,从而提高护理质量并尊重个人自主权。
移动系统需要支持多个基于人工智能的应用程序,每个应用程序都通过协同执行的网络中的DNN架构利用异构数据源。为了在对延迟、质量和(至关重要)推理过程的可靠性有要求的情况下最小化人工智能推理任务的成本,优化 (i) 传感器/数据源集合,(ii) DNN 架构,(iii) 执行 DNN 部分的网络节点以及 (iv) 要使用的资源至关重要。为此,我们利用具有分支的动态门控神经网络,并提出了一种名为分位数约束推理 (QIC) 的新型算法策略,该策略基于分位数约束策略优化。QIC 对系统上述所有方面做出联合的、高质量的、快速的决策,旨在最大限度地降低推理能耗。我们注意到,这是第一个将门控动态 DNN 与基础设施级决策相结合的贡献。我们使用具有茎和分支的动态门控 DNN(用于最佳传感器融合和推理)评估 QIC,该 DNN 在提供雷达、激光雷达和摄像机数据的 RADIATE 数据集和真实世界的无线测量数据上进行训练。我们的结果证实,QIC 与最优值相匹配,并且其性能优于其他替代方案 80% 以上。
构建高性能大型语言模型的核心在于精心策划用于训练的理想数据集(Touvron等人,2023;Achiam等人,2023;Team等人,2024)。梯度影响分数(Pruthi等人,2020;Xia等人,2024)已被证明与模型性能相关,并常被用作数据选择的标准。然而,现有方法要么基于单个样本排序,要么基于低效的匹配过程,导致次优性能或扩展性问题。本文提出了一种梯度轨迹追踪(GTP)算法,该算法通过在L0范数正则化目标下联合选择数据点来追踪梯度轨迹。该算法的亮点在于:(1)联合选择而非独立的top-k选择,可自动去重样本;(2)利用压缩采样过程提高效率,并可通过分布式框架进一步加速。实验结果表明,该算法在领域内和目标领域选择基准测试中均优于top-k选择和竞争算法,例如,我们的算法只需选择少至0.5%的数据即可在目标指令微调任务中达到满分性能。