LLM2D

arXiv 论文列表

作者: Naba Rizvi, Harper Strickland, Daniel Gitelman, Tristan Cooper, Alexis Morales-Flores, Michael Golden, Aekta Kallepalli, Akshat Alurkar, Haaset Owens, Saleha Ahmedi, Isha Khirwadkar, Imani Munyaka, Nedjma Ousidhoum
随着我们对自闭症和歧视残疾人的观念的理解不断加深,我们对针对自闭症人士的歧视性语言的理解也随之加深。由于这种语言的微妙性和依赖语境的特点,它对自然语言处理 (NLP) 研究提出了重大挑战。然而,检测反自闭症歧视性语言的研究仍然不足,现有的 NLP 工具往往无法捕捉其细微的表达方式。我们提出了 AUTALIC,这是第一个专门用于检测语境中反自闭症歧视性语言的基准数据集,填补了该领域的重大空白。该数据集包含从 Reddit 收集的 2400 个与自闭症相关的句子,并附有周围语境,由具有神经多样性背景的训练有素的专家进行标注。我们全面的评估表明,包括最先进的大型语言模型 (LLM) 在内的当前语言模型难以可靠地识别反自闭症歧视行为并与人类判断保持一致,这突出了它们在该领域的局限性。我们公开发布 AUTALIC 及其个体标注,作为研究歧视残疾人、神经多样性和标注任务中分歧问题的研究人员的宝贵资源。该数据集是朝着开发更具包容性和语境感知能力的 NLP 系统迈出的重要一步,这些系统能够更好地反映不同的观点。
发布时间: 10/23/2024
查看原文
作者: Jingdi Chen, Hanhan Zhou, Yongsheng Mei, Carlee Joe-Wong, Gina Adam, Nathaniel D. Bastian, Tian Lan
深度强化学习(DRL)算法在解决许多具有挑战性的任务方面取得了巨大成功,但其黑盒特性阻碍了其可解释性和实际应用,使得人类专家难以解释和理解DRL策略。现有的可解释强化学习工作在从DRL策略中提取基于决策树(DT)的策略方面显示出前景,大多数工作都集中在单智能体场景中,而先前在多智能体场景中引入DT策略的尝试主要集中在启发式设计上,这些设计并未提供关于预期回报的任何定量保证。在本文中,我们建立了预言专家策略和最优决策树策略之间回报差距的上界。这使我们能够将DT提取问题重新表述为一个新颖的非欧几里得聚类问题,该问题针对每个智能体的局部观测和动作值空间,动作值作为聚类标签,回报差距的上界作为聚类损失。通过由以其他智能体的当前DT为条件的动作值函数引导的迭代增长DT程序,该算法和上界都扩展到多智能体分散式DT提取。此外,我们提出了回报差距最小化决策树(RGMDT)算法,这是一种令人惊讶的简单设计,并通过利用新颖的正则化信息最大化损失与强化学习相集成。在D4RL等任务上的评估表明,RGMDT 显著优于基于启发式DT的基线,并且在给定的DT复杂性约束(例如,DT节点的最大数量)下可以实现接近最优的回报。
发布时间: 10/23/2024
查看原文
作者: Dong-Ho Lee, Adam Kraft, Long Jin, Nikhil Mehta, Taibai Xu, Lichan Hong, Ed H. Chi, Xinyang Yi
大型语言模型 (LLM) 为推荐系统 (RecSys) 任务带来了很有前景的新方法。虽然目前最先进的方法依赖于微调 LLM 以获得最佳结果,但这过程成本高昂且引入了大量的工程复杂性。相反,那些绕过微调并直接使用 LLM 的方法资源消耗较少,但往往无法充分捕捉语义和协同信息,导致性能不如经过微调的对应方法。本文提出了一种简单的免训练推荐方法 (STAR),这是一个利用 LLM 的框架,无需微调即可应用于各种推荐任务。我们的方法包括一个检索阶段,该阶段使用来自 LLM 的语义嵌入与协同用户信息相结合来检索候选项目。然后,我们应用 LLM 进行成对排序以增强下一个项目的预测。在亚马逊评论数据集上的实验结果表明,即使只有我们的检索阶段,也能在下一个项目预测方面取得具有竞争力的性能。我们的完整方法在 Hits@10 指标上,相对于最佳监督模型,在美妆类提升了 +23.8%,在玩具和游戏类提升了 +37.5%,在运动和户外类下降了 -1.8%。该框架为传统的监督模型提供了一种有效的替代方案,突出了 LLM 在无需大量训练或自定义架构的情况下在推荐系统中的潜力。
发布时间: 10/23/2024
查看原文
作者: Zhiwei Zhang, Fali Wang, Xiaomin Li, Zongyu Wu, Xianfeng Tang, Hui Liu, Qi He, Wenpeng Yin, Suhang Wang
大型语言模型 (LLM) 在文本生成方面展现出卓越的能力,这得益于其在海量文本语料库上的广泛训练。然而,LLM 也可能从其训练数据的多样性和敏感性中习得不良行为,其中可能包括受版权保护和私人内容。机器遗忘已被提出作为一种可行的解决方案,用于去除此类问题内容的影响,而无需进行代价高昂且耗时的重新训练。此过程旨在从LLM中抹去特定知识,同时尽可能保留模型的实用性。尽管目前的遗忘方法有效,但很少有人关注现有的LLM遗忘方法是否真正实现了遗忘,或者仅仅是隐藏了知识,而目前的遗忘基准测试无法检测到这一点。本文揭示了对经过遗忘处理的模型应用量化可以恢复“遗忘”的信息。为了彻底评估这一现象,我们使用多种量化技术跨多个精度级别进行了全面的实验。我们发现,对于具有效用约束的遗忘方法,在全精度下,遗忘的模型平均保留了 21% 的预期遗忘知识,而在 4 位量化后,这一比例显著提高到 83%。基于我们的实证结果,我们对观察到的现象进行了理论解释,并提出了一种抗量化遗忘策略来缓解这一复杂问题……
发布时间: 10/23/2024
查看原文
作者: Leni Aniva, Chuyue Sun, Brando Miranda, Clark Barrett, Sanmi Koyejo
机器辅助定理证明是指通过结构化推理自动生成数学定理证明的过程。最近,人们对结合使用机器学习模型和证明助手来执行这项任务的兴趣激增。本文介绍了Pantograph,这是一个为Lean 4证明助手提供通用接口的工具,它可以通过强大的搜索算法(如蒙特卡洛树搜索)实现高效的证明搜索。此外,Pantograph通过更稳健地处理Lean 4的推理步骤,实现了更高层次的推理。本文概述了Pantograph的架构和功能。我们还报告了一个说明性用例:使用机器学习模型和证明草图来证明Lean 4定理。Pantograph的创新功能为更先进的机器学习模型执行复杂的证明搜索和高层次推理铺平了道路,使未来的研究人员能够设计出更通用和强大的定理证明器。
发布时间: 10/23/2024
查看原文
作者: Amol Khanna, Adam McCormick, Andre Nguyen, Chris Aguirre, Edward Raff
本文旨在阐明联邦政府环境下差分隐私面临的挑战和机遇,这是由一群差分隐私研究人员、隐私律师和数据科学家与美国政府密切合作后提出的观点。在介绍差分隐私之后,我们重点介绍了目前限制差分隐私在美国政府中使用的三个重大挑战。然后,我们提供了两个差分隐私可以增强政府机构能力的例子。第一个例子强调了差分隐私的定量特性如何允许政策安全官员发布具有不同隐私级别的多个分析版本。第二个例子(我们认为这是一个新颖的认识)表明,差分隐私可用于提高机密应用中的人员配置效率。我们希望本文能够成为一个非技术性资源,帮助差分隐私社区、隐私监管机构、安全官员和立法者制定未来的行动。
发布时间: 10/23/2024
查看原文
作者: Aliaksandra Shysheya, Cristiana Diaconu, Federico Bergamin, Paris Perdikaris, Jos\'e Miguel Hern\'andez-Lobato, Richard E. Turner, Emile Mathieu
对偏微分方程(PDE)的建模在科学和工程领域至关重要,它涵盖了从预测到反问题(如数据同化)等各种任务。然而,大多数以前针对预测的数值和机器学习方法都不能直接应用于数据同化。最近,扩散模型作为一种强大的条件生成工具出现,能够灵活地整合观测数据而无需重新训练。在这项工作中,我们对基于分数的扩散模型在稀疏观测的预测和同化中的应用进行了比较研究。特别是,我们关注以条件方式训练或在无条件训练后进行条件化的扩散模型。我们通过提出以下改进来解决现有模型的不足:1)一种自回归采样方法,显著提高了预测性能;2)一种针对条件基于分数的模型的新训练策略,可在一定的历史长度范围内实现稳定的性能;3)一种混合模型,它采用灵活的预训练条件来处理初始条件,并采用灵活的后训练条件来处理数据同化。我们通过实验证明,这些改进对于成功解决预测和数据同化相结合的任务至关重要,而这项任务在现实世界中经常遇到。
发布时间: 10/23/2024
查看原文
作者: Zhaoyuan Deng, Amith Ananthram, Kathleen McKeown
实时评论,也称为弹幕,是与视频内容同步的用户生成消息。这些评论直接叠加在流媒体视频上,实时捕捉观众的情绪和反应。虽然之前的工作已经利用实时评论进行情感分析,但由于不同视频平台上实时评论的相对稀少,其应用受到了限制。为了解决这个问题,我们首先构建了用于情感分析的实时评论 (LCAffect) 数据集,该数据集包含英语和中文视频的实时评论,涵盖各种类型,并引发广泛的情绪。然后,利用这个数据集,我们使用对比学习来训练视频编码器,以生成合成实时评论特征,从而增强多模态情感内容分析。通过对英语和中文中各种情感分析任务(情感、情绪识别和讽刺检测)进行全面实验,我们证明这些合成实时评论特征显著提高了最先进方法的性能。
发布时间: 10/23/2024
查看原文
作者: Md Asifuzzaman Jishan, Vikas Singh, Ayan Kumar Ghosh, Md Shahabub Alam, Khan Raqib Mahmud, Bijan Paul
本研究应用贝叶斯模型预测酒店预订取消情况,这是影响酒店业资源分配、收入和客户满意度的一个关键挑战。利用包含36285个观测值和17个特征的Kaggle数据集,我们实现了贝叶斯逻辑回归和Beta-Binomial模型。应用于12个特征和5000个随机选择的观测值的逻辑回归模型在预测精度方面优于Beta-Binomial模型。关键预测因素包括成人数量、儿童数量、入住时长、提前预订时间、停车位、房间类型和特殊要求。使用留一法交叉验证 (LOO-CV) 对模型进行评估,证实了观测结果和预测结果之间的高度一致性,证明了模型的稳健性。特殊要求和停车位的可用性被发现是取消预订的最强预测因素。这种贝叶斯方法为改进酒店业的预订管理和运营效率提供了一种宝贵的工具。
发布时间: 10/23/2024
查看原文
神经网络缩放定律因其能够预测模型性能(作为参数、数据和计算量增加的函数)而受到广泛关注。本研究提出了一种基于记忆化的简单统计假设来研究推理中的缩放定律,特别是性能如何随着多次推理尝试而提高。我们探讨了覆盖率或pass@k指标,该指标衡量了重复尝试成功的概率,并为大型语言模型 (LLM) 在推理任务中观察到的覆盖率推理缩放行为的函数形式提供了动机。然后,我们定义了一个“推理损失”,它随着试验次数的增加呈幂律衰减,并将此结果与提示成本联系起来。我们通过在一个简单的生成模型上进行实验进一步验证了我们的模型,发现我们的预测与受控环境下的经验覆盖率曲线一致。我们简单的框架为将推理缩放与其他已知的缩放定律结合起来奠定了基础。
发布时间: 10/23/2024
查看原文