在给定的故事语境下生成常识性断言对于现代语言模型来说仍然是一项艰巨的任务。以往的研究通过将常识性推理与故事对齐,并相应地训练语言生成模型来解决这个问题。其中一个挑战是确定故事中哪个主题或实体应该是推断出的断言的焦点。先前的研究缺乏控制生成断言的特定方面的能力。在这项工作中,我们引入了“暗示”这种数据增强技术,它增强了语境化的常识性推理。“暗示”采用了一种前缀提示策略,使用硬提示和软提示来指导推理过程。为了证明其有效性,我们将“暗示”应用于两个语境化的常识性推理数据集:ParaCOMET 和 GLUCOSE,评估其对一般推理和特定语境推理的影响。此外,我们通过将同义词和反义词纳入提示中来评估“暗示”。我们的结果表明,“暗示”不会损害语境化常识性推理的性能,同时还能提供更好的可控性。
我们提出了一种名为 G2T-LLM 的新方法,用于分子生成,该方法使用图到树文本编码将基于图的分子结构转换为针对大型语言模型 (LLM) 优化的分层文本格式。这种编码将复杂的分子图转换为树状结构格式,例如 JSON 和 XML,由于这些格式是 LLM 在大量预训练数据中经常处理的,因此 LLM 非常擅长处理这些格式。通过利用 LLM 的灵活性,我们的方法允许使用自然语言提示进行直观的交互,为分子设计提供更易于访问的界面。通过监督微调,G2T-LLM 生成有效且连贯的化学结构,解决了传统基于图的方法中常见的无效输出等挑战。虽然 LLM 计算量大,但它们提供卓越的泛化能力和适应性,能够生成各种分子结构,而无需进行大量的任务特定定制。该方法在各种分子生成基准数据集上取得了与最先进方法相当的性能,证明了其作为人工智能驱动分子设计的灵活且创新的工具的潜力。
多元时间序列(MTS)预测是一项具有广泛现实应用的基础任务,例如交通运输、气候和流行病学。尽管针对这项任务开发了大量强大的深度学习模型,但很少有研究探索 MTS 预测模型对恶意攻击的鲁棒性,而这对于在高风险场景中可靠地使用这些模型至关重要。为了填补这一空白,我们深入研究了 MTS 预测模型的后门攻击,并提出了一种名为 BackTime 的有效攻击方法。通过将少量隐蔽的触发器巧妙地注入 MTS 数据,BackTime 可以根据攻击者的意图改变预测模型的预测结果。具体而言,BackTime 首先识别数据中易受攻击的时间戳以进行中毒,然后通过解决一个基于 GNN 的触发器生成器双层优化问题,自适应地合成隐蔽且有效的触发器。在多个数据集和最先进的 MTS 预测模型上进行的大量实验表明,\method{} 攻击的有效性、通用性和隐蔽性。代码可在 \url{https://github.com/xiaolin-cs/BackTime} 获取。
智能手机和基于位置的社交网络的广泛应用导致了海量时空数据的涌现,为增强兴趣点 (POI) 推荐系统创造了前所未有的机遇。这些先进的 POI 系统对于丰富用户体验、实现个性化互动以及优化数字环境中的决策过程至关重要。然而,现有的综述往往集中于传统方法,很少深入探讨 POI 推荐领域的尖端发展、新兴架构以及安全考量。为了填补这一空白,我们的综述独树一帜,对 POI 推荐系统进行了全面且最新的回顾,涵盖了模型、架构和安全方面的进步。我们系统地考察了从传统模型到大型语言模型等先进技术的转变。此外,我们还探索了从集中式到分散式和联邦学习系统的架构演变,突出了可扩展性和隐私方面的改进。此外,我们还探讨了安全的重要性日益增长,分析了潜在的漏洞和隐私保护方法。我们的分类法提供了对当前 POI 推荐现状的结构化概述,同时我们也确定了这一快速发展领域未来研究的有希望的方向。
尽管拥有非凡的能力,大型语言模型(LLMs)却对提示的细微变化异常敏感,经常会在提示发生细微变化时产生显著不同的输出,例如拼写错误、措辞更改或提示模板的改变。然而,在评估 LLM 的质量时,人们往往只关注其在下游任务中的表现,而对提示敏感性却很少关注。为了填补这一空白,我们提出了 POSIX——一个新的提示敏感性指数,作为衡量提示敏感性的可靠指标,从而提供对 LLM 性能的更全面评估。POSIX 背后的关键思想是捕捉给定响应的对数似然在用不同的意图保留提示替换相应提示时的相对变化。我们提供了充分的经验证据,证明了 POSIX 在捕捉提示敏感性方面的有效性,并随后用它来衡量和比较各种开源 LLM 的提示敏感性。我们发现,仅仅增加参数数量或指令调整并不一定能降低提示敏感性,而添加一些少样本示例,即使只有一个,几乎总是会导致提示敏感性显著下降。我们还发现,在 MCQ 类型任务中,对提示模板的更改会导致最高的敏感性,而在开放式生成任务中,释义会导致最高的敏感性。用于重现我们结果的代码已在 https://github.com/kowndinyarenduchintala/POSIX 上开源。
将大型语言模型部署到生产环境中需要同时关注效率和风险控制。先前的工作已经证明了在保持类似准确率的同时降低成本的可能性,但忽略了风险控制。相比之下,本文提出了具有多级回避功能的层次化链 (HCMA),该方法利用模型固有的不确定性来沿着 LLM 智能层次结构委派查询,从而实现仅基于黑盒 API 调用的无训练模型切换。我们的框架在效率和风险之间呈现出新颖的权衡。例如,在 MMLU 上部署 HCMA 时,当模型允许对 20% 的查询进行回避时,Llama3 405B 的错误率降低了 30%。为了校准 HCMA 以获得最佳性能,我们的方法使用数据高效的逻辑回归(基于简单的非线性特征变换),只需要 50 或 100 个标记示例即可实现出色的校准误差 (ECE),与朴素 Platt 缩放相比,ECE 降低了 50%。在自由格式生成任务中,我们发现思维链对于选择性预测无效,而零样本提示在高回避率下将 TruthfulQA 的错误率降至 0%。随着 LLM 在具有不同功能(例如移动、笔记本电脑和云)的计算环境中越来越广泛地部署,我们的框架为在实施严格的风险控制的同时维护部署效率铺平了道路。
使用离线数据评估策略对于将强化学习应用于医疗保健和自动驾驶等现实世界问题至关重要。以往的离线策略评估 (OPE) 方法通常存在方差高或不可约偏差的问题,导致预测误差高得难以接受。本文介绍了 STAR,这是一种用于 OPE 的框架,它包含了各种估计器——包括现有的 OPE 方法作为特例——这些估计器可以实现更低的均方预测误差。STAR 利用状态抽象将复杂、可能连续的问题提炼成紧凑、离散的模型,我们称之为抽象奖励过程 (ARP)。从离线数据估计的 ARP 的预测在理论上是一致的(渐近正确)。我们没有提出特定的估计器,而是提出了一种新的 OPE 框架,并通过实证证明了 STAR 中的估计器优于现有方法。最好的 STAR 估计器在所有 12 个研究案例中都优于基线,即使是中位数 STAR 估计器也超过了 12 个案例中的 7 个案例的基线。
与任何其他有用的技术一样,加密货币有时也被用于犯罪活动。虽然交易记录在区块链上,但需要一种更快速、更可扩展的方法来检测与欺诈活动相关的地址。我们提出了 RiskSEA,一个可扩展的风险评分系统,能够有效地处理大规模区块链交易图的动态特性。我们为以太坊实现的风险评分系统包括:1. 一种可扩展的方法,用于为整个地址集生成 node2vec 嵌入,以捕获图拓扑结构;2. 基于交易的特征,用于捕获地址的交易行为模式;3. 一个分类模型,用于为结合了 node2vec 嵌入和行为特征的地址生成风险评分。有效地为大规模且动态演化的区块链交易图生成 node2vec 嵌入具有挑战性,我们提出了两种新方法来生成 node2vec 嵌入,并将其有效地扩展到整个区块链地址集:1. node2vec 嵌入传播;2. 动态 node2vec 嵌入。我们对提出的方法进行了全面分析。我们的实验表明,结合行为特征和 node2vec 特征可以显著提高分类性能,并且动态 node2vec 嵌入比 node2vec 传播嵌入表现更好。
语言模型 (LM) 可以“记忆”信息,即以一种在推理时查询会导致对该数据的逐字重复的方式将训练数据编码到其权重中。这种提取训练数据的能力可能存在问题,例如,当数据是私有或敏感时。在这项工作中,我们研究了减轻记忆的方法:三种基于正则化的、三种基于微调的和 11 种基于机器反学习的方法,其中后者的五种是我们新提出的方法。我们还介绍了 TinyMem,这是一套小型、计算效率高的 LM,用于快速开发和评估记忆缓解方法。我们证明了我们使用 TinyMem 开发的缓解方法可以成功地应用于生产级 LM,并且我们通过实验确定:基于正则化的缓解方法速度慢且在抑制记忆方面效果不佳;基于微调的方法在抑制记忆方面有效,但过于昂贵,尤其是在保持较高准确率的情况下;而基于反学习的方法更快、更有效,允许在推理之前从 LM 权重中精确定位和删除记忆的信息。我们特别表明,我们提出的反学习方法 BalancedSubnet 在去除记忆信息的同时,在目标任务上的性能优于其他缓解方法。
计算机编程(编码)对于跨学科的研究人员来说是必不可少的,但学习和执行它仍然具有挑战性且耗时。生成式 AI,尤其是大型语言模型(LLM),有可能将编码转变为直观的对话,但最佳实践和有效的流程才刚刚出现。我们从三个关键角度剖析了基于 AI 的编码:LLM 在编码中的性质和作用(为什么)、它们提供的六种类型的编码辅助(什么),以及一个包含实际实施策略的五步工作流程(如何)。此外,我们还讨论了 AI 在编码方面的局限性和未来展望。通过提供可操作的见解,该框架有助于指导研究人员有效地利用 AI 来增强编码实践和教育,从而加速科学进步。