LLM2D

arXiv 论文列表

强化学习 (RL) 正在快速达到并超越人类水平的控制能力。然而,最先进的 RL 算法通常需要比人类能力快得多的时间步长和反应时间,这在现实世界中是不切实际的,并且通常需要专门的硬件。这样的速度在现实世界中很难实现,并且通常需要专门的硬件。我们介绍了序列强化学习 (SRL),这是一种 RL 算法,旨在为给定的输入状态生成一系列动作,从而在较低的决策频率下实现有效的控制。SRL 通过采用在不同时间尺度上运行的模型和演员-评论家架构来解决学习动作序列的挑战。我们提出了一种“时间召回”机制,其中评论家使用模型来估计基本动作之间的中间状态,为序列中每个单独的动作提供学习信号。训练完成后,演员可以独立于模型生成动作序列,以较慢的频率实现无模型控制。我们在套件连续控制任务上评估了 SRL,证明它实现了与最先进算法相当的性能,同时显着降低了演员样本复杂度。为了更好地评估不同决策频率下的性能,我们引入了频率平均得分 (FAS) 指标。我们的结果表明,SRL 在 FAS 方面明显优于传统的 RL 算法,使其特别适用于需要可变决策频率的应用。此外,我们将 SRL 与基于模型的在线规划进行了比较,结果表明,SRL 在训练期间利用与在线规划器用于规划相同的模型,同时实现了更高的 FAS。
发布时间: 10/14/2024
查看原文
作者: Jonas Schweisthal, Dennis Frauen, Maresa Schr\"oder, Konstantin Hess, Niki Kilbertus, Stefan Feuerriegel
从观测数据中可靠地估计治疗效果在医学等许多学科中都至关重要。然而,当因果推断文献中作为标准假设的无混杂性被违反时,估计就变得具有挑战性。在这项工作中,我们利用任意(可能是高维的)工具来估计条件平均治疗效果 (CATE) 的界限。我们的贡献有三方面:(1)我们提出了一种通过将工具映射到离散表示空间来进行部分识别的新方法,以便我们可以得到 CATE 的有效界限。这对于现实世界应用中可靠的决策至关重要。(2)我们推导出一个两步过程,该过程使用针对潜在工具空间的定制神经分区来学习紧界限。因此,我们避免了由于数值近似或对抗性训练而导致的不稳定性问题。此外,我们的程序旨在减少有限样本设置中的估计方差,从而产生更可靠的估计。(3)我们在理论上证明了我们的程序获得了有效的界限,同时减少了估计方差。我们还进行了广泛的实验,以证明其在各种设置下的有效性。总的来说,我们的程序为从业人员提供了一条利用潜在的高维工具(例如,在孟德尔随机化中)的新途径。
发布时间: 10/14/2024
查看原文
作者: Michalis Korakakis, Andreas Vlachos, Adrian Weller
主动学习旨在通过从未标记数据池中选择最有用的实例来最小化标注工作量。然而,典型的主动学习方法忽略了类别中存在不同的示例组,这些组的流行程度可能会有所不同,例如,在职业分类数据集中,某些人口统计数据在特定类别中所占比例过高。这种疏忽会导致模型依赖于预测的捷径,即在代表性强的群体中出现的输入属性和标签之间的虚假相关性。为了解决这个问题,我们提出了基于插值的主动学习 (ALVIN),它在代表性不足的群体和代表性强的群体中的示例之间进行类内插值,以创建锚点,即位于表示空间中示例组之间的虚拟点。通过选择靠近锚点的实例进行标注,ALVIN 识别出信息丰富的示例,使模型暴露于表示空间的区域,这些区域抵消了捷径的影响。至关重要的是,由于模型认为这些示例具有很高的确定性,因此典型的主动学习方法很可能忽略它们。在六个包含情感分析、自然语言推理和释义检测的数据集上的实验结果表明,ALVIN 在分布内和分布外泛化方面都优于最先进的主动学习方法。
发布时间: 10/14/2024
查看原文
作者: Zheng Yi Ho, Siyuan Liang, Sen Zhang, Yibing Zhan, Dacheng Tao
大型语言模型(LLM)中的幻觉仍然是一个主要障碍,尤其是在事实准确性至关重要的关键应用中。虽然表示编辑和阅读方法在减少幻觉方面取得了进展,但它们严重依赖于专门工具并在领域内样本上进行训练,这使得它们难以扩展且容易过拟合。这限制了它们在不同数据集上的准确性提升和泛化能力。本文提出了一种轻量级方法,即规范投票(NoVo),它利用注意力头规范的未开发潜力,显著提高了零样本多项选择问题(MCQ)的事实准确性。NoVo 首先使用仅包含 30 个随机样本的有效推理算法自动选择与真实相关的头规范,使 NoVo 能够轻松扩展到不同的数据集。之后,选定的头规范被用于简单的投票算法,从而在预测精度方面取得了显著提升。在 TruthfulQA MC1 上,NoVo 以惊人的优势超越了现有的最先进技术和所有先前的方法——至少提高了 19 个准确性点。NoVo 展示了对 20 个不同数据集的出色泛化能力,在超过 90% 的数据集中取得了显著提升,远远超过了所有当前的表示编辑和阅读方法。NoVo 还表明,对微调策略和构建文本对抗防御有希望的提升。NoVo 对头规范的有效性为 LLM 的可解释性、鲁棒性和可靠性开辟了新的领域。
发布时间: 10/14/2024
查看原文
作者: Jingyu Zhang, Ahmed Elgohary, Ahmed Magooda, Daniel Khashabi, Benjamin Van Durme
当前大型语言模型(LLM)的安全对齐范式采用了一种一刀切的方法:模型拒绝与模型提供者认为不安全的任何内容进行交互。这种方法在面对不同文化和地区之间不同的社会规范时缺乏灵活性。此外,用户可能拥有不同的安全需求,使得具有静态安全标准的模型过于严格,难以使用,而且重新对齐成本过高。 我们提出了可控安全对齐(CoSA),这是一个旨在使模型适应不同的安全要求而无需重新训练的框架。我们不是对齐一个固定的模型,而是对齐模型以遵循安全配置——作为系统提示的一部分提供的关于所需安全行为的自由形式的自然语言描述。为了调整模型的安全行为,授权用户只需要在推理时修改这些安全配置。为了实现这一点,我们提出了 CoSAlign,一种以数据为中心的 LLM 对齐方法,可以轻松适应不同的安全配置。此外,我们设计了一种新的可控性评估协议,该协议同时考虑了有用性和配置的安全,将它们总结成 CoSA-Score,并构建了 CoSApien,一个由人类编写的基准,包含具有不同安全要求的真实世界 LLM 使用案例以及相应的评估提示。 我们证明了 CoSAlign 在包括上下文对齐在内的强大基线之上取得了显著的可控性提升。我们的框架鼓励在 LLM 中更好地表示和适应多元化的人类价值观,从而提高其实用性。
发布时间: 10/14/2024
查看原文
作者: Wen Yang, Junhong Wu, Chen Wang, Chengqing Zong, Jiajun Zhang
大型语言模型 (LLM) 在众多任务中取得了最先进的性能。然而,这些进步主要惠及英语和中文等“一等”语言,而许多其他语言则代表性不足。这种不平衡,虽然限制了更广泛的应用,但也产生了语言之间的自然偏好排序,为以自我改进的方式增强 LLM 的多语言能力提供了机会。因此,我们提出了“语言不平衡驱动的奖励”,其中利用 LLM 内主导语言和非主导语言之间的固有失衡作为奖励信号。迭代 DPO 训练表明,这种方法不仅增强了 LLM 在非主导语言中的性能,而且还提高了主导语言的能力,从而产生了迭代奖励信号。对 Meta-Llama-3-8B-Instruct 进行两次迭代的微调,在指令遵循和算术推理任务中持续提高了多语言性能,在 X-AlpacaEval 排行榜上的平均胜率提高了 7.46%,在 MGSM 基准测试中的准确率提高了 13.9%。这项工作作为初步探索,为 LLM 的多语言自我改进铺平了道路。
发布时间: 10/14/2024
查看原文
作者: Arthur Mendon\c{c}a Sasse, Claudio Miceli de Farias
联邦 Kolmogorov-Arnold 网络 (F-KANs) 已经被提出,但其评估还处于起步阶段。本文比较了 KANs(使用 B 样条和径向基函数作为激活函数)和具有相似参数数量的多层感知器 (MLP),在使用 100 个客户端的非 IID 分区进行 MNIST 分类任务的 100 轮联邦学习中。在对每种模型进行 15 次试验后,我们发现,Spline-KANs 在一半的时间(轮数)内就能达到 MLPs 达到的最佳准确率,而计算时间仅略有增加。
发布时间: 10/14/2024
查看原文
作者: Yisen Wang, Yichuan Mo, Dongxian Wu, Mingjie Li, Xingjun Ma, Zhouchen Lin
跳跃连接是现代深度模型更深、更强大的必要组成部分。尽管它们在正常情况下取得了巨大成功(在自然示例上实现了最先进的分类性能),但我们在对抗性场景下调查并识别了跳跃连接的一个有趣特性,即使用跳跃连接可以更容易地生成高度可转移的对抗性示例。具体来说,在类似 ResNet 的模型(具有跳跃连接)中,我们发现根据回传过程中的衰减因子,从跳跃连接而不是残差模块中使用更多梯度,可以生成具有高可转移性的对抗性示例。上述方法被称为跳跃梯度法 (SGM)。虽然从视觉领域中的类似 ResNet 模型开始,但我们进一步将 SGM 扩展到更高级的架构,包括视觉 Transformer (ViT) 和具有长度可变路径以及其他领域的模型,即自然语言处理。我们对包括 ResNets、Transformers、Inceptions、神经架构搜索和大型语言模型 (LLM) 在内的各种模型进行了全面的转移攻击。我们表明,在几乎所有情况下,采用 SGM 都可以极大地提高精心制作的攻击的可转移性。此外,考虑到实际使用的巨大复杂性,我们进一步证明,SGM 甚至可以提高模型集合或目标攻击的可转移性,以及对当前防御的隐蔽性。最后,我们提供了关于 SGM 工作原理的理论解释和经验见解。我们的发现不仅促使对模型的架构特征进行新的对抗性研究,而且为安全的模型架构设计带来了新的挑战。我们的代码可在 https://github.com/mo666666/SGM 获得。
发布时间: 10/14/2024
查看原文
作者: Ariel Flint Ashery, Luca Maria Aiello, Andrea Baronchelli
大型语言模型 (LLM) 已经取代了传统方法,在许多自然语言处理任务中发挥着作用。然而,在命名实体识别 (NER) 中,现有的基于 LLM 的方法...
发布时间: 10/14/2024
查看原文
作者: Weijia Zhang, Jindong Han, Hao Liu, Wei Fan, Hao Wang, Hui Xiong
房地产估价对于房地产交易、投资分析和房地产税收等多种活动至关重要。近年来,深度学习通过利用来自网络平台的大量在线交易数据,在房地产估价方面展现出巨大的潜力。然而,深度学习对数据需求量大,因此可能难以直接应用于数据有限的众多小城市。为此,我们提出了基于元迁移学习的时序图网络(MetaTransfer),将来自多个数据丰富的都市的宝贵知识迁移到数据稀缺的城市,以提高估价性能。具体来说,通过将不断增长的房地产交易及其相关的住宅社区建模为一个时序事件异构图,我们首先设计了一个事件触发时序图网络来模拟不断变化的房地产交易之间不规则的时空关联。此外,我们将全市房地产估价表述为一个多任务动态图链接标签预测问题,其中城市中每个社区的估价被视为一个独立的任务。我们提出了一种基于超网络的多任务学习模块,以同时促进多个社区之间城市内部知识共享和任务特定参数生成,以适应社区级的房地产价格分布。此外,我们提出了一种基于三级优化的元学习框架,以自适应地重新加权来自多个源城市的训练交易实例,以减轻负迁移,从而提高跨城市知识迁移的有效性。最后,基于五个真实世界数据集的大量实验表明,与十一个基线算法相比,MetaTransfer 具有显著的优越性。
发布时间: 10/14/2024
查看原文