LLM2D

arXiv 论文列表

作者: Noboru Isobe, Kenshi Abe, Kaito Ariu
arXiv:2410.05127v3 宣称类型: replace-cross 摘要:均场博弈(MFG)是一种用于建模和近似大量代理行为的框架。在多代理强化学习中,计算MFG的均衡态一直是关注点。目前对于最后一次更新的策略收敛到均衡态的理论保证是有限的。我们提议使用一种简单的近端点(PP)类型方法来计算MFG的均衡态。然后,我们提供了首次基于Lasry--Lions型单调性条件的最后一迭代收敛(LIC)保证。我们还基于观察到的近端点更新规则等价于求解正则化MFG这一事实,提出了一种近端点更新规则的近似方法($\mathtt{APP}$),并且该方法可以由镜下降法求解。我们进一步确立了正则化镜下降法以指数速度实现最后一迭代收敛。我们的数值实验表明,$\mathtt{APP}$能够有效地计算均衡态。
发布时间: 2/3/2025
查看原文
arXiv:2410.03448v2 宣称类型: 替换-交叉 摘要:残疾人(PwD)经常在网上遇到的能力歧视仇恨言论和细微的冒犯。这些空间通常由机器学习模型进行管理,但人们对AI模型识别能力歧视言论的效果以及它们的判断与残疾人之间的契合程度知之甚少。为了研究这一问题,我们编制了一个开创性的数据集,包含200条针对残疾人的社交媒体评论,并促使最先进的AI模型(即,毒性分类器、语言模型)对每个评论进行毒性评分和能力歧视评分,并解释其理由。然后,我们招募了190名参与者以相同的方式对这些评论进行评级和解释,并评估语言模型的解释。我们的混合方法分析揭示了一个主要的断层:AI低估了与残疾人评级相比的毒性程度,而其能力歧视评估则是间歇性的且变化不定。尽管语言模型识别了一些偏见,但其解释存在缺陷——缺乏细微差别,做出错误假设,并且看起来过于批判而不是教育性的。未来,我们将讨论设计针对能力歧视的管理系统的挑战和机遇,并提倡在人工智能开发中包含交叉残疾视角。
发布时间: 2/3/2025
查看原文
作者: Doohyuk Jang, Sihwan Park, June Yong Yang, Yeonsung Jung, Jihun Yun, Souvik Kundu, Sung-Yub Kim, Eunho Yang
arXiv:2410.03355v2 宣告类型: replace-cross 摘要:自回归(AR)模型最近在图像生成领域中引起了关注,经常能够与扩散模型匹敌,甚至在某些情况下超越它们。然而,AR模型的一个主要局限性在于其顺序处理的特性,逐个处理标记,相比之下,生成模型如GAN或基于扩散的方法则更高效。尽管推测性解码已经被证明在加速大型语言模型时有效,通过一次生成多个标记,但在视觉AR模型中的应用仍处于探索阶段。在本文中,我们确定了这一环境中的一种挑战,我们称其为“令牌选择模糊性”,其中视觉AR模型经常将标记的均匀低概率分配给令牌,阻碍了推测性解码的有效性。为了克服这一挑战,我们提出了一种称为LANTERN的宽松接受条件,它利用了潜在空间中令牌的可互换性。这种宽松约束恢复了推测性解码在视觉AR模型中的有效性,使其能够更灵活地使用那些原本会被过早拒绝的候选令牌。此外,通过引入总变差距离界,我们确保这些速度提升不会显著牺牲图像质量或语义一致性。实验结果表明,我们的方法在提供实质性的速度提升方面是有效的。具体而言,当应用于当代视觉AR模型LlamaGen时,与最先进的推测性解码的简单应用相比,LANTERN的速度提升分别为$\mathbf{1.75}\times$和$\mathbf{1.82}\times$,与贪婪解码和随机采样相比分别如此。
发布时间: 2/3/2025
查看原文
作者: Yihong Dong, Ge Li, Yongding Tao, Xue Jiang, Kechi Zhang, Jia Li, Jinliang Deng, Jing Su, Jun Zhang, Jingjing Xu
arXiv:2410.02675v3 宣布类型: 替换-跨领域 摘要:尽管通用型神经网络,如MLPs和Transformer取得了显著的成功,但我们发现它们在建模和推理周期性现象方面表现出明显的不足,在训练域内只能获得边际性能,并且无法有效地泛化到领域外(OOD)场景。周期性现象在自然界和科学中无所不在。因此,神经网络应该具备建模和处理周期性现象的基本能力。在此工作中,我们提出FAN,这是一种新型的通用型神经网络,类似于MLP,但在有效地解决周期性建模挑战方面提供了广泛的应用。FAN通过引入傅里叶原则,自然地将周期性集成到其结构和计算过程中。与现有的基于傅里叶的网络不同,这些网络具有特定的周期性建模能力,通常针对特定任务进行设计,我们的方法保持了通用型建模能力。因此,FAN可以无缝地在各种模型架构中替换MLP,同时拥有更少的参数和FLOPs。通过广泛的实验,我们证明了FAN在周期性建模任务中的优越性,并展示了FAN在各种实际任务中的有效性和泛化性,例如符号公式表示、时间序列预测、语言建模和图像识别。
发布时间: 2/3/2025
查看原文
arXiv:2410.02387v3 宣告类型: replace-cross 摘要:本研究提出了一种名为BiSSL的新颖训练框架,利用双层优化来增强自监督学习中预训练阶段和下游微调阶段之间的对齐。BiSSL将预训练和下游任务目标分别形式化为双层优化问题中的下层和上层目标,并作为自监督学习流水线中的中间训练阶段。通过明确建模这些训练阶段之间的相关性,BiSSL促进了它们之间信息的共享,最终导致一个更适合下游任务的骨干参数初始化。我们提出了一种通用的训练算法,在BiSSL中交替优化定义的两个目标,该算法适用于各种预训练和下游任务。在使用SimCLR和Bootstrap Your Own Latent对ImageNet数据集上的ResNet-50骨干进行预训练后,我们证明了所提出的框架在广泛的大约12个下游图像分类数据集以及目标检测中表现显著优于传统的自监督学习框架。下游任务细化前的骨干特征可视化进一步证明了BiSSL提高了骨干特征的下游任务对齐。
发布时间: 2/3/2025
查看原文
作者: Brahma S. Pavse, Yudong Chen, Qiaomin Xie, Josiah P. Hanna
arXiv:2410.01643v3 宣布类型: replace-cross 摘要:在强化学习中,离线值函数学习是指使用离线数据集来估算在固定的目标策略下采取动作时每个状态的期望折扣回报。该过程的稳定性,即它是否收敛到其固定点,主要取决于状态-动作对的表示方式。糟糕的学习表示可以使值函数学习不稳定,甚至发散。因此,通过明确塑造状态-动作表示,稳定值函数学习至关重要。最近,基于仿射方法的算法在塑造控制的表示方面显示出潜力。但是,尚不清楚这类方法是否能稳定值函数学习。在这项工作中,我们探讨了这一问题,并给出了肯定的答案。我们引入了一种基于仿射的方法,称为用于离线策略评估的核表示(KROPE)。KROPE 使用一个核来塑造状态-动作表示,使得在目标策略下具有相似即时奖励且导致相似下一个状态-动作对的状态-动作对也具有相似的表示。我们证明了以下两点:1)KROPE 学习稳定表示;2)KROPE 的价值误差低于基线。我们的分析为基于仿射方法的稳定性特性提供了新的理论见解,并建议从业者可以使用这些方法来对离线强化学习代理进行稳定和精确的评估。
发布时间: 2/3/2025
查看原文
作者: Junwoo Ha, Hyukjae Kwon, Sungsoo Kim, Kisu Lee, Seungjae Park, Ha Young Kim
arXiv:2410.01531v2 宣告类型: replace-cross 摘要: 多变量时间序列(MTS)的预测在各个领域都至关重要,但由于需要同时建模时间和变量间的依赖关系,这一任务仍然具有挑战性。现有的频道依赖模型,其中基于Transformer的模型占主导地位,分别处理这些依赖关系,限制了它们捕获诸如领前滞后动态等复杂相互作用的能力。为了解决这一问题,我们提出了一种新颖的架构——TiVaT(时变Transformer),它包括一个单一的联合模块——联合轴(JA)注意力模块,该模块可以同时处理时间和变量建模。JA注意力模块动态选择相关特征,特别是用于捕获异步交互。此外,我们还在JA注意力中引入了距离感知的时间变量采样,这是一种新颖的机制,通过学习到的2D嵌入空间提取显著模式,同时减少噪声。广泛的实验表明,TiVaT在不同数据集上整体性能优越,特别在复杂异步依赖的情境中表现出色。
发布时间: 2/3/2025
查看原文
作者: Quan Nguyen, Nishant A. Mehta, Crist\'obal Guzm\'an
arXiv:2410.00690v2 宣告类型: replace-cross 摘要:分组分布鲁棒优化(GDRO)的准最小极大样本复杂性已被确定到对数因素 \log(K),其中 K 是组的数量。在本文中,我们通过一种新颖的稀疏性概念——我们称之为 (\lambda, \beta)-稀疏性——超越了准最小极大视角。简而言之,这种条件意味着在任何参数 \theta 下,存在一个风险至少比其他组的风险大 \lambda 的 \beta 个组的集合。为了找到 \epsilon-近似最优的 \theta,我们通过一种新颖的算法和分析显示,样本复杂性的 \epsilon 依赖项可以从对 K 的线性依赖转变为对较小得多的 \beta 的线性依赖。这一改进得益于睡眠型多臂老虎机领域的最近进展,展示了分组分布鲁棒优化的两玩家零和博弈优化框架与睡眠型多臂老虎机中针对行动的后悔界之间的基本联系。随后,我们展示了通过一种自适应算法,样本复杂性界在对数因素下能够适应最佳的 (\lambda, \beta)-稀疏性条件。我们还展示了如何使用一种计算效率高的方法获得去除了维数的半自适应样本复杂性界。最后,我们在合成数据集和实际数据集上验证了 (\lambda, \beta)-稀疏性条件以及我们算法的改进样本效率的实用性。
发布时间: 2/3/2025
查看原文
arXiv:2409.17408v2 社会技术方法公告类型: 替换交叉 摘要: 在这篇文章中,提出了一种社会技术方法来表征。首先,重点关注通过供应链管理(SCM)、企业资源规划(ERP)和客户关系管理(CRM)平台,围绕供应商、企业、客户的关系,对以下进行对齐:(1) 商业智能(BI)、模糊逻辑(FL)和TRIZ(发明问题解决理论)通过OID模型,和(2) 知识管理(KM)和不完全知识管理(IKM)通过OIDK模型。其次,文章探讨了E-GenAI业务生态系统,该生态系统将基于生成人工智能(生成AI)的平台与SCM、ERP和CRM相结合,并将基于生成AI的平台与BI、FL、TRIZ、KM和IKM相结合,通过E-GenAI(OID)模型对大型语言模型(LLMs)进行对齐。最后,为了理解LLMs的动力学,我们利用有限自动机来建模追随者与被追随者之间的关系。这促进了能够识别社交媒体平台上用户特定特征的LLMs的构建。
发布时间: 2/3/2025
查看原文
作者: Matteo Zecchin, Sangwoo Park, Osvaldo Simeone
arXiv:2409.15844v2 宣布类型: replace-cross 摘要: 我们介绍了一种自适应学习后测试 (aLTT) 方法,这是一种高效的超参数选择程序,能够在有限样本下为人工智能模型提供关于总体风险的统计保证。与现有的学习后测试 (LTT) 技术不同,LTT 依赖于传统的基于 p 值的多重假设检验 (MHT),aLTT 通过利用 e-过程实现了基于数据的顺序 MHT,并且可以在早期终止时减少测试轮次。因此,aLTT 可以减少测试轮次,使其特别适用于测试成本高或存在安全风险的场景。除了保持统计有效性之外,在离线强化学习在线策略选择和提示工程等应用中,aLTT 被证明与 LTT 具有相同的性能,但只需要较少的测试轮次。
发布时间: 2/3/2025
查看原文