arXiv:2501.14082v2 通知类型: replace-cross
摘要:多语言模型(LM)代理之间的交流已被证明可以扩大语言模型的推理能力。虽然自然语言一直是跨语言模型通信的主要媒介,但将自然语言作为标准似乎并不明显:不仅自然语言通信会产生高昂的推理成本,并且随着代理和消息数量的增加而迅速增加,而且解码过程也会抽象掉大量的有用信息,而这些信息原本可以从内部激活中获取。在这项工作中,我们提出了一种简单的方法,即通过激活来进行通信;具体来说,我们在语言模型B的一个中间层暂停其计算,将B的当前激活与另一个语言模型A的中间激活通过某个函数f结合起来,然后将f的输出传递到B的下一层,并继续前向传播直到解码完成。这种做法可以在不增加任何额外参数和数据的情况下,扩大语言模型在新任务上的应用,并在计算成本上显著低于自然语言通信。我们使用各种函数形式f,在两个实验设置——多玩家协调游戏和推理基准测试——中测试了该方法,并发现它在计算量减少不到四分之一的情况下,实现了对自然语言通信高达27.0%的改进,突显了激活作为替代“语言”进行语言模型之间通信的优越性和鲁棒性。
arXiv:2501.13093v3 宣告类型: replace-cross
摘要:聚类往往是一个具有挑战性的问题,因为“正确的”聚类应该是怎样的固有的模糊性很大。即使聚类的数量 \(K\) 已知,这种模糊性仍然存在,特别是在不同聚类之间的密度有变化,且聚类内存在多个相对分离的高密度区域时。在这篇论文中,我们提出了一个信息论方面的聚类模糊性的表征,并设计了一个能够在聚类无模糊时恢复聚类的算法。这种表征形式化了当一个聚类内的两个高密度区域足够分离,以至于在 \(K\) 聚类中看起来更像是两个不同的聚类(而不是两个真正不同的聚类)的情况。算法首先使用基于密度的方法识别出 \(K\) 个部分聚类(或“种子”),然后以贪婪的方式将未聚类的点添加到最初的 \(K\) 个部分聚类中,形成一个完整的聚类。我们实现并测试了一个修改版本的算法,该算法有效地处理重叠聚类,并观察到它需要很少的参数选择,在许多数据集上表现出比广泛使用的非凸聚类恢复算法更好的性能。
arXiv:2501.01031v3 宣布类型: replace-cross
摘要:确保大规模语言模型(LLMs)的文化价值观对齐仍然是一项关键挑战,因为这些模型往往会嵌入其训练数据中的西方中心主义偏见,导致跨文化交流应用中出现误表示和公平性问题。现有的方法如角色分配和少样本学习由于依赖预训练知识、可扩展性有限以及无法捕捉细微的文化价值观限制,难以有效解决这些局限性。为了解决这些问题,我们提出了ValuesRAG,这是一种新颖且有效的框架,该框架结合了检索增强生成(RAG)和上下文学习(ICL),在文本生成过程中动态地整合文化和社会人口学知识。利用全球价值观调查(WVS)数据集,ValuesRAG 首先为每个人生成价值观的摘要。随后,我们收集了多个代表性的区域数据集作为测试数据集,并根据社会人口学特征检索相关价值观摘要,之后进行重新排名步骤以选择最相关的k个摘要。我们在6个不同的区域数据集上评估了ValuesRAG,并展示了它在主要实验和消融设置中始终优于基线方法,包括零样本、角色分配、少样本以及混合方法。值得注意的是,ValuesRAG 在所有先前方法中总体表现最佳,证明了其在促进文化对齐和包容性人工智能系统方面的有效性。我们的研究结果强调了基于动态检索的方法在弥合全球LLM能力和本地文化价值观之间的差距方面的潜力。
arXiv:2412.09507v2 宣告类型: replace-cross
摘要:室内部署损耗预测是无线网络规划中的基本任务,但由于环境复杂性和数据稀缺性,这一任务仍然具有挑战性。在本文中,我们提出了一种基于深度学习的方法,利用DINO-v2预训练权重的视觉变换器(ViT)架构来建模室内部署传播。我们的方法处理楼层地图,并附加墙壁特征生成室内部署损耗图。我们系统地评估了架构选择、数据增强策略和特征工程技术的影响。我们的发现表明,大量增强显著提高了泛化能力,而特征工程在数据稀缺的情况下至关重要。通过全面的实验,我们展示了我们的模型在不同泛化场景下的稳健性。
arXiv:2411.08884v2 宣告类型: 替换-交叉
摘要:随着大型语言模型(LLMs)的普及,对其安全、伦理和潜在偏见的担忧也随之增加。系统性评估LLMs的风险决策倾向和态度,特别是在伦理领域的重要性变得至关重要。本研究创新地将认知科学中的领域特定冒险倾向(DOSPERT)量表应用于LLMs,并提出了一种新的伦理决策风险态度量表(EDRAS),以深入评估LLMs的伦理风险态度。我们进一步提出了一种新的方法,将风险量表与角色扮演结合,以定量评估LLMs中的系统性偏见。通过系统评估和分析多个主流LLMs,我们在多个领域评估了LLMs的“风险个性”,特别关注伦理领域,并揭示和量化了LLMs对不同群体的系统性偏见。本研究有助于理解LLMs的风险决策,并确保其安全可靠的使用。我们的方法提供了一种识别和减轻偏见的工具,有助于更公平和可信的AI系统的构建。代码和数据已开源。
arXiv:2411.00437v2 宣告类型: replace-cross
摘要:检索增强生成方法往往忽视从外部知识库中检索到的内容质量,导致生成结果中出现无关信息或潜在的虚假信息,从而负面影响大规模语言模型的生成结果。本文提出了一种端到端带有自适应过滤的检索增强生成模型(E2E-AFG),该模型将答案存在性判断和文本生成整合到单一的端到端框架中。这使得模型能够更有效地关注相关内容,减少无关信息的影响,并生成准确的答案。我们在六个代表性的知识密集型语言数据集上评估了E2E-AFG,结果表明在整个任务上它始终优于基线模型,证明了所提出方法的有效性和鲁棒性。
arXiv:2410.15236v2
标题类型: replace-cross
摘要: 大型语言模型(LLMs)通过推动自然语言理解和生成,改变了人工智能,使其在医疗保健、软件工程和对话系统等领域的应用成为可能。尽管在过去的几年里取得了这些进展,LLMs 显示出相当大的漏洞,特别是针对提示注入和禁锢攻击。本文综述了这些漏洞的研究现状,并介绍了可用的防御策略。我们大致将攻击方法分为基于提示的、基于模型的、跨模态的和多语言的,涵盖了诸如对抗性提示、后门注入和跨模态利用等技术。我们还回顾了各种防御机制,包括提示过滤、转换、对齐技术、多智能体防御和自我调节等,评估了它们的优缺点。我们还讨论了用于评估LLM安全性和鲁棒性的关键指标和基准,指出了挑战,如在交互环境中攻击成功率的量化以及现有数据集中的偏见。确定当前研究缺口后,我们建议未来工作应在更具弹性的对齐策略、对抗新型攻击的先进防御、禁锢检测的自动化以及伦理和社会影响方面进行。本文强调了人工智能社区内持续研究和合作的重要性,以提高LLM的安全性和确保其安全部署。
arXiv:2410.12705v5 宣告类型: replace-cross
摘要:视觉语言模型(VLMs)在处理文化特定知识方面经常遇到困难,尤其是在英语之外的语言以及不足代表的文化背景中。为了评估它们对这些知识的理解,我们引入了WorldCuisines,这是一个大规模的多语言和多文化视觉接地语言理解基准。该基准包括30种语言和方言的文本-图像配对视觉问答(VQA)数据集,涵盖了9个语言家族,拥有超过100万个数据点,使其成为迄今为止最大的多文化VQA基准。该基准包含识别菜品名称及其来源的任务。我们提供了两个规模的评估数据集(分别为12k和60k实例)以及一个训练数据集(100万个实例)。我们的研究表明,虽然视觉语言模型在正确的地理位置上下文中表现更好,但在对抗性上下文和预测特定区域性菜肴和语言方面仍然存在问题。为了支持未来的研究,我们发布了包含标注食品条目和图像的知识库,与VQA数据一起提供。
arXiv:2410.12261v4 宣告类型: replace-cross
摘要:在多变量时间序列中发现异常是一项具有挑战性的任务,因为可能存在异质子序列异常。基于重建的方法侧重于在频域中学习正常的模式以检测不同的异常子序列,取得了令人鼓舞的结果,但仍未能捕捉到精细的频域特性和通道间的关联。为应对这些局限性,我们引入了CATCH,一种基于频域补丁的方法。我们提出将频域分割为频段,这增强了其捕捉精细频域特性的能力。为感知适当的通道间关联,我们提出了一种通道融合模块(Channel Fusion Module,CFM),该模块具有补丁级掩码生成器和掩码注意力机制。由两层多目标优化算法驱动,CFM被鼓励迭代地发现适当的补丁级通道关联,并对相关通道进行聚类,同时隔离无关通道的不利影响。在10个真实世界数据集和12个合成数据集上的广泛实验表明,CATCH实现了最先进的性能。我们在https://github.com/decisionintelligence/CATCH上提供了我们的代码和数据集。
arXiv:2409.13138v2 宣告类型: replace-cross
摘要: 高级综合(HLS)是一种自动设计过程,它将高级代码转换为硬件设计,从而加快硬件加速器的快速开发。HLS 依赖于内嵌在源代码中的 pragma(指令),这些指令可以引导综合过程,并且 pra- mga 多种设置和值会严重影响最终的硬件设计。当前最先进的基于机器学习的 HLS 方法,如 HARP,首先训练一个深度学习模型,通常基于应用于基于图的代码和 pragma 表示的图神经网络(GNN)。然后他们进行设计空间探索(DSE),探索 pragma 设计空间,使用模型对候选设计进行排名,并返回最优设计。然而,传统的 DSE 方法由于 pragma 设置与性能指标之间的高度非线性关系以及影响性能的复杂互作而面临挑战。
为了应对这些挑战,我们提出了一种新颖的方法 compareXplore,它可以学习比较硬件设计以实现有效的 HLS 优化。compareXplore 引入了一种结合了成对偏好学习与点式性能预测的混合损失函数,使得模型能够捕获相对偏好和绝对性能。此外,我们引入了一种新颖的节点差异注意模块,该模块专注于设计之间的最有信息性的差异,使模型能够识别对性能有关键影响的pragma。compareXplore 采用两阶段的 DSE,在初始设计剪枝阶段使用点式预测模型,然后在精确性能验证阶段进行成对比较。在广泛的实验证明中,compareXplore 在排名指标上取得了显著改进,并为选定的设计生成了高质量的 HLS 结果,优于现有的 SOTA 方法。