arXiv:2501.11613v4 宣告类型: 替换-交叉
摘要:本研究介绍了一种名为Conversation Routines (CR)的结构化提示工程框架,用于使用大型语言模型(LLMs)开发任务导向对话系统。尽管LLMs展示了卓越的自然语言理解能力,但将它们可靠地用于执行复杂的业务工作流仍然具有挑战性。所提出的CR框架通过自然语言规范使开发者能够开发出具备行为代理能力的系统(CAS),并在LLM提示中嵌入任务导向的逻辑。这种方法提供了一种系统化的设计和实现复杂对话工作流的方法,同时保持行为一致性。我们通过两个概念验证实现展示了该框架的有效性:一个火车票预订系统和一个互动故障排除副驾。这些案例研究验证了CR能够编码复杂的行为模式和决策逻辑,同时保持自然对话的灵活性。结果表明,CR使领域专家能够以自然语言设计对话工作流,同时利用软件工程师开发的自定义功能(工具),从而创建一个高效的职责分工,开发者专注于核心API的实现,而领域专家负责对话设计。虽然该框架在易用性和适应性方面显示出潜力,但我们仍识别出一些关键挑战,包括计算开销、非确定性行为以及特定领域的逻辑优化。未来的研究方向包括基于由目标导向评估标准推动的提示工程框架的CR评估方法,提高复杂多代理交互的可扩展性,并增强系统的鲁棒性,以解决在多样化商业应用中识别出的限制。
arXiv:2501.11301v2 提取类型: replace-cross
摘 要:本文介绍了一种在维基百科和Wikidata等知识库中进行问答的方法,通过“问题到问题”的匹配和检索来自一个密集向量嵌入存储。我们不嵌入文档内容,而是使用指令调优的LLM为每个逻辑内容单元生成一个全面的问题集。这些问题是通过向量嵌入并存储的,映射到相应的内容。用户的查询向量则与此问题向量存储进行匹配。相似度分数最高者将直接检索相应的文章内容,从而省略了答案生成的步骤。该方法在相关问题对中实现了高余弦相似度(>0.9),使得检索非常精准。这种方法具有多重优势,包括计算效率、快速响应时间和增强的可扩展性。我们通过从Wikidata中进行结构化事实检索,在维基百科和Wikidata上展示了其有效性,包括多媒体内容,从而开辟了多模态问答的新途径。
arXiv:2501.09045v2 宣告类型: replace-cross
摘要:基础模型已颠覆了人工智能领域,为各种视觉和语言任务设立了新的性能标准,并赋予了变革性的能力。然而,尽管在交通运输、公共卫生和环境监测等关键领域普遍存在时空数据,时空基础模型(STFM)尚未取得类似的成功。在本文中,我们阐述了STFM未来的愿景,概述了其必不可少的特征和为广泛适用性所必需的泛化能力。我们批判性地评估了当前的研究状态,识别了与这些理想特征相比存在的差距,并强调了阻碍其进展的关键挑战。最后,我们探讨了潜在的机会和方向,以推动研究向着实用和广泛适用的STFM目标前进。
arXiv:2501.07430v2 宣告类型: replace-cross
摘要: 在医学图像的体积到体积翻译中,现有的模型常常难以使用3D体素空间表示来捕捉固有的体积分布,这是因为需要大量的计算资源。我们提出了一种名为Score-Fusion的新颖体积翻译模型,该模型通过在评分函数空间中结合训练方向垂直的2D扩散模型来有效学习3D表示。通过像TPDM那样仔细初始化模型,从2D模型的平均值开始,我们将3D训练简化为一个微调过程,从而减轻了计算和数据需求。此外,我们明确设计了3D模型的分层结构来学习各种2D特征的集合,进一步提高了效率和性能。此外,Score-Fusion自然地扩展到多模态设置,通过结合不同输入条件下的扩散模型进行融合,以实现灵活和准确的集成。我们证明,3D表示对于下游识别任务(如肿瘤分割)中的性能提升至关重要,大多数分割模型都基于3D表示。广泛的实验表明,Score-Fusion在3D医学图像超分辨率和模态翻译中实现了卓越的准确性和体积保真度。除此之外,我们的工作还为基于学习的方法进行评分函数融合提供了更广泛的认识。
arXiv:2412.11543v2 宣告类型: replace-cross
摘要: 我们通过后验聚合现有模型的输出依赖解析结构构建了一个多样化的集成模型,来解决无监督依赖解析问题。我们观察到,这些集成模型往往会因为错误累积而导致鲁棒性较低。为了解决这个问题,我们提出了一种高效的集成选择方法,该方法考虑了错误多样性并避免了错误累积。实验结果表明,我们提出的方法在单个模型以及之前的所有集成技术中表现更优。此外,我们的实验显示,所提出的集成选择方法显著提升了我们集成模型的性能和鲁棒性,超越了未能考虑错误多样性的先前策略。
arXiv:2412.10198v2 宣告类型: replace-cross
摘要:工具调用通过将外部工具集成到大型语言模型(LLM)中,显著增强了其在多种任务中的功能。然而,这种集成也引入了新的安全漏洞,特别是在LLM的工具调度机制方面,这些机制尚未受到广泛研究。为了填补这一空白,我们提出了ToolCommander,这是一种新型框架,旨在通过对抗性工具注入来利用LLM工具调用系统的漏洞。该框架采用了精心设计的两阶段攻击策略。首先,它注入恶意工具以收集用户查询,然后根据窃取的信息动态更新注入的工具以增强后续攻击。这些阶段使ToolCommander能够执行隐私窃取、发起拒绝服务攻击,并且甚至通过触发未计划的工具调用来操控商业竞争。值得注意的是,隐私窃取的ASR达到91.67%,拒绝服务和未计划的工具调用在某些情况下达到100%。我们的研究证明,这些漏洞可能导致远超过简单滥用工具调用系统的情况,强调了迫切需要采取稳健的防御策略来保护LLM工具调用系统。
arXiv:2412.10136v2 通知类型: replace-cross
摘要:图是许多现实世界应用中常见的结构,例如药物发现、推荐系统和社会网络分析。为了建模图结构数据,图神经网络(GNNs)已成为一种流行的工具。然而,在跨图学习领域,即多个图具有不同的特征空间时,现有的GNN架构遇到了挑战。为了解决这一问题,最近的方法引入了带有文本属性的图(TAGs),其中每个节点都关联着一个文本描述,这些描述可以通过文本编码器投影到统一的特征空间中。虽然这种方法前景看好,但它高度依赖于能够获取带有文本属性的图数据,而在实践中这往往难以获得。为了解决这一差距,我们提出了一种名为拓扑感知节点描述合成(TANS)的新型方法,利用大语言模型(LLMs)将现有图转化为带有文本属性的图。关键思想是将拓扑信息整合到LLMs中,以解释图拓扑如何影响节点语义。我们在文本丰富的、文本受限的和文本自由的图上评估了我们的TANS方法,展示了其适用性。值得注意的是,在文本自由的图上,我们的方法在无需人工设计节点特征的情况下显著优于现有的方法,展示了在缺乏文本信息的情况下预处理图结构数据的大语言模型的潜力。代码和数据可在 https://github.com/Zehong-Wang/TANS 获得。
arXiv:2412.08435v3 宣布类型: replace-cross
摘要:时间序列 forecasting 总是面临着概念漂移的挑战,即数据分布随时间演化,导致 forecast 模型的性能下降。现有的解决方案基于在线学习,不断将最近的时间序列观察结果组织成新的训练样本,并根据最近数据的 forecasting 反馈更新模型参数。然而,它们忽视了一个关键问题:获取每个样本的真实未来值应在 forecast 桶限之后进行。这种延迟在训练样本和测试样本之间造成了时间上的间隔。我们的实证分析表明,这种间隔可能会引入概念漂移,导致 forecast 模型适应过时的概念。在这种情况下,我们提出了 Proceed,一种新颖的在线时间序列 forecasting 的主动模型适应框架。Proceed 首先估计最近使用的训练样本与当前测试样本之间的概念漂移。然后,它使用适应生成器高效地将估计的漂移转化为参数调整,主动适应模型以适应测试样本。为了增强框架的泛化能力,Proceed 在各类概念漂移的合成数据上进行训练。在五种不同 forecasting 模型的各种真实世界数据集上的广泛实验表明,Proceed 在比最先进的在线学习方法带来更多性能提升的同时,显著增强了 forecast 模型对概念漂移的抵御能力。相关代码可在 https://github.com/SJTU-DMTai/OnlineTSF 获取。
arXiv:2412.07338v3 宣告类型: replace-cross
摘要:AI生成的反毒性言辞提供了一种通过直接回复来应对网络毒性、促进文明对话的有希望且可扩展的策略。然而,目前的反毒性言辞缺乏适应性,未能针对具体的管理情境和相关的用户进行调整。我们提出并评估了多种生成定制化反毒性言辞的策略,这些策略能够适应管理情境并针对被管理用户进行个性化定制。我们指导了一个LLaMA2-13B模型生成反毒性言辞,并根据不同的上下文信息和微调策略进行了各种配置的实验。我们通过一项预先注册的混合设计众包实验收集的定量指标和人工评估来识别生成有说服力的反毒性言辞的配置。结果显示,上下文化反毒性言辞在适当性和说服力方面可以显著优于最先进的通用反毒性言辞,且不会牺牲其他特征。我们的研究结果还揭示了定量指标与人工评估之间的弱相关性,表明这些方法评估的是不同的方面,并突显了需要精细的评估方法的需求。上下文化AI生成的反毒性言辞的效果以及人工评价与算法评价之间的差异强调了在内容管理中增强人类与AI合作的重要性。
arXiv:2412.04233v2 宣告类型: replace-cross
摘要:可适性在协同多智能体强化学习(MARL)中至关重要,其中智能体必须学习针对不同任务的专门化或同质行为。尽管参数共享方法样本效率高,但它们常常会遇到智能体间的梯度干扰,限制了行为多样性。相反,非参数共享方法能够实现专门化,但计算成本较高,样本效率较低。为了解决这些问题,我们提出了HyperMARL,这是一种使用超网络动态生成智能体特异性行为者和评论员参数的参数共享方法,而无需改变学习目标或设置预定义的行为多样性水平。通过解耦观测和智能体条件的梯度,HyperMARL 实验性地降低了策略梯度的方差,并促进了 FuPS 中的专门化,建议它可以缓解智能体间的干扰。在涉及多达二十个智能体的多个 MARL 基准测试中,包括需要同质、异质或混合行为的情况,HyperMARL 在性能上始终与全面共享、非参数共享和促进多样性的基线表现相当,同时保持的行为多样性水平与非参数共享相当。这些发现确立了超网络作为一种在各种环境中均可用于MARL的多功能方法。