蒙特卡洛树搜索(MCTS)是一种用于解决复杂决策问题的强大算法。本文提出了一种应用于 FrozenLake 环境的优化 MCTS 实现,该环境是一个经典的强化学习任务,其特点是随机转换。该优化利用累积奖励和访问计数表以及树的置信上限(UCT)公式,从而在光滑网格世界中实现高效学习。我们将我们的实现与其他决策算法(包括具有策略和 Q 学习的 MCTS)进行基准测试,并对其性能进行了详细比较。结果表明,我们的优化方法有效地最大化了奖励和成功率,同时最小化了收敛时间,优于基线方法,尤其是在具有固有随机性的环境中。
在线社交平台上多元信息的快速传播促使学术界和产业界认识到预测内容流行度的重要性,这将有利于推荐系统和战略决策等广泛应用。最近的研究主要集中于提取给定观察期内信息扩散过程中的时空模式,以便预测其未来一段时间内的流行度。然而,这些研究往往忽略了未来的流行度趋势,因为未来的流行度可能会呈指数级增长或停滞不前,给预测性能带来不确定性。此外,如何将从观察到的扩散过程中学习到的前项动力学转移到未来项趋势仍然是一个尚未解决的挑战。针对这一背景,我们提出了 CasFT,它利用通过神经 ODE 提取的观察到的信息级联和动态线索作为条件,通过扩散模型来引导生成未来流行度增加的趋势。然后将这些生成的趋势与观察到的信息级联中的时空模式相结合,以进行最终的流行度预测。在三个真实世界数据集上进行的大量实验表明,与最先进的方法相比,CasFT 显着提高了预测精度,在不同数据集上取得了 2.2%-19.3% 的提升。
尽管大型语言模型 (LLM) 在医学领域的应用取得了重大进展,但一些限制仍然阻碍了它们的实际应用。其中包括模型尺寸的限制以及缺乏特定人群的标记数据集。在这项工作中,我们研究了通过使用合成标签对轻量级 LLM(例如 Llama 3.1-8B)进行微调来提高其性能的潜力。通过结合各自的指令数据集,对两个任务进行联合训练。当任务特定合成标签的质量相对较高时(例如,由 GPT4-o 生成),Llama 3.1-8B 在开放式疾病检测任务上取得了令人满意的性能,微 F1 分数为 0.91。相反,当任务相关合成标签的质量相对较低时(例如,来自 MIMIC-CXR 数据集),与经过精心策划的标签进行校准后,经过微调的 Llama 3.1-8B 能够超越其噪声教师标签(微 F1 分数为 0.67 对比 0.63),表明该模型具有强大的内在潜在能力。这些发现证明了使用合成标签对 LLM 进行微调的潜力,为未来 LLM 在医学领域专业化的研究提供了有希望的方向。
大型语言模型(LLM)在众多现实世界任务中展现出卓越的性能。然而,这些模型的自回归特性使得推断过程缓慢且代价高昂。推测解码作为一种很有前景的解决方案出现,它利用一个较小的辅助模型来起草未来的标记,然后由较大的模型同时验证这些标记,从而实现 1-2 倍的加速。尽管推测解码与多项式采样匹配相同的分布,但多项式采样本身容易产生次优输出,而束搜索因在每一步维护多个候选序列而被广泛认可为产生更高质量的结果。本文探索了推测解码与束搜索的新型集成。然而,存在四个关键挑战:(1)如何在给定来自小型模型的草稿序列的情况下,从大型模型的分布中生成多个序列;(2)如何动态优化束的数量以平衡效率和准确性;(3)如何并行高效地验证多个草稿;(4)如何解决束搜索固有的额外内存成本。为了应对这些挑战,我们提出了动态宽度推测束解码(DSBD)。具体来说,我们首先引入了一种新颖的草稿和验证方案,该方案基于来自小型模型的束搜索轨迹,生成遵循大型模型分布的多个序列。然后,我们引入了一种自适应机制,根据上下文动态调整束的数量,优化效率和有效性。此外,我们扩展了基于树的并行验证以同时处理多个树,从而加速验证过程。最后,我们说明了对我们算法的简单修改,以减轻束搜索的内存开销。
本报告概述了我们针对 WMT24 话语级文学翻译任务的方案,重点关注受限赛道中的中英语言对。翻译文学文本面临着重大挑战,因为这类作品中存在着细微的含义、习语表达和错综复杂的叙事结构。为了应对这些挑战,我们利用了中文 Llama2 模型,并通过持续预训练 (CPT) 和监督微调 (SFT) 的组合,专门增强了该模型以适应此任务。我们的方法包括一个新颖的增量解码框架,该框架确保每个句子在翻译时都考虑到其更广泛的语境,从而在整个文本中保持连贯性和一致性。这种方法使模型能够捕捉长距离依赖关系和风格元素,从而产生忠实保留原文文学质量的翻译。我们的实验表明,句级和文档级 BLEU 分数都有显著提高,这突出了我们提出的框架在解决文档级文学翻译复杂性方面的有效性。
随着城市化进程和人口快速增长,交通拥堵问题日益突出,成为一个至关重要的议题。智能交通系统高度依赖实时、精确的预测算法来解决这一问题。虽然深度学习中的循环神经网络(RNN)和图卷积网络(GCN)方法在数据充足的情况下预测道路状况方面展现出高精度,但在数据有限的道路网络中进行预测仍然是一项挑战。本研究提出了一种基于图剪枝和迁移学习框架的新型时空卷积网络(TL-GPSTGN)来解决这一问题。首先,通过分析道路网络结构和特征数据的相关性和信息熵,提取图的基本结构和信息。利用图剪枝技术,对图的邻接矩阵和输入特征数据进行处理,显著提高了模型的迁移性能。随后,将特征数据输入到时空图卷积网络中,以捕捉时空关系并预测道路状况。此外,本研究对TL-GPSTGN方法进行了全面测试和验证,在相同条件下,将它的预测性能与其他常用模型进行了比较。结果表明,TL-GPSTGN在单个数据集上具有出色的预测精度,并且在不同数据集上具有强大的迁移性能。
随着 GPT-4V(O) 的发布,它在生成多模态任务伪标签方面的应用越来越受欢迎。然而,如何从其基础大型语言模型 (LLM) 中构建这种先进模型仍然是一个秘密。这项工作探索了仅使用 LLM 进行数据生成并开发专注于图表理解的竞争性多模态模型的潜力。我们构建了一个大型图表数据集 SynChart,其中包含大约 400 万张不同的图表图像,以及超过 7500 万个密集标注,包括数据表、代码、描述和问答集。我们使用此数据集训练了一个 42 亿参数的图表专家模型,在 ChartQA 任务上取得了接近 GPT-4O 的性能,超越了 GPT-4V。
密集检索系统通常用于信息检索 (IR)。它们依赖于通过编码器学习文本表示,并且通常需要通过标记数据进行监督建模,而标记数据可能成本高昂或根本无法获得。在本研究中,我们介绍了一种新颖的无监督文本表示学习技术,该技术通过在双编码器检索框架下对预训练的编码器-解码器大型语言模型 (LLM) 进行指令微调。我们证明了语料库表示可以通过基于 Rao-Blackwell 定理的指令微调 LLM 生成的相关合成查询的表示来增强。此外,我们通过自我指令微调有效地对齐查询和语料库文本表示。具体来说,我们首先提示一个开放式预训练 LLM 遵循定义的指令(即问题生成和关键词摘要)来生成合成查询。接下来,我们使用定义的指令和通过质量检查的生成查询对预训练的 LLM 进行微调。最后,我们使用指令微调的 LLM 为每个语料库生成合成查询,并通过对合成查询和原始语料库嵌入进行加权平均来表示每个语料库。我们在三个英语和一个德语检索数据集上评估了我们提出的方法,这些数据集在低资源设置下测量 NDCG@10、MRR@100、Recall@100。我们在所有指标上显着提高了平均零样本检索性能,将开放式 FLAN-T5 模型变体绝对提高了 [3.34%,3.50%],并且在 NDCG@10 上超过了三个具有竞争力的密集检索器(即 mDPR、T-Systems、mBART-Large),模型大小至少小 38%,绝对提高了 1.96%,4.62%,9.52%。
物联网(IoT)的快速发展带来了隐私、安全和数据完整性方面的重大挑战,尤其是在智慧城市或智能制造等基础设施中。区块链技术提供了不可变、可扩展和去中心化的解决方案来应对这些挑战,而将深度强化学习(DRL)集成到物联网环境中可以增强适应性和决策能力。本文研究了区块链和DRL的集成,以优化物联网辅助智慧城市中的移动传输和安全数据交换。通过对物联网应用系统的聚类和分类,DRL和区块链的结合被证明可以通过维护隐私和安全来提高物联网网络的性能。基于对2015年至2024年发表论文的回顾,我们对提出的方法进行了分类,并提供了实用的分类法,为研究人员提供了重要的视角,并突出了未来探索和研究的潜在领域。我们的研究表明,将区块链的去中心化框架与DRL相结合可以解决隐私和安全问题,提高移动传输效率,并保证健壮、隐私保护的物联网系统。此外,我们还探讨了区块链与DRL的集成,并概述了DRL技术的显著应用。通过解决机器学习和区块链集成的挑战,本研究为研究人员提出了新的视角,并从跨学科的角度进行了基础性的探索。
人工智能代理在与人类用户和工具的交互中越来越自主,导致交互安全风险增加。我们提出了 HAICOSYSTEM,一个框架,用于检查人工智能代理在多样化和复杂社会交互中的安全性。HAICOSYSTEM 具有一个模块化沙箱环境,模拟人类用户和人工智能代理之间的多回合交互,其中人工智能代理配备了各种工具(例如,患者管理平台)来应对不同的场景(例如,用户试图访问其他患者的个人资料)。为了检查人工智能代理在这些交互中的安全性,我们开发了一个全面的多维评估框架,使用涵盖操作、内容相关、社会和法律风险的指标。通过运行基于七个领域(例如,医疗保健、金融、教育)的 92 个场景的 1840 次模拟,我们证明了 HAICOSYSTEM 可以模拟现实的用户-人工智能交互以及人工智能代理的复杂工具使用。我们的实验表明,最先进的 LLM(专有和开源的)在超过 50% 的情况下存在安全风险,模型在与模拟恶意用户交互时通常表现出更高的风险。我们的发现突出了构建能够安全地应对复杂交互的代理的持续挑战,尤其是在面对恶意用户时。为了促进人工智能代理安全生态系统的发展,我们发布了一个代码平台,允许从业人员创建自定义场景,模拟交互,并评估其代理的安全性与性能。