arXiv 论文列表

作者: Naman Goyal

大型语言模型的最新进展为设备上的应用打开了新体验的大门，这些体验在之前是无法实现的。在这项工作中，我们提出了两个类别中的三种新体验。首先，我们讨论了可以基于屏幕理解来实现的体验，即理解用户屏幕上的内容，具体包括：（1）视觉问答，以及（2）基于先前屏幕的自动表单填写。第二类可以扩展的体验是针对使用代码切换的多语言用户的智能回复。代码切换是指说话者在两种或多种语言之间交替使用。据我们所知，这是第一个提出这些任务及其解决方案的工作，旨在缩短最新研究与设备上应用中研究的实际影响之间的差距。

发布时间: 10/1/2024

查看原文

自动化专利工作流程：面向知识产权管理和分析的 AI 协调多智能体框架

作者: Sakhinana Sagar Srinivas, Vijay Sri Vaikunth, Venkataramana Runkana

专利是创新的货币，就像任何货币一样，它们需要被管理和保护（加文·波滕扎）。专利作为保护知识产权的法律文件，在技术创新中发挥着至关重要的作用。专利文件日益复杂，专利申请数量激增，这使得专利分析自动化解决方案的需求日益增长。在这项工作中，我们提出了 PatExpert，一个自主的多智能体对话框架，旨在简化和优化与专利相关的任务。该框架包含一个元智能体，它协调针对各种专利相关任务的任务特定专家智能体，以及一个用于错误处理和反馈提供的批评智能体。元智能体协调专门的专家智能体，每个智能体都针对特定任务进行了微调，例如专利分类、接受、权利要求生成、抽象摘要、多专利分析和科学假设生成。对于多专利分析，该框架整合了先进的方法，例如图检索增强生成 (GRAG)，通过将语义相似性与知识图谱相结合来提高响应准确性和相关性。错误处理由批评智能体（Gold-LLM-as-a-Judge 和 Reward-LLM-as-a-Judge）管理，它们评估输出响应的准确性并提供迭代反馈。该框架还优先考虑可解释性，确保在专利分析过程中做出的决定的透明理由。其全面的功能使其成为自动化复杂专利工作流程、提高专利相关任务效率、准确性和合规性的宝贵工具。经验证据表明，专利处理任务取得了显著改进，得出结论，该框架为专利分析自动化和优化提供了一个强大的解决方案。

发布时间: 10/1/2024

查看原文

聚焦关键要素

作者: Pedro Luiz Silva, Antonio de Domenico, Ali Maatouk, Fadhel Ayed

尽管大型语言模型（LLMs）取得了显著的成功，但它们在将输出与用户指令对齐方面仍然能力有限。在本工作中，我们介绍了一种简单有效的方法，我们将其命名为GUIDE，它机制地增加了指令标记的注意力分数。为了支持此操作，我们提出了Influence，这是一种新颖的指标，它突出了用户指令如何在Transformer层中传播并影响LLM输出。我们的结果表明，GUIDE 将遵循指令的准确性提高了 29.4% 至 60.4%，优于自然提示替代方案和高达 100 万个标记的监督微调。

发布时间: 10/1/2024

查看原文

基于可控大型语言模型的临床试验检索推理

作者: Mael Jullien, Alex Bogatu, Harriet Unsworth, Andre Freitas

将患者与临床试验匹配需要对文件进行系统和合理的解读，这需要大量的专家级背景知识，以及对一组定义明确的资格标准进行复杂的操作。此外，这种解读过程需要在庞大的试验知识库中进行大规模操作。本文提出了一种可扩展的方法，该方法扩展了 LLMs 在系统化医疗资格标准集推理方面的能力，并在现实案例中对其进行了评估。所提出的方法在 LLMs 上覆盖了集引导推理方法。该框架在 TREC 2022 临床试验中进行了评估，取得了优于目前最先进技术的成果：NDCG@10 为 0.693，Precision@10 为 0.73。

发布时间: 10/1/2024

查看原文

PropaInsight：探究宣传技巧、诉求和意图的深层理解

作者: Jiateng Liu, Lin Ai, Zizhou Liu, Payam Karisani, Zheng Hui, May Fung, Preslav Nakov, Julia Hirschberg, Heng Ji

宣传在塑造公众舆论和助长虚假信息方面发挥着至关重要的作用。虽然现有的研究主要集中在识别宣传技巧，但它缺乏捕捉更广泛的动机和此类内容影响的能力。为了解决这些挑战，我们引入了propainsight，这是一个基于社会科学基础研究的理论框架，它系统地将宣传分解为技巧、唤醒诉求和潜在意图。propainsight提供了对宣传如何在不同环境中运作的更细致入微的理解。此外，我们还提出了propagaze，这是一个新颖的数据集，它将人工标注数据与通过精心设计的管道生成的优质合成数据相结合。我们的实验表明，现成的LLM难以进行宣传分析，但用propagaze进行训练可以显著提高性能。与一次性GPT-4-Turbo相比，微调后的Llama-7B-Chat在技巧识别方面的文本跨度IoU提高了203.4%，在诉求分析方面的BertScore提高了66.2%。此外，propagaze在数据稀疏和跨域场景中补充了有限的人工标注数据，显示出其在全面和可泛化宣传分析方面的潜力。

发布时间: 10/1/2024

查看原文

从语言巨人到感官大师：基于大型语言模型的跨模态推理综述

作者: Shengsheng Qian, Zuyi Zhou, Dizhan Xue, Bing Wang, Changsheng Xu

跨模态推理 (CMR) 是一种复杂的过程，它综合和推断来自不同感官模态的信息，并日益被认为是通往更复杂、更具人形的人工智能系统发展道路上的关键能力。大型语言模型 (LLMs) 是一类专门设计用于解析、生成和与人类语言进行大规模交互的人工智能算法。最近将 LLM 用于解决 CMR 任务的趋势标志着一种增强其有效性的新主流方法。本综述详细阐述了当前使用 LLM 在 CMR 中应用的方法，并将这些方法归类为一个详细的三层分类法。此外，本综述深入探讨了该领域原型模型的主要设计策略和操作技术。此外，它还阐述了将 LLM 整合到 CMR 中所面临的普遍挑战，并确定了未来的研究方向。总之，本综述旨在通过为学者提供一个全面的、详细的视野来加速该新兴领域的发展，展示当前研究的前沿，同时指出潜在的进步途径。一个收集相关论文的 GitHub 存储库可以在 https://github.com/ZuyiZhou/Awesome-Cross-modal-Reasoning-with-LLMs 找到。

发布时间: 10/1/2024

查看原文

大型语言模型中对分类决策有效性的系统性特征分析

作者: Isaac Kohane

随着大型语言模型 (LLM) 被应用于医疗保健等高风险领域，理解它们的决策制定与人类偏好和价值观的一致性变得至关重要，尤其是在我们认识到这些偏好没有单一的黄金标准的情况下。本文采用了一种系统方法，以医疗分诊为特定领域的用例，评估 LLM 在分类决策中的偏好一致性。它还衡量了对齐程序改变特定模型对齐效果的有效性。该方法的关键是一个新颖的简单指标，即对齐一致性指数 (ACI)，它量化了 LLM 与给定偏好函数或黄金标准对齐的有效性。由于 ACI 衡量的是对齐的效果而不是过程，因此它适用于超出本研究中使用的情境学习的对齐方法。使用模拟患者对数据集，对三个前沿 LLM（GPT4o、Claude 3.5 Sonnet 和 Gemini Advanced）进行了评估，以了解它们在做出与专家临床医生偏好一致的分诊决策方面的能力。使用各种提示策略评估了模型在对齐尝试前后的性能。结果表明，不同模型和对齐方法的对齐有效性存在显著差异。值得注意的是，根据 ACI 衡量的表现良好的模型有时在对齐后会退化，并且目标偏好函数的细微变化会导致模型排名的较大变化。还通过有针对性的提问探索了人类理解的 LLM 决策背后的隐含伦理原则。这项研究促使在短期内使用一套实用方法和 ACI 来理解人类和 LLM 在分类决策（如分诊）中的各种决策价值观之间的对应关系。

发布时间: 10/1/2024

查看原文

事件理解机制模型综述

作者: Tan T. Nguyen

这篇综述考察了事件理解的理论假设和计算模型，追踪了从语篇理解理论到当代事件认知框架的演变。综述涵盖了关键的语篇理解理论，包括建构-整合、事件索引、因果网络和共鸣模型，突出了它们对理解理解认知过程的贡献。然后，我讨论了当代事件理解的理论框架，包括事件分割理论（Zacks 等人，2007）、事件视界模型（Radvansky 和 Zacks，2014）和层次生成框架（Kuperberg，2021），这些框架强调了事件理解中的预测、因果关系和多层次表征。基于这些理论，我评估了五个事件理解的计算模型：REPRISE（Butz 等人，2019）、结构化事件记忆（SEM；Franklin 等人，2020）、Lu 模型（Lu 等人，2022）、Gumbsch 模型（Gumbsch 等人，2022）和 Elman 和 McRae 模型（2019）。分析重点关注它们在层次处理、预测机制和表征学习方面的做法。出现的关键主题包括使用层次结构作为归纳偏差、预测在理解中的重要性以及学习事件动态的不同策略。综述确定了未来研究的关键领域，包括需要更复杂的方法来学习结构化表征，整合情景记忆机制，以及为工作事件模型开发自适应更新算法。通过综合理论框架和计算实现的见解，这篇综述旨在促进我们对人类事件理解的理解，并指导认知科学中未来的建模工作。

发布时间: 10/1/2024

查看原文

SC-Phi2：一款针对星际争霸 II 微观管理任务的微调小型语言模型

作者: Muhammad Junaid Khan, Gita Sukthankar

本文介绍了 SC-Phi2，一个针对宏观管理任务的星际争霸 2 微调小型语言模型。小型语言模型，如 Phi2、Gemma 和 DistilBERT，是大型语言模型 (LLM) 的简化版本，参数更少，运行所需的功率和内存更少。为了让微软的 Phi2 模型学习星际争霸，我们创建了一个新的 SC2 文本数据集，其中包含有关星际争霸种族、角色和行动的信息，并使用它通过自监督学习来微调 Phi-2。我们将这个语言模型与来自预训练的 BLIP-2（自举语言图像预训练）模型的视觉转换器 (ViT) 配对，并在 MSC 重播数据集上对其进行微调。这使我们能够构建包含视觉游戏状态信息的动态提示。与星际争霸 LLM 中使用的 GPT-3.5 等大型模型不同，Phi2 主要在教科书数据上进行训练，除了我们的训练过程提供的知识之外，它本身对星际争霸 2 的了解很少。通过使用 LoRA（低秩自适应）和量化，我们的模型可以在单个 GPU 上进行训练。我们证明，我们的模型在微观管理任务（如构建顺序和全局状态预测）中表现良好，并且参数数量较少。

发布时间: 10/1/2024

查看原文

基于大语言模型的循环经济国际标准产业分类业务活动统一框架

作者: Xiang Li, Lan Zhao, Junhao Ren, Yajuan Sun, Chuan Fu Tan, Zhiquan Yeo, Gaoxi Xiao

大型语言模型 (LLMs) 已取代传统方法，在众多自然语言处理任务中发挥着重要作用。然而，在命名实体识别 (NER) 中，现有的基于 LLMs 的方法...

发布时间: 10/1/2024

查看原文