arXiv 论文列表

作者: Wei Zhuo, Guang Tan

图神经网络 (GNN) 在从图结构数据中学习方面取得了显著成功。然而，它们在有向图 (digraphs) 中的应用面临着独特的挑战，主要原因是节点关系的内在不对称性。传统的 GNN 擅长捕捉单向关系，但在编码节点之间的相互路径依赖性方面却有所不足，例如有向图中常见的非对称最短路径。为了弥合这一差距，我们引入了通勤图神经网络 (CGNN)，这是一种将节点级通勤时间无缝集成到消息传递方案中的方法。CGNN 的基石是一种使用新公式化的有向图拉普拉斯算子来计算通勤时间的有效方法。然后将通勤时间集成到邻域聚合过程中，邻域贡献根据它们在每一层中相对于中心节点的通勤时间进行加权。这使得 CGNN 能够直接捕捉有向图中的相互不对称关系。大量的实验结果证实了 CGNN 的优越性能。

发布时间: 10/1/2024

查看原文

非洲女性是充满韵律和灵魂的：一项对大型语言模型开放式文本生成中隐性偏见的调查

作者: Serene Lim, Mar\'ia P\'erez-Ortiz

本文探究了大型语言模型 (LLMs) 中存在的微妙且往往隐藏的偏见，重点关注即使通过显式偏见测试也可能存在的隐式偏见。隐式偏见很重要，因为它们会影响这些系统做出的决策，可能导致对刻板印象和歧视的延续，即使 LLMs 表现出公平性。传统上，使用显式偏见测试或基于嵌入的方法来检测偏见，但这些方法可能忽略了更细微、隐式的偏见形式。为了解决这个问题，我们引入了两种新的受心理学启发的 методология：LLM 隐式联想测试 (IAT) 偏见和 LLM 决策偏见，旨在通过基于提示的任务和决策任务来揭示和衡量隐式偏见。此外，具有主题分析的开放式生成任务，包括词语生成和故事讲述，提供了对模型行为的定性见解。我们的研究结果表明，LLM IAT 偏见与传统方法相关联，并更有效地预测下游行为，如 LLM 决策偏见所衡量，为检测 AI 系统中的微妙偏见提供了一个更全面的框架。这项研究通过提出新的方法来持续评估和减轻 LLMs 中的偏见，推动了 AI 伦理领域的发展，强调了定性和以决策为重点的评估的重要性，以解决先前方法尚未完全解决的挑战。

发布时间: 10/1/2024

查看原文

从上而观：评估模型行为中分布偏移的框架

作者: Tanush Chopra, Michael Li, Jacob Haimes

当大型语言模型（LLM）被要求执行某些任务时，我们如何确保它们的学习表示与现实一致？我们提出了一种领域无关的框架，用于系统地评估 LLM 决策过程中的分布变化，其中 LLM 控制着由预定义规则管理的机制。虽然单个 LLM 行为可能看起来与预期行为一致，但在大量试验中，统计上显著的分布变化可能会出现。为了测试这一点，我们构建了一个具有已知结果逻辑的明确环境：21 点。在超过 1000 次试验中，我们发现了统计上显著的证据，表明 LLM 学习表示中存在行为错位。

发布时间: 10/1/2024

查看原文

华佗GPT-视觉：大规模将医学视觉知识注入多模态大型语言模型

作者: Junying Chen, Chi Gui, Ruyi Ouyang, Anningzhe Gao, Shunian Chen, Guiming Hardy Chen, Xidong Wang, Ruifei Zhang, Zhenyang Cai, Ke Ji, Guangjun Yu, Xiang Wan, Benyou Wang

多模态大型语言模型（MLLM）的快速发展，例如 GPT-4V，已经取得了重大进展。然而，由于医疗视觉文本数据的数量和质量有限，这些模型在医疗多模态能力方面仍然面临挑战，其原因是数据隐私问题和高昂的标注成本。虽然先驱方法利用 PubMed 的大规模去识别医疗图像文本对来解决这些限制，但由于数据本身存在噪声，它们仍然存在不足。为了解决这个问题，我们对来自 PubMed 的医疗图像文本对进行了细化，并在 "非盲" 的情况下使用 MLLM（GPT-4V）对数据进行去噪和重新格式化，最终创建了包含 130 万个医疗 VQA 样本的 PubMedVision 数据集。我们的验证表明：（1）PubMedVision 可以显著增强当前 MLLM 的医疗多模态能力，在 MMMU 健康与医学领域等基准测试中表现出显著的改进；（2）医疗专家的人工检查和实证结果验证了我们数据集的数据质量优于其他数据构建方法。利用 PubMedVision，我们训练了一个 340 亿参数的医疗 MLLM HuatuoGPT-Vision，它在开放源代码 MLLM 中的医疗多模态场景中表现出优异的性能。

发布时间: 10/1/2024

查看原文

SAM：可扩展连续体机械手的半主动机制与实时滞后补偿控制算法

作者: Junhyun Park, Seonghyeok Jang, Myeongbo Park, Hyojae Park, Jeonghyeon Yoon, Minho Hwang

基于数据驱动的时序卷积网络实时补偿，用于可扩展缆驱动连续体机器人的滞后现象。

发布时间: 10/1/2024

查看原文

基于大型语言模型的迭代反馈增强工具检索

作者: Qiancheng Xu, Yongqi Li, Heming Xia, Wenjie Li

工具学习旨在通过外部工具增强和扩展大型语言模型 (LLM) 的能力，近年来引起了广泛关注。当前方法表明，LLM 可以通过上下文学习或微调有效地处理一定数量的工具。然而，在现实世界场景中，工具数量通常非常多且更新不规律，强调了专门的工具检索组件的必要性。由于以下挑战，工具检索并非易事：1) 复杂的用户指令和工具描述；2) 工具检索和工具使用模型之间的错位。为了解决上述问题，我们建议通过大型语言模型的迭代反馈来增强工具检索。具体来说，我们提示工具使用模型，即 LLM，在多轮中为工具检索模型提供反馈，这可以逐步提高工具检索模型对指令和工具的理解，并缩小两个独立组件之间的差距。我们构建了一个统一且全面的基准来评估工具检索模型。大量实验表明，我们提出的方法在域内评估和域外评估中都取得了先进的性能。

发布时间: 10/1/2024

查看原文

字符适配器：基于提示的区域控制，实现高保真角色定制

作者: Yuhang Ma, Wenting Xu, Jiji Tang, Qinfeng Jin, Rongsheng Zhang, Zeng Zhao, Changjie Fan, Zhipeng Hu

定制化图像生成旨在合成具有一致角色的图像，在故事讲述、肖像生成和角色设计等应用中具有重要意义。然而，由于参考角色的特征提取不足和概念混淆，以往的方法在保持高保真一致性的角色方面面临挑战。因此，我们提出了 Character-Adapter，一个即插即用的框架，旨在生成保留参考角色细节的图像，确保高保真一致性。Character-Adapter 采用提示引导的分割来确保参考角色的精细区域特征，并使用动态区域级适配器来缓解概念混淆。我们进行了大量的实验来验证 Character-Adapter 的有效性。定量和定性结果都表明，Character-Adapter 在一致角色生成方面取得了最先进的性能，与其他方法相比提高了 24.8%。我们的代码将在 https://github.com/Character-Adapter/Character-Adapter 发布。

发布时间: 10/1/2024

查看原文

招聘会：用于评估大型语言模型中性别招聘偏差的框架

作者: Ze Wang, Zekun Wu, Xin Guan, Michael Thaler, Adriano Koshiyama, Skylar Lu, Sachin Beepath, Ediz Ertekin Jr., Maria Perez-Ortiz

大型语言模型 (LLMs) 在招聘中的使用已引发立法行动，以保护弱势群体。本文提出了一种新的框架，用于对大型语言模型 (LLMs) 在简历评分中的分层性别招聘偏差进行基准测试，揭示了严重的逆向性别招聘偏差和过度去偏差问题。我们的贡献有四个方面：第一，我们引入了一种新的结构，它以劳动力经济学、法律原则和对当前偏差基准的批评为基础：招聘偏差可以分为两种类型：水平偏差（人口统计反事实群体之间平均结果的差异）和分布偏差（人口统计反事实群体之间结果方差的差异）；水平偏差可以进一步细分为统计偏差（即随非人口统计内容而变化）和基于偏好的偏差（即无论非人口统计内容如何保持一致）。第二，该框架包括严格的统计和计算招聘偏差指标，例如评分后排名 (RAS)、基于排名的影响比率、排列检验和固定效应模型。第三，我们分析了十个最先进的 LLMs 中的性别招聘偏差。十个 LLMs 中有七个在至少一个行业中显示出对男性的显著偏差。行业效应回归表明，医疗保健行业对男性的偏差最大。此外，我们发现，对于十个 LLMs 中的八个，偏差表现与简历内容保持不变。这表明，本文中测量的偏差表现可能适用于其他具有不同简历质量的简历数据集。第四，我们提供了一个用户友好的演示和简历数据集，以支持该框架的采用和实际应用，该框架可以推广到其他社会特征和任务。

发布时间: 10/1/2024

查看原文

ICAL：通过将轨迹转换为可操作的见解来实现多模态智能体的持续学习

作者: Gabriel Sarch, Lawrence Jang, Michael J. Tarr, William W. Cohen, Kenneth Marino, Katerina Fragkiadaki

大规模生成式语言模型和视觉语言模型 (LLMs 和 VLMs) 在决策和指令遵循的少样本情境学习方面表现出色。然而，它们需要高质量的示例演示被包含在它们的上下文窗口中。在这项工作中，我们提出一个问题：LLMs 和 VLMs 能否从通用、次优的演示中生成自己的提示示例？我们提出了情境抽象学习 (ICAL)，一种从次优演示和人类反馈中构建多模态经验洞察记忆的方法。给定一个新领域中的嘈杂演示，VLMs 通过修复低效动作和注释认知抽象来将轨迹抽象成一个通用程序：任务关系、对象状态变化、时间子目标和任务理解。这些抽象通过人类反馈进行交互式细化和调整，同时代理尝试在类似的环境中执行轨迹。当这些抽象用作提示中的示例时，它们显著改善了检索增强型 LLM 和 VLM 代理的决策能力。我们的 ICAL 代理在 TEACh 的基于对话的指令遵循、VisualWebArena 的多模态网络代理和 Ego4D 的动作预测方面超越了最先进水平。在 TEACh 中，我们实现了 12.6% 的目标条件成功率提高。在 VisualWebArena 中，我们的任务成功率从 18.9% 提高到 23.4%，超过了最先进水平。在 Ego4D 动作预测中，我们优于少样本 GPT-4V，并与监督模型保持竞争力。我们证明了微调我们的检索增强型情境代理会带来额外的改进。我们的方法显著减少了对专家精心制作示例的依赖，并且始终优于缺乏此类洞察力的动作计划的情境学习。

发布时间: 10/1/2024

查看原文

将令牌生成视为分类以进行集成，打破 LLM 社区的局限性

作者: Yao-Ching Yu, Chun-Chih Kuo, Ziqi Ye, Yu-Cheng Chang, Yueh-Se Li

集成多个模型一直是突破现有性能极限的有效方法，并广泛应用于分类任务中，通过简单地对多个分类器的分类概率向量进行平均来实现更高的准确率。然而，在蓬勃发展的开源大型语言模型（LLM）社区中，集成方法很少见，通常仅限于集成LLM的全文输出，例如使用排序器选择最佳输出，这导致了对令牌级概率信息的利用不足。在本文中，我们将LLM的每个令牌生成视为一种用于集成的分类（GaC）。这种方法充分利用了每个生成步骤中的概率信息，并更好地防止LLM生成会导致雪球效应错误的早期错误令牌。在实验中，我们在几个基准测试（包括考试、数学和推理）上对最先进的LLM进行了集成，观察到我们的方法打破了现有社区的性能上限。此外，我们观察到答案中的大多数令牌都很简单，不会影响最终答案的正确性。因此，我们还尝试仅对关键令牌进行集成，结果表明在所有基准测试中，性能更高，延迟更低。

发布时间: 10/1/2024

查看原文