arXiv 论文列表

作者: Yihong Tang, Jiao Ou, Che Liu, Fuzheng Zhang, Di Zhang, Kun Gai

角色扮演是人机交互（HCI）领域中新兴的应用，主要通过将大型语言模型 (LLM) 与指定角色进行对齐训练来实现。尽管取得了重大进展，但角色扮演代理 (RPLA) 仍然难以在对话中保持角色一致性，尤其是在面对与角色属性微妙相关的边界查询时。本文介绍了 ERABAL，这是一个旨在通过边界感知学习来增强 RPLA 角色扮演能力的框架。ERABAL 包含一个角色特定对话生成流程和一个相应的对齐训练方法。通过全面评估，我们证明了 ERABAL 既高效又有效。与通用基线模型相比，ERABAL 在 WikiRoleEval、CharacterEval 和 MT-Bench 的角色扮演子集中取得了显著改进，而训练对话数量明显少于领先方法。我们的代码和数据集将公开发布，以支持进一步研究。

发布时间: 10/23/2024

查看原文

通过公平感知集成方法对文本安全分类器进行去偏

作者: Olivia Sturman, Aparna Joshi, Bhaktipriya Radharapu, Piyush Kumar, Renee Shelby

大型语言模型 (LLM) 的日益普及需要高效的护栏，以确保 LLM 输入和输出的安全性。当这些安全措施在不平衡的数据上训练时，它们可能会学习社会偏见。我们提出了一种轻量级的后处理方法，用于减轻闭源文本安全分类器中的反事实公平性。我们的方法涉及构建一个集成，该集成不仅优于输入分类器并与策略对齐，而且还充当去偏置正则化器。我们引入了两个阈值无关的指标来评估模型的反事实公平性，并展示了将这些指标与公平数据重新加权 (FDW) 相结合如何帮助减轻偏见。我们创建了一个扩展的 Open AI 数据集和一个基于用户提示的新模板化 LLM 生成的数据集，这两个数据集在身份群体之间反事实平衡，涵盖了安全性的四个关键领域；我们将努力公开发布这些数据集。我们的结果表明，我们的方法在对模型性能影响最小的情况下提高了反事实公平性。

发布时间: 10/23/2024

查看原文

大型语言模型对学术界的影響：从写作到演讲

作者: Mingmeng Geng, Caixi Chen, Yanru Wu, Dongping Chen, Yao Wan, Pan Zhou

大型语言模型（LLMs）正在日益影响人类社会，尤其是在文本信息方面。基于超过 30,000 篇机器学习会议论文和 1,000 场演讲，我们对写作和演讲中使用的词汇进行了考察和比较，这是首次对大型语言模型如何影响同一群体中两种主要语言交流和表达方式的大规模研究。我们的实证结果表明，LLM 风格的词汇，例如“显著”，在摘要和口头演讲中使用频率更高。对演讲的影响正在开始显现，并可能在未来进一步扩大，这引起了人们对大型语言模型对人类社会隐性影响和连锁反应的关注。

发布时间: 10/23/2024

查看原文

Playground v3：基于深度融合的大语言模型改进文本到图像的对齐

作者: Bingchen Liu, Ehsan Akhgari, Alexander Visheratin, Aleks Kamko, Linmiao Xu, Shivam Shrirao, Chase Lambert, Joao Souza, Suhail Doshi, Daiqing Li

我们介绍了 Playground v3 (PGv3)，这是我们最新的文本到图像模型，它在多个测试基准中取得了最先进 (SoTA) 的性能，在图形设计能力方面表现出色，并引入了新的功能。与传统的文本到图像生成模型不同，传统的模型依赖于预训练的语言模型（如 T5 或 CLIP 文本编码器），我们的方法将大型语言模型 (LLM) 与一种新颖的结构完全集成，该结构仅利用来自解码器专用 LLM 的文本条件。此外，为了提高图像字幕的质量，我们开发了一个内部字幕器，它能够生成不同细节级别的字幕，丰富了文本结构的多样性。我们还引入了一个新的基准 CapsBench 来评估详细的图像字幕性能。实验结果表明，PGv3 在文本提示遵守、复杂推理和准确的文本渲染方面表现出色。用户偏好研究表明，我们的模型在常见设计应用（如贴纸、海报和徽标设计）中具有超人的图形设计能力。此外，PGv3 还引入了新的功能，包括精确的 RGB 颜色控制和强大的多语言理解。

发布时间: 10/23/2024

查看原文

感知不确定性下概率安全导航的胜任感知规划

作者: Sara Pohland, Claire Tomlin

基于感知的导航系统对于无人地面车辆（UGV）在复杂地形中的导航非常有用，而传统的基于深度的导航方案在这种情况下并不适用。然而，这些数据驱动方法高度依赖于其训练数据，并且可能会在没有预警的情况下以出乎意料和戏剧性的方式失效。为了确保车辆和周围环境的安全，导航系统必须能够识别感知模型的预测不确定性，并在面对不确定性时安全有效地做出反应。为了实现感知不确定性下的安全导航，我们开发了一种基于概率和重建的胜任力估计（PaRCE）方法，以估计模型对整个输入图像以及图像中特定区域的熟悉程度。我们发现，整体胜任力得分可以正确预测正确分类、错误分类和非分布（OOD）样本。我们还证实，区域胜任力图可以准确地区分图像中熟悉和不熟悉的区域。然后，我们利用这些胜任力信息来开发一种规划和控制方案，该方案能够在保持低错误概率的同时实现有效导航。我们发现，与没有胜任力感知的基线控制器相比，胜任力感知方案大大减少了与不熟悉障碍物的碰撞次数。此外，区域胜任力信息对于实现高效导航非常有价值。

发布时间: 10/23/2024

查看原文

EMPOWER：具身多角色开放词汇规划，包含在线接地和执行

作者: Francesco Argenziano, Michele Brienza, Vincenzo Suriani, Daniele Nardi, Domenico D. Bloisi

在现实环境中为机器人进行任务规划面临着重大挑战。这些挑战源于三个主要问题：难以识别实现目标的落地步骤序列；缺乏高级动作与低级指令之间标准化的映射；以及在机器人硬件资源有限的情况下保持低计算开销的挑战。我们介绍了 EMPOWER，这是一个为具身代理设计的开放词汇在线接地和规划框架，旨在解决这些问题。通过利用高效的预训练基础模型和多角色机制，EMPOWER 在落地规划和执行方面表现出显著的改进。定量结果突出了我们方法的有效性，使用 TIAGo 机器人在六种不同的现实场景中实现了平均 0.73 的成功率。

发布时间: 10/23/2024

查看原文

面向生物医学文本简化的大型语言模型：前景可期，但尚未成熟

作者: Zihao Li, Samuel Belkadi, Nicolo Micheletti, Lifeng Han, Matthew Shardlow, Goran Nenadic

在本系统报告中，我们描述了我们参与 TAC 2023 轨道中 PLABA2023 生物医学摘要简化任务所使用的模型和方法。我们提交的系统输出来自以下三个类别：1) 包括 Biomedical-T5 和 Lay-SciFive 在内的领域微调 T5 类模型；2) 具有可控属性（通过标记）的微调 BARTLarge 模型 BART-w-CTs；3) ChatGPT 提示。我们还介绍了我们为这项任务在 BioGPT 微调方面所做的工作。在使用 SARI 分数的官方自动评估中，BeeManc 在所有团队中排名第二，我们的模型 LaySciFive 在所有 13 个评估系统中排名第三。在官方人工评估中，我们的模型 BART-w-CTs 在句子简单性（得分 92.84）中排名第二，在术语简单性（得分 82.33）中排名第三，在所有 7 个评估系统中排名第三；它还在流畅性方面获得了 91.57 的高分，与最高分 93.53 相比。在第二轮提交中，我们使用 ChatGPT 提示的团队在多个类别中排名第二，包括简化术语准确率得分 92.26 和完整性得分 96.58，以及与通过人工评估重新评估的 PLABA-base-1 (95.73) 非常相似的忠实度得分 95.3。我们的代码、微调模型、提示和来自系统开发阶段的数据分割将在 https://github.com/ HECTA-UoM/PLABA-MU 上提供。

发布时间: 10/23/2024

查看原文

从左到右，无所不在的 LLM：评估 GPT 在识别网络领域政治偏见方面的能力

作者: Raphael Hernandes, Giulio Corsi

本研究探讨了 OpenAI 的 GPT-4，一个最先进的大型语言模型，是否能够仅根据新闻来源的 URL 准确地对其政治倾向进行分类。鉴于政治标签的主观性，研究中通常使用第三方偏见评级（例如 Ad Fontes Media、AllSides 和 Media Bias/Fact Check (MBFC) 的评级）来分析新闻来源的多样性。本研究旨在确定 GPT-4 是否能够在七级量表（“极左”到“极右”）上复制这些人工评级。分析将 GPT-4 的分类与 MBFC 的分类进行了比较，并使用 Open PageRank 分数控制了网站的受欢迎程度。结果表明 GPT-4 的评级与 MBFC 的评级之间存在高度相关性（Spearman's ρ = .89，n = 5,877，p < 0.001），表明该模型具有潜在的可靠性。然而，GPT-4 拒绝对大约 2/3 的数据集进行分类。它更有可能拒绝对不受欢迎的网站进行评级，这些网站的评估也较不准确。该 LLM 倾向于避免对 MBFC 认为是中间派的来源进行分类，从而导致输出更加两极分化。最后，该分析表明，与 MBFC 的分类相比，GPT 的分类略微偏向左侧。因此，虽然本文表明 GPT-4 可以作为一种可扩展且经济高效的工具，用于对新闻网站的政治偏见进行分类，但其使用应作为对人工判断的补充，以减轻偏见。

发布时间: 10/23/2024

查看原文

BRIGHT：一个现实且具有挑战性的推理密集型检索基准测试

作者: Hongjin Su, Howard Yen, Mengzhou Xia, Weijia Shi, Niklas Muennighoff, Han-yu Wang, Haisu Liu, Quan Shi, Zachary S. Siegel, Michael Tang, Ruoxi Sun, Jinsung Yoon, Sercan O. Arik, Danqi Chen, Tao Yu

现有的检索基准主要由信息搜索查询组成（例如，来自搜索引擎的聚合问题），其中基于关键词或语义的检索通常就足够了。然而，许多复杂的现实世界查询需要深入推理才能识别出超越表面形式匹配的相关文档。例如，查找编码问题的文档需要理解所涉及函数的逻辑和语法。为了更好地对这种具有挑战性的查询进行检索基准测试，我们引入了 BRIGHT，这是第一个需要密集推理才能检索相关文档的文本检索基准。我们的数据集包含 1,384 个来自不同领域的现实世界查询，例如经济学、心理学、数学和编码。这些查询来自自然发生和精心策划的人类数据。广泛的评估表明，即使是最先进的检索模型在 BRIGHT 上的表现也很差。MTEB 排行榜（Muennighoff 等人，2023 年）上的领先模型，其 nDCG@10 得分为 59.0，在 BRIGHT 上的 nDCG@10 得分为 18.3。我们表明，将查询的显式推理纳入可以将检索性能提高高达 12.2 个点。此外，将来自性能最佳检索器的检索到的文档纳入可以将问答性能提高超过 6.6 个点。我们相信 BRIGHT 为未来在更现实和更具挑战性的环境中研究检索系统铺平了道路。

发布时间: 10/23/2024

查看原文

DPEC：用于增强弱光图像清晰度的双路径误差补偿方法

作者: Shuang Wang, Qianwen Lu, Yihe Nie, Qingchuan Tao, Yanmei Yu

针对弱光图像增强任务，基于深度学习的算法相比传统方法展现出了优越性和有效性。现有的深度学习算法主要基于Retinex理论，但忽略了输入图像中存在的噪声和颜色失真，这会导致最终结果中出现明显的噪声放大和局部颜色失真。为了解决这个问题，我们提出了双路径误差补偿方法（DPEC），旨在提高弱光条件下的图像质量。DPEC执行精确的像素级误差估计，准确地捕捉到细微的像素差异，并进行独立的去噪，有效地去除不必要的噪声。该方法在保留局部纹理细节的同时恢复图像亮度，避免了噪声放大。此外，为了弥补传统CNN在捕捉长距离语义信息方面的局限性，并兼顾计算速度和资源效率，我们将VMamba架构集成到DPEC的骨干网络中。此外，我们引入了HIS-Retinex损失来约束DPEC的训练，确保图像的整体亮度分布更接近真实世界条件。全面的定量和定性实验结果表明，我们的算法在六个基准测试中显著优于最先进的方法。

发布时间: 10/23/2024

查看原文