arXiv 论文列表

作者: Hakan Aktas, Yukie Nagai, Minoru Asada, Matteo Saveriano, Erhan Oztop, Emre Ugur

affordances 代表了物体在给定情境下对代理人提供的固有影响和行动可能性。从理论角度来看，affordances 弥合了影响和行动之间的差距，提供了对代理人行动与其环境之间联系的功能性理解，即其能够产生的影响。在本研究中，我们提出了一种深度神经网络模型，该模型将物体、行动和影响统一到一个共同的潜在空间中的单个潜在向量中，我们称之为 affordance 空间。利用 affordance 空间，我们的系统可以在给定行动和物体的情况下生成影响轨迹，并且可以在给定影响轨迹和物体的情况下生成行动轨迹。我们的模型并没有学习单个代理人作用于单个物体的行为。相反，它形成了一个跨越多个代理人和物体的“共享 affordance 表示”，我们称之为 Affordance Equivalence。 Affordance Equivalence 不仅促进了跨物体的行动泛化，而且还促进了跨体现转移，将不同机器人的行动联系起来。除了证明所提模型能力范围的模拟实验外，我们还展示了我们的模型可以用于现实世界环境中的直接模仿。

发布时间: 10/11/2024

查看原文

用信息瓶颈保护你的大型语言模型

作者: Zichuan Liu, Zefan Wang, Linjie Xu, Jinyu Wang, Lei Song, Tianchun Wang, Chunlin Chen, Wei Cheng, Jiang Bian

大型语言模型 (LLMs) 彻底改变了自然语言处理领域，但它们可能被攻击以生成有害内容。尽管努力使 LLM 符合道德规范，但这些努力通常很脆弱，并且可以通过优化或手动对抗性提示进行越狱攻击来规避。为了解决这个问题，我们引入了信息瓶颈保护器 (IBProtector)，这是一种基于信息瓶颈原理的防御机制，我们修改了目标以避免琐碎的解决方案。IBProtector 选择性地压缩和扰乱提示，由一个轻量级且可训练的提取器辅助，仅保留目标 LLM 以预期答案进行响应的基本信息。此外，我们进一步考虑了梯度不可见的情况，以与任何 LLM 兼容。我们的实证评估表明，IBProtector 在减轻越狱尝试方面优于当前的防御方法，而不会过度影响响应质量或推理速度。它在各种攻击方法和目标 LLM 中的有效性和适应性突出了 IBProtector 作为一种新型、可转移防御的潜力，该防御可以增强 LLM 的安全性，而无需修改底层模型。

发布时间: 10/11/2024

查看原文

用于编排双臂机器人的大型语言模型

作者: Kun Chu, Xufeng Zhao, Cornelius Weber, Mengdi Li, Wenhao Lu, Stefan Wermter

尽管在赋予机器人解决复杂操作任务的能力方面取得了快速进展，但为双臂机器人生成控制策略以解决涉及两只手的任务仍然具有挑战性，因为有效的时间和空间协调存在困难。凭借在逐步推理和上下文学习方面的涌现能力，大型语言模型（LLM）在各种机器人任务中展现出巨大的潜力。然而，通过单个离散符号序列进行语言交流的性质使得基于 LLM 的连续空间协调对于双臂任务来说是一个特殊的挑战。为了应对这一挑战，我们提出了基于语言模型的双臂编排 (LABOR)，这是一种利用 LLM 来分析任务配置并设计协调控制策略以解决长时域双臂任务的代理。我们通过使用 NICOL 人形机器人的两类长时域任务的模拟实验来评估我们的方法。我们的结果表明，我们的方法在成功率方面优于基线。此外，我们对失败案例进行了深入分析，为基于 LLM 的双臂机器人控制方法提供了见解，并揭示了未来的研究趋势。项目网站可以访问 http://labor-agent.github.io。

发布时间: 10/11/2024

查看原文

基于师生大型语言模型的多约束分子生成

作者: Peng Zhou, Jianmin Wang, Chunyan Li, Zixu Wang, Yiping Liu, Siqi Sun, Jianxin Lin, Leyi Wei, Xibao Cai, Houtim Lai, Wei Liu, Longyue Wang, Yuansheng Liu, Xiangxiang Zeng

尽管已经提出了各种模型和计算工具用于分析分子的结构和性质，但生成符合所有所需结构和性质的分子仍然是一个挑战。本文介绍了一个多约束分子生成大型语言模型TSMMG，它类似于学生，从各种小型模型和工具（即“老师”）中整合知识。为了训练TSMMG，我们通过从这些“老师”那里提取分子知识构建了一个大型的文本-分子对集合，使其能够通过各种文本提示生成符合描述的新分子。实验表明，TSMMG在生成满足复杂、自然语言描述的性质要求的分子方面表现出色，涵盖了两个、三个和四个约束任务，平均分子有效性超过99%，成功率分别为82.58%、68.03%和67.48%。该模型还通过零样本测试展现出适应性，创造出满足以前从未遇到过的性质组合的分子。它可以理解具有各种语言风格的文本输入，超越了概述提示的限制，这已通过实证验证得到确认。此外，TSMMG的知识蒸馏功能有助于小型模型的持续改进，而其创新的数据集构建方法有效地解决了数据稀缺和质量问题，这使得TSMMG成为药物发现和材料科学领域中一个很有前途的工具。

发布时间: 10/11/2024

查看原文

图像篡改的广义一致性轨迹模型

作者: Beomsu Kim, Jaemin Kim, Jeongsol Kim, Jong Chul Ye

扩散模型 (DMs) 在无条件生成以及图像编辑和修复等应用方面表现出色。DMs 的成功在于扩散的迭代性质：扩散将将噪声映射到数据的复杂过程分解为一系列简单的去噪任务。此外，我们能够通过在每个去噪步骤中注入引导项来对生成过程进行细粒度控制。然而，迭代过程也计算量大，通常需要数十到数千次函数评估。虽然一致性轨迹模型 (CTMs) 能够在概率流 ODE (PFODE) 的任何时间点之间进行遍历，并通过单次函数评估进行分数推断，但 CTMs 仅允许从高斯噪声到数据的转换。本工作旨在通过提出广义 CTMs (GCTMs) 来释放 CTMs 的全部潜力，GCTMs 通过 ODE 在任意分布之间进行转换。我们讨论了 GCTMs 的设计空间，并展示了它们在各种图像操作任务中的有效性，例如图像到图像的转换、修复和编辑。

发布时间: 10/11/2024

查看原文

基于参考的评价指标在问句生成中自证不实

作者: Bang Nguyen, Mengxia Yu, Yun Huang, Meng Jiang

基于参考的指标，例如 BLEU 和 BERTScore，被广泛用于评估问题生成 (QG)。在这项研究中，我们在 SQuAD 和 HotpotQA 等 QG 基准测试中发现，使用人工编写的参考并不能保证基于参考的指标的有效性。大多数 QG 基准测试只有一个参考；我们复制了标注过程并收集了另一个参考。一个好的指标应该对人工验证的问题的评分不低于生成的提问。然而，基于参考的指标在我们新收集的参考上的结果证明了这些指标本身存在问题。我们提出了一种无参考指标，该指标由自然性、可回答性和复杂性等多维标准组成，并利用大型语言模型。这些标准不受单个参考问题的句法或语义的限制，并且该指标不需要一组多样化的参考。实验表明，我们的指标能够准确地区分高质量问题和有缺陷的问题，并且在与人工判断的一致性方面达到了最先进的水平。

发布时间: 10/11/2024

查看原文

鸟类集：一个用于鸟类生物声学音频分类的大规模数据集

作者: Lukas Rauch, Raphael Schwinger, Moritz Wirth, Ren\'e Heinrich, Denis Huseljic, Marek Herde, Jonas Lange, Stefan Kahl, Bernhard Sick, Sven Tomforde, Christoph Scholz

深度学习（DL）极大地推动了音频分类的发展，但该领域受限于缺乏推动其他领域进步的大规模基准数据集。虽然 AudioSet 旨在作为通用领域数据集弥合这一差距，但其有限的可访问性和缺乏多样化的现实世界评估用例挑战了其作为主要资源的作用。因此，我们引入了 $\texttt{BirdSet}$，这是一个针对鸟类生物声学的大规模音频分类基准数据集。$\texttt{BirdSet}$ 超越 AudioSet，拥有来自近 10,000 个类别 ($\uparrow\!18\times$) 的超过 6,800 小时的录音 ($\uparrow\!17\%$) 用于训练，以及超过 400 小时 ($\uparrow\!7\times$) 用于八个强标签评估数据集。它是一个用途广泛的资源，可用于多标签分类、协变量偏移或自监督学习等用例。我们在三种不同的训练场景中对六种知名的 DL 模型进行了多标签分类基准测试，并概述了音频分类中的进一步评估用例。我们将数据集托管在 Hugging Face 上，以方便访问，并提供一个广泛的代码库来复制我们的结果。

发布时间: 10/11/2024

查看原文

AutoRD：基于本体增强的大语言模型的罕见病知识图谱自动端到端构建系统

作者: Lang Cao, Jimeng Sun, Adam Cross

大型语言模型（LLMs）已在许多自然语言处理任务中取代了传统方法。然而，在命名实体识别（NER）中，现有的基于 LLMs 的方法...

发布时间: 10/11/2024

查看原文

DiaHalu：面向大型语言模型的对话级幻觉评估基准

作者: Kedi Chen, Qin Chen, Jie Zhou, Yishen He, Liang He

近年来，大型语言模型（LLMs）在众多自然语言处理任务中取得了显著成功，但幻觉问题仍然是一个挑战。许多基准被提出用于检测幻觉。然而，其中一些基准并非由 LLMs 自然生成，而是人为诱导的。此外，许多基准只关注事实性幻觉，而忽略了忠实性幻觉。此外，尽管对话模式在 LLMs 时代被更广泛地使用，但目前的基准只关注句子级和段落级的幻觉。在本研究中，我们提出了 DiaHalu，据我们所知，这是第一个对话级幻觉评估基准。首先，我们将收集的主题整合到系统提示中，并促进两个 ChatGPT3.5 之间的对话。随后，我们手动修改不符合人类语言规范的内容，然后让 LLMs 重新生成，模拟真实的人机交互场景。最后，专业学者对数据集中的所有样本进行标注。DiaHalu 涵盖了四个常见的多轮对话领域和五种幻觉亚型，扩展自事实性和忠实性幻觉。通过一些知名 LLMs 和检测方法在数据集上的实验表明，DiaHalu 是一个具有挑战性的基准，对进一步研究具有重要价值。

发布时间: 10/11/2024

查看原文

TV-TREES：用于神经符号视频推理的多模态蕴涵树

作者: Kate Sanders, Nathaniel Weir, Benjamin Van Durme

大型语言模型 (LLM) 已经在许多自然语言处理任务中取代了传统方法。然而，在命名实体识别 (NER) 中，现有的基于 LLM 的方法……

发布时间: 10/11/2024

查看原文