arXiv 论文列表

作者: Yiran Wang, Masao Utiyama

无监督句法分析，也称为语法归纳，旨在从原始文本中推断句法结构。最近，二元表示在词汇和句法层面都展现出非凡的信息保存能力。本文探讨了利用这种能力从原始文本中推断句法树的可能性，仅仅依赖于模型中隐式诱导的语法。为了实现这一点，我们将位级CKY从零阶升级到一阶，以在统一的二元表示空间中编码词汇和句法，将训练从监督式转换为无监督式，并在对比哈希框架下进行，并引入了一种新的损失函数，以施加更强但平衡的对齐信号。我们的模型在各种数据集上表现出具有竞争力的性能，因此，我们认为我们的方法足够有效和高效，能够以低成本从预训练语言模型中获取高质量的句法树。

发布时间: 10/8/2024

查看原文

基于多轮区域的场景草图优化

作者: Yiqi Liang, Ying Liu, Dandan Long, Ruihui Li

场景速写旨在将场景转换为简化的抽象表示，以捕捉原始场景的本质元素和构图。它需要对场景进行语义理解，并考虑场景中的不同区域。由于场景通常包含跨越各个区域的各种视觉信息，例如前景物体、背景元素和空间划分，处理这些不同区域带来了独特的困难。在本文中，我们定义速写为一些贝塞尔曲线集。我们对输入场景的不同区域进行多轮优化。在每一轮优化中，从下一区域采样的笔触可以无缝地集成到前一轮优化生成的速写中。我们提出了额外的笔触初始化方法，以确保场景的完整性和优化的收敛性。利用新颖的基于 CLIP 的语义损失和基于 VGG 的特征损失来指导我们的多轮优化。在生成的速写的质量和数量方面进行的大量实验结果证实了我们方法的有效性。

发布时间: 10/8/2024

查看原文

解码时个性化对齐

作者: Ruizhe Chen, Xiaotian Zhang, Meng Luo, Wenhao Chai, Zuozhu Liu

大型语言模型 (LLM) 在许多自然语言处理任务中取代了传统方法。然而，在命名实体识别 (NER) 中，现有的基于 LLM 的方法...

发布时间: 10/8/2024

查看原文

ECon：关于证据冲突的检测与解决

作者: Cheng Jiayang, Chunkit Chan, Qianqian Zhuang, Lin Qiu, Tianhang Zhang, Tengxiao Liu, Yangqiu Song, Yue Zhang, Pengfei Liu, Zheng Zhang

大型语言模型（LLMs）的兴起极大地影响了决策系统中信息的质量，导致了人工智能生成内容的普及，以及在检测虚假信息和管理冲突信息或“证据间冲突”方面的挑战。本研究提出了一种生成多样化、经过验证的证据冲突的方法，以模拟现实世界中的虚假信息场景。我们评估了包括自然语言推理（NLI）模型、事实一致性（FC）模型和 LLMs 在内的冲突检测方法在这些冲突上的表现（RQ1），并分析了 LLMs 的冲突解决行为（RQ2）。我们的主要发现包括：（1）NLI 和 LLM 模型在检测答案冲突方面表现出较高的精确度，但较弱的模型召回率较低；（2）FC 模型难以处理词汇上相似的答案冲突，而 NLI 和 LLM 模型则处理得更好；（3）更强大的模型，如 GPT-4，表现出稳健的性能，尤其是在处理细微的冲突方面。在冲突解决方面，LLMs 通常偏向于某一冲突证据，而没有提供理由，如果它们有先验信念，则依赖于内部知识。

发布时间: 10/8/2024

查看原文

Text2Chart31：带自动反馈的图表生成指令微调

作者: Fatemeh Pesaran Zadeh, Juyeon Kim, Jin-Hwa Kim, Gunhee Kim

大型语言模型 (LLMs) 在各种语言任务中展现出强大的能力，特别是通过指令微调方法。然而，LLMs 在通过图表和图来可视化复杂、真实世界的数据方面面临挑战。首先，现有的数据集很少涵盖全面的图表类型，例如 3D、体积和网格图表。其次，监督微调方法没有充分利用丰富数据集中的复杂关系，包括文本、代码和图形。为了解决这些挑战，我们提出了一种分层管道和一个新的图表生成数据集。我们的数据集 Text2Chart31 包含 31 种独特的绘图类型，参考 Matplotlib 库，包含 11.1K 个描述、代码、数据表和图的元组。此外，我们引入了一种基于强化学习的指令微调技术，用于图表生成任务，无需人工反馈。我们的实验表明，这种方法显著提高了模型性能，使较小的模型能够超越更大的开源模型，并在数据可视化任务中与最先进的专有模型相媲美。我们在 https://github.com/fatemehpesaran310/Text2Chart31 上发布了代码和数据集。

发布时间: 10/8/2024

查看原文

基于图交互增强图自监督学习

作者: Xinjian Zhao, Wei Pang, Xiangru Jian, Yaoyao Xu, Chaolong Ying, Tianshu Yu

图自监督学习（GSSL）已成为从图结构数据中提取信息表示的强大框架，无需依赖大量标记输入。在这项研究中，我们介绍了图交互（GIP），这是一种创新且通用的方法，它显著提高了配备各种现有 GSSL 方法的性能。为此，GIP 通过在标准批次中引入随机图间边来倡导直接的图级通信。与 GIP 的简洁性相比，我们进一步从理论上证明 \textsc{GIP} 本质上通过结合图间消息传递和 GSSL 来执行原理性的流形分离，从而带来更结构化的嵌入流形，从而有利于一系列下游任务。我们的实证研究表明，GIP 在多个基准测试中以显著优势超越了现有 GSSL 方法的性能，突出了其作为突破性方法的潜力。此外，GIP 可以轻松集成到一系列 GSSL 方法中，并始终提供额外的性能提升。这一进步不仅增强了 GSSL 的能力，而且可能在更广泛的意义上为一种新颖的图学习范式奠定了基础。

发布时间: 10/8/2024

查看原文

LoRTA：大型语言模型的低秩张量自适应

作者: Ignacio Hounie, Charilaos Kanatsoulis, Arnuv Tandon, Alejandro Ribeiro

低秩适应 (LoRA) 是一种流行的参数高效微调 (PEFT) 方法，它可以有效地适应大型预训练模型以用于下游任务。LoRA 使用每层低秩矩阵参数化模型更新，显著减少了可训练参数的数量，从而在微调期间降低了资源需求。然而，由于使用了低秩矩阵模型，可训练参数数量的下限仍然很高。在本文中，我们通过提出一种新的方法来解决这一限制，该方法采用低秩张量参数化模型更新。所提出的低秩张量模型可以显著减少可训练参数的数量，同时还可以更细粒度地控制适配器的大小。我们在自然语言理解、指令微调、偏好优化和蛋白质折叠基准上的实验表明，我们的方法在微调大型语言模型方面既高效又有效，在保持相当性能的同时，显著减少了参数数量。

发布时间: 10/8/2024

查看原文

大型语言模型可以实现社会平衡

作者: Pedro Cisneros-Velarde

社会平衡是社会学中的一个概念，它指出如果一个群体中每三个个体之间都形成了某种正向或负向的互动结构，那么整个群体最终会形成一个正向互动的派系，或者分裂成两个或多个相互敌对的派系。本文研究了一组相互作用的大型语言模型（LLM），并探讨了它们在持续互动后如何实现社会平衡。我们发现，在三种不同的 LLM 模型中，社会平衡取决于以下因素：（i）互动是否根据“关系”、“评价”或“意见”进行更新；（ii）代理人是否根据同质性或同伴的影响更新他们的互动；以及（iii） LLM 同时考虑的互动次数。当社会平衡达成时，其特定的正向或负向互动结构取决于这三个条件，并且在不同的 LLM 模型和规模之间存在差异。互动的稳定性和更新的合理性在不同模型之间也存在差异。因此，社会平衡是由每个 LLM 模型的预训练和对齐所驱动的。

发布时间: 10/8/2024

查看原文

BlockFound：面向异常检测的定制化区块链基础模型

作者: Jiahao Yu, Xian Wu, Hao Liu, Wenbo Guo, Xinyu Xing

我们提出了一种名为 BlockFound 的定制化基础模型，用于异常区块链交易检测。与依赖于基于规则的系统或直接应用现成的大型语言模型的现有方法不同，BlockFound 引入了一系列定制设计来模拟区块链交易的独特数据结构。首先，区块链交易是多模态的，包含特定于区块链的令牌、文本和数字。我们设计了一个模块化的标记器来处理这些多模态输入，平衡不同模态的信息。其次，我们设计了一种定制的掩码语言学习机制，用于使用 RoPE 嵌入和 FlashAttention 进行预训练，以处理更长的序列。在训练完基础模型后，我们进一步设计了一种新颖的检测方法来进行异常检测。对以太坊和 Solana 交易的大量评估表明，BlockFound 在异常检测方面具有出色的能力，同时保持了较低的误报率。值得注意的是，BlockFound 是唯一一种能够在 Solana 上以高精度成功检测异常交易的方法，而所有其他方法的检测召回率都非常低或为零。这项工作不仅为区块链提供了新的基础模型，而且为在区块链数据中应用大型语言模型设定了新的基准。

发布时间: 10/8/2024

查看原文

音节LM：学习语音语言模型的粗粒度语义单元

作者: Alan Baade, Puyuan Peng, David Harwath

语言模型需要分词的输入。然而，针对音频和视觉等连续数据的分词策略通常基于简单的启发式方法，例如固定大小的卷积或离散聚类，这些方法并不一定与数据的语义结构相符。特别是对于语音，波形的超高分辨率（每秒 16,000 个样本或更多）带来了重大挑战，因为基于语音的语言模型不得不使用比基于文本的语言模型多出数倍的词元。在这项工作中，我们提出了一种可控的自监督技术，将语音表示合并成更粗的类似音节的单元，同时仍然保留语义信息。我们通过以下步骤实现：1) 通过分析预训练编码器损失中的相关性来提取噪声边界，以及 2) 使用一种新颖的蒸馏技术迭代地改进模型表示。我们的方法以低至 5Hz 和 60bps 的速度生成可控速率的语义单元，并在音节分割和聚类方面取得了最先进的成果。利用这些粗粒度的词元，我们成功地训练了 SyllableLM，这是一种语音语言模型（SpeechLM），在各种口语建模任务中达到了或超过了当前最先进的 SpeechLM。SyllableLM 还显著提高了效率，训练计算量减少了 30 倍，推理速度提高了 4 倍。

发布时间: 10/8/2024

查看原文