LLM2D

arXiv 论文列表

作者: Si-An Chen, Lesly Miculicich, Julian Martin Eisenschlos, Zifeng Wang, Zilong Wang, Yanfei Chen, Yasuhisa Fujii, Hsuan-Tien Lin, Chen-Yu Lee, Tomas Pfister
近年来,语言模型 (LM) 在处理表格数据的推理能力方面取得了显著进步,主要得益于通过程序辅助机制来操纵和分析表格。然而,这些方法通常需要将整个表格作为输入,由于位置偏差或上下文长度限制,导致可扩展性挑战。为了应对这些挑战,我们引入了 TableRAG,一个专为基于 LM 的表格理解而设计的检索增强生成 (RAG) 框架。TableRAG 利用查询扩展结合模式和单元格检索,在将信息提供给 LM 之前,精准定位关键信息。这使得数据编码更高效,检索更精确,显著减少了提示长度,并减轻了信息丢失。我们从 Arcade 和 BIRD-SQL 数据集开发了两个新的百万令牌基准,以全面评估 TableRAG 在规模上的有效性。我们的结果表明,TableRAG 的检索设计实现了最高的检索质量,从而在大型表格理解方面取得了新的最先进性能。
发布时间: 10/8/2024
查看原文
作者: Guangzhi Xiong, Sanchit Sinha, Aidong Zhang
广义可加模型 (GAMs) 长期以来一直是用于可理解分析表格数据的强大白盒工具,揭示了每个特征对模型预测的影响。尽管神经网络 (NNs) 在各个领域取得了成功,但与基于树的方法相比,它们在表格数据分析中作为基于 NN 的 GAMs 的应用仍然不够理想,并且 NN-GAMs 中编码器的透明度也阻碍了用户理解网络如何学习函数。在这项工作中,我们提出了一种新的深度表格学习方法,称为原型神经加性模型 (ProtoNAM),该方法将原型引入 GAMs 框架中的神经网络。通过引入基于原型的特征激活,ProtoNAM 可以灵活地对表格特征到输出的非规则映射进行建模,同时保持最终预测的可解释性。我们还提出了一种受梯度提升启发的分层形状函数建模方法,便于发现复杂的特征模式,并使每个网络层的学习过程透明。我们的实证评估表明,ProtoNAM 优于所有现有的基于 NN 的 GAMs,同时还提供了对每个特征学习的形状函数的更多见解。ProtoNAM 的源代码可在 \url{https://github.com/Teddy-XiongGZ/ProtoNAM} 获取。
发布时间: 10/8/2024
查看原文
作者: Dylan Zhang, Justin Wang, Francois Charton
大型语言模型(LLM)在众多自然语言处理任务中取代了传统方法。然而,在命名实体识别(NER)中,现有的基于LLM的方法...
发布时间: 10/8/2024
查看原文
作者: Xiaomin Li, Mingye Gao, Zhiwei Zhang, Chang Yue, Hong Hu
大型语言模型(LLM)的训练数据质量对其性能有着显著的影响。越来越多的研究利用LLM根据人工设计的指标(规则)对数据进行评级和选择。然而,这些传统的基于规则的方法往往过分依赖于人为启发式方法,缺乏有效的规则评估指标,并且对新任务的适应性有限。在本研究中,我们提出了一种创新的基于规则的框架,该框架利用与规则相关的得分向量的正交性作为规则评估的新指标。我们的方法包括一个自动化流程,首先使用LLM生成一组多样化的规则,涵盖各种评级维度以评估数据质量。然后,它根据这些规则对一批数据进行评级,并使用随机矩阵理论中的行列式点过程(DPP)来选择最正交的得分向量,从而识别出一组独立的规则。这些规则随后被用来评估所有数据,选择得分平均值最高样本用于下游任务,例如LLM训练。我们通过两种实验设置验证了该方法的有效性:1)与真实评级进行比较,2)对用所选数据训练的LLM进行基准测试。我们全面的实验涵盖了一系列场景,包括通用预训练和领域特定微调,例如IMDB、医疗、数学和代码。结果表明,我们的基于DPP的规则评级方法在评级精度和模型性能方面始终优于其他方法,包括无规则评级、均匀采样、重要性重采样和QuRating。
发布时间: 10/8/2024
查看原文
作者: Ankur Mali, Tommaso Salvatori, Alexander Ororbia
基于能量的学习算法,例如预测编码 (PC),因其理论特性(例如局部操作和生物学上合理的错误校正机制)而引起了机器学习社区的广泛关注。在这项工作中,我们通过动力系统理论的视角,对 PC 的稳定性、鲁棒性和收敛性进行了严格分析。我们证明,首先,PC 在其损失函数和残差能量函数的温和假设下是李雅普诺夫稳定的,这意味着由于其定义明确的能量最小化动力学,它对小的随机扰动具有内在的鲁棒性。其次,我们正式证明了 PC 更新通过合并高阶曲率信息来近似拟牛顿方法,这使得它们比通过反向传播 (BP) 训练的模型更稳定,并且能够在更少的迭代次数内收敛。此外,利用这个动力学框架,我们通过精确地描述高阶导数的作用,为 PC 与其他算法(即 BP 和目标传播 (TP))之间的相似性提供了新的理论界限。这些边界是通过对 Hessian 结构的详细分析得出的,表明 PC 比 TP 更接近拟牛顿更新,从而对 PC 相比于传统学习方法的稳定性和效率提供了更深入的理解。
发布时间: 10/8/2024
查看原文
作者: Mehul Damani, Idan Shenfeld, Andi Peng, Andreea Bobu, Jacob Andreas
计算密集型解码过程——包括搜索、重新排序和自我批评——可以提高语言模型 (LM) 输出在代码生成、数值推理和对话等问题的质量。现有工作通常对 LM 的每个输入应用相同的解码过程。但并非所有输入都需要相同数量的计算来处理。我们能否自适应地分配解码计算,使用更多资源来回答那些答案更难计算的问题?我们提出了一种方法,该方法预测给定输入和计算预算的奖励分布,然后将额外的计算分配给预测中最有用的输入。我们在两种解码过程中应用了这种方法:第一,一种自适应的最佳 k 过程,它动态地选择要生成的样本数量作为重新排序器的输入;第二,一种路由过程,它使用昂贵但准确的解码过程或更便宜但能力较差的解码过程来动态地响应查询。在一套编程、数学和对话任务中,我们表明可以学习准确的计算分配过程,并且在不影响响应质量的情况下将计算量减少多达 50%,或者在固定计算预算下将质量提高多达 10%。
发布时间: 10/8/2024
查看原文
作者: Dylan Xu, Juan-Pablo Rivera
近年来,深度学习的进步使人们关注到创造先进的通用人工智能系统的可能性,这些系统在许多任务上超越人类。然而,如果这些系统追求非预期目标,可能会造成灾难性后果。人工智能系统追求非预期目标的关键先决条件是它们是否首先会以连贯且目标导向的方式行事,优化一些未知的目标;目前存在大量研究试图评估系统是否存在这些行为。然而,我们目前拥有的关于目标导向性的最严格定义在现实世界环境中难以计算。借鉴此前的文献,我们探讨了强化学习 (RL) 环境中的策略目标导向性。在我们的研究结果中,我们提出了关于策略目标导向性的一系列不同定义,这些定义分析了策略是否可以被很好地建模为针对许多(稀疏)奖励函数的近似最优策略。我们对目标导向性的初步定义进行了操作化,并在玩具马尔可夫决策过程 (MDP) 环境中对其进行了测试。此外,我们探讨了如何在前沿的大型语言模型 (LLM) 中测量目标导向性。我们的贡献是,我们对目标导向性进行了定义,该定义更简单,更容易计算,以便接近关于人工智能系统是否会追求危险目标的问题。我们建议根据我们的研究结果进一步探索对连贯性和目标导向性的测量。
发布时间: 10/8/2024
查看原文
作者: Aniruddh Sriram, Fangyuan Xu, Eunsol Choi, Greg Durrett
近年来,事实核查领域的研究重点关注模型从网络检索证据以判断陈述真伪的现实场景。该流程中的瓶颈在于检索相关证据:传统方法可能提供与陈述直接相关的文档,但核查复杂陈述需要更多推断。例如,一篇关于疫苗开发过程的文档与关于疫苗可能包含成分的陈述相关,即使它没有直接提及这些成分。我们提出了对比事实核查重排序器(CFR),这是一种针对此场景的改进型检索器。通过利用 AVeriTeC 数据集,该数据集对陈述的子问题进行了标注,并提供了来自证据文档的人工编写答案,我们使用对比目标微调了 Contriever,该目标基于多种训练信号,包括来自 GPT-4 的蒸馏、子问题答案评估以及数据集中的黄金标签。我们在检索和关于陈述的端到端真伪判断方面评估了我们的模型。在 AVeriTeC 数据集上,我们发现真伪分类准确率提高了 6%。我们还表明,我们的收益可以迁移到 FEVER、ClaimDecomp、HotpotQA 和一个需要检索器进行推断的合成数据集上。
发布时间: 10/8/2024
查看原文
作者: Shane E. Loeffler, Zan Ahmad, Syed Yusuf Ali, Carolyna Yamamoto, Dan M. Popescu, Alana Yee, Yash Lal, Natalia Trayanova, Mauro Maggioni
预测由非线性偏微分方程 (PDE) 控制的复杂系统的时变动力学,这些方程具有不同的参数和域,是一项具有挑战性的任务,其应用遍布各个领域。我们介绍了一种基于图傅里叶神经核的新型神经算子家族,旨在学习非线性 PDE 的解生成器,其中最高阶项是扩散性的,跨越多个域和参数。G-FuNK 结合了参数和域自适应的组件以及非自适应的组件。域自适应组件是使用离散域上的加权图构建的,其中图拉普拉斯算子近似最高阶扩散项,确保边界条件符合并捕获参数和域特异性行为。同时,学习到的组件通过傅里叶神经算子在域和参数之间传递。这种方法自然地嵌入几何和方向信息,从而改善了对新测试域的泛化,而无需重新训练网络。为了处理时间动力学,我们的方法结合了一个集成的 ODE 求解器来预测系统演化。实验表明,G-FuNK 能够准确地近似热传导、反应扩散和心脏电生理方程,跨越各种几何形状和各向异性扩散场。G-FuNK 在看不见的域和纤维场中实现了较低的相对误差,与传统的有限元求解器相比,显着地加速了预测。
发布时间: 10/8/2024
查看原文
作者: Chengyuan Xu, Radha Kumaran, Noah Stier, Kangyou Yu, Tobias H\"ollerer
增强现实中虚拟世界与物理世界的无缝融合得益于系统对物理环境的语义“理解”。增强现实研究长期以来一直关注情境感知的潜力,展示了利用 3D 环境中的语义信息来实现各种对象级交互的新功能。与此同时,计算机视觉领域在神经视觉语言理解方面取得了飞跃,以增强环境感知,为自主任务提供支持。在这项工作中,我们介绍了一种多模态 3D 对象表示,它将语义和语言知识与几何表示相结合,从而实现用户引导的涉及物理对象的机器学习。我们首先提出了一种快速的多模态 3D 重建管道,通过将 CLIP 视觉语言特征融合到环境和对象模型中,将语言理解引入增强现实。然后,我们提出了“原位”机器学习,它与多模态表示相结合,为用户提供了新的工具和界面,使他们能够以空间和语言上有意义的方式与物理空间和对象进行交互。我们通过 Magic Leap 2 上的两个真实世界增强现实应用程序展示了所提出系统的实用性:a) 使用自然语言在物理环境中进行空间搜索,以及 b) 一个智能库存系统,用于跟踪对象随时间的变化。我们还将在 (https://github.com/cy-xu/spatially_aware_AI) 上提供我们的完整实现和演示数据,以鼓励对空间感知人工智能的进一步探索和研究。
发布时间: 10/8/2024
查看原文