arXiv 论文列表

作为法官的LLM替代注释员的替代注释员测试：如何通过统计手段证明可以用LLM替代人工注释员

作者: Nitay Calderon, Roi Reichart, Rotem Dror

arXiv:2501.10970v2 宣布类型: 替换-交叉摘要: "LLM作为裁判"范式利用大型语言模型（LLMs）作为传统上由人类执行的任务中的标注者和评估者。LLM的标注被广泛使用，不仅在自然语言处理研究中，还在医学、心理学和社会科学等领域中。尽管LLM在塑造研究结果和见解方面发挥着重要作用，但尚无标准或严谨的程序来确定LLM是否能够取代人类标注者。在这篇论文中，我们提出了一种新的统计程序——替代标注者测试（alt-test），只需要少量标注示例即可证明使用LLM标注的有效性。此外，我们还介绍了用于比较LLM裁判的灵活且可解释的度量标准。为了展示我们的程序，我们收集了十个多样化的数据集，包括语言和多模态任务，并使用六种LLM和四种提示技术进行了实验。结果表明，有时可以使用闭源LLM（例如GPT-4o）来替代人类，表现出色，并且提示技术可以产生不同质量的裁判。我们希望这项研究能够鼓励更加严谨和可靠的做法。

发布时间: 2/6/2025

查看原文

大型语言模型能预测司法判决的结果吗?

作者: Mohamed Bayan Kmainasi, Ali Ezzat Shahroor, Amani Al-Ghraibah

arXiv:2501.09768v2 宣告类型: replace-cross 摘要：大型语言模型（LLMs）在跨多种领域自然语言处理（NLP）任务中展现了卓越的能力。然而，它们在低资源语言如阿拉伯语的专门任务，如法律判决预测（LJP）中的应用仍然鲜有探索。在这项工作中，我们通过从沙特商业法庭判决收集并预处理数据，填补这一空白，开发了一个阿拉伯语LJP数据集。我们使用零样本、单样本和使用QLoRA微调等不同配置方式，对标最先进的开源LLMs，包括LLaMA-3.2-3B和LLaMA-3.1-8B。此外，我们采用了综合评估框架，结合定量指标（BLEU和ROUGE）和定性评估（连贯性、法律语言、清晰度）。我们的结果表明，微调后的较小模型在特定任务中可达到与较大模型相当的性能，同时具有显著的资源效率。另外，我们还研究了提示工程和微调对模型输出的影响，提供了对性能变化和指令敏感性的见解。通过公开数据集、实现代码和模型，我们为未来阿拉伯语法律NLP的研究奠定了坚实的基础。

发布时间: 2/6/2025

查看原文

柯尔莫哥洛夫-阿诺尔德网络在时间序列格兰杰因果关系推断中的应用

作者: Meiliang Liu, Yunfang Xu, Zijin Li, Zhengye Si, Xiaoxiao Yang, Xinyue Yang, Zhiwen Zhao

arXiv:2501.08958v2 宣告类型: replace-cross 摘要: 我们提出了Granger因果推断Kolmogorov-Arnold网络(KANGCI)，这是一种新颖的架构，将最近提出的Kolmogorov-Arnold网络(KAN)扩展到因果推断领域。通过从KAN层中提取基权重，并结合稀疏性惩罚和岭正则化，KANGCI有效地从时间序列中推断出Granger因果关系。此外，我们提出了一种基于时间反转Granger因果关系的算法，该算法可以从原始或时间反转的时间序列中自动选择具有更好推断性能的原因关系，或整合结果以减轻虚假连接性。在Lorenz-96、基因调控网络、fMRI BOLD信号、VAR以及真实世界的EEG数据集上进行的综合实验表明，所提出的模型在推断非线性、高维和小样本时间序列的Granger因果关系方面达到了与最先进的方法相当的性能。

发布时间: 2/6/2025

查看原文

开发人员与AI的互动：软件工程中人类-AI协作的分类学

作者: Christoph Treude, Marco A. Gerosa

arXiv:2501.08774v2 宣告类型: 交叉替换摘要：人工智能（AI），包括大型语言模型和生成性AI，在软件开发中正在成为一股重要力量，为开发人员提供了覆盖整个开发生命周期的强大工具。尽管软件工程研究已经广泛研究了AI工具在软件开发中的应用，但开发人员与这些AI驱动工具之间具体类型的互动形式仅在最近才开始受到关注。理解并改进这些互动形式有可能提高AI驱动工作流中的生产力、信任和效率。在本文中，我们提出了一种开发人员与AI工具之间交互类型的分类，确定了 eleven 个不同的交互类型，如代码自动补全建议、命令驱动操作和对话辅助。在此分类基础上，我们概述了一个研究议程，旨在优化AI互动、提高开发人员的控制能力，并解决AI辅助开发中的信任和可用性挑战。通过建立一个有条理的基础来研究开发人员与AI的互动，本文旨在激发创建更多有效且适应性强的AI工具的研究，这些工具用于软件开发。

发布时间: 2/6/2025

查看原文

基于CVaR的变量子优化在手off感知vehicular网络中的用户关联

作者: Zijiang Yan, Hao Zhou, Jianhua Pei, Aryan Kaushik, Hina Tabassum, Ping Wang

arXiv:2501.08418v2 通知类型: 替换交叉摘要：资源的有效分配对于优化无线网络中的各种任务至关重要，通常被形式化为广义分配问题（GAP）。GAP 是广义线性总分配问题的一种形式，涉及等式和不等式约束，增加了计算上的挑战。在本文中，我们提出了一个基于条件价值 at 风险（CVaR）的变量子化本征求解器（VQE）框架，用于解决无线网络（VNets）中的GAP问题。我们的方法利用了混合量子-经典结构，将定制的成本函数集成进来，以平衡目标和特定约束的惩罚，从而提高解决方案的质量和稳定性。通过使用 CVaR-VQE 模型，我们能够在嘈杂的中间尺度量子（NISQ）设备上高效地处理 GAP，通过优化解决方案空间的低尾部部分来增强收敛性和鲁棒性。我们在 VNets 中的应用用户关联问题上应用了这一框架，其中我们的方法在对比深度神经网络（DNN）方法时实现了 23.5% 的改进。

发布时间: 2/6/2025

查看原文

Virgo：关于再现o1-like MLLM的一种初步探索

作者: Yifan Du, Zikang Liu, Yifan Li, Wayne Xin Zhao, Yuqi Huo, Bingning Wang, Weipeng Chen, Zheng Liu, Zhongyuan Wang, Ji-Rong Wen

arXiv:2501.01904v2 通知类型: 交叉替换摘要: 近来，基于大规模语言模型（LLMs）的慢思考推理系统由于在推理过程中扩展思考时间而引起了广泛关注。此外，越来越多的人开始将这种能力适应到多模态大规模语言模型（MLLMs）中。鉴于MLLMs处理不同模态的复杂数据语义，多模态慢思考系统的实施似乎更具挑战性。为了应对这一问题，本文探索了一种简单的做法，即通过少量的文本长形式思考数据对一个强大的MLLM进行微调，从而得到一个多模态慢思考系统，Virgo（视觉推理与长思考）。我们发现，这些用自然语言表达的长形式推理过程可以有效地转移到MLLMs中。此外，我们认为这种文本推理数据可能会比视觉推理数据更有效地激活MLLMs的慢思考能力。尽管这项工作尚处于初步阶段，但它证明了慢思考能力本质上与语言模型组件有关，这些能力可以在不同模态或领域之间转移。这一发现可以用来指导更强大慢思考推理系统的开发。我们已将我们的资源发布在 https://github.com/RUCAIBox/Virgo。

发布时间: 2/6/2025

查看原文

LMFusion: 调整预训练语言模型以实现多模态生成

作者: Weijia Shi, Xiaochuang Han, Chunting Zhou, Weixin Liang, Xi Victoria Lin, Luke Zettlemoyer, Lili Yu

arXiv:2412.15188v4 通知类型: replace-cross 摘要：我们介绍了LMFusion，这是一种框架，旨在增强预训练的纯文本大型语言模型（LLMs）的跨模态生成能力，使它们能够理解和生成任意序列的文本和图像。LMFusion 利用现有的 Llama-3 的权重进行自回归处理文本，同时引入额外的并行变压器模块处理通过扩散处理的图像。在训练过程中，每种模态的数据会路由到其专用模块中：专门的前馈层、查询-键-值投影和规范化层独立处理每种模态，而共享的自我注意层则允许文本和图像特征间的交互。通过冻结文本特定的模块，仅训练图像特定的模块，LMFusion 保留了纯文本LLM的语言能力，同时发展了强大的视觉理解和生成能力。与从头开始预训练跨模态生成模型的方法相比，我们的实验结果表明，LMFusion 使用只有50%的FLOPs，图像理解能力提高了20%，图像生成能力提高了3.6%，同时保持了Llama-3的语言能力。我们还展示了该框架可以适应现有的具有跨模态生成能力的图语模型。总体而言，该框架不仅利用了现有的文本仅限的LLM的计算投资，而且还促进了语言和视觉能力的同时开发，展示了高效跨模态模型开发的前景。

发布时间: 2/6/2025

查看原文

懒惰：大型语言模型技能的标度律预测跨家族多基准性能

作者: Felipe Maia Polo, Seamus Somerstep, Leshem Choshen, Yuekai Sun, Mikhail Yurochkin

arXiv:2412.06540v4 宣告类型: replace-cross 摘要：大规模语言模型（LLM）的标度定律基于参数大小和训练数据等指标预测模型性能。然而，模型家族之间的训练配置和数据处理差异导致基准性能显著不同，使得单一的标度定律难以适用于所有LLM。另一方面，针对特定训练家族的标度定律需要为每个家族训练不同大小的模型。在本文中，我们提出了技能标度定律（SSLaws，读作Sloth），这是一种新颖的标度定律，它利用公开的基准数据假设LLM的性能由低维度的潜在技能驱动，如推理和指令跟随。这些潜在技能受计算资源如模型大小和训练令牌的影响，但不同模型家族的效率不同。Sloth 利用不同基准之间的相关性来提供更准确和可解释的预测，从而减轻针对每个家族训练多个LLM的需求。我们分别在理论上对参数识别结果进行了阐述，并在Open LLM Leaderboard v1/v2的12个主要基准上进行了实证评估，证明了Sloth能够高效预测LLM的性能，并提供了复杂下游任务和增加测试时计算量的标度行为见解。

发布时间: 2/6/2025

查看原文

面向测试时适应的标签分布偏移感知预测精炼

作者: Minguk Jang, Hye Won Chung

arXiv:2411.15204v2 宣告类型: replace-cross 摘要: 测试时适应（TTA）是一种在模型遇到测试时输入分布变化时减轻训练模型性能下降的有效方法。然而，现有的TTA方法在面对额外的类别分布变化时往往会遭受显著的性能下降。我们首先在标签分布变化下分析TTA方法，并识别出在不同协变量变化中常见的类别间的混淆模式。基于这一观察，我们引入了标签分布变化意识的预测精炼方法（DART），这是一种新颖的TTA方法，通过关注类别间的混淆模式来细化预测。DART 在中间时间通过使用训练数据集将多个具有不同类别分布的批次暴露给预测精炼模块进行训练。然后，在测试时使用该模块来检测和纠正类别分布变化，显著提高测试数据的伪标签准确性。在没有标签分布变化的条件下，该方法表现出色，而仅在CIFAR-10C的标签分布变化下实现5-18%的准确度提升。广泛的实验表明，DART 能够纠正由测试时分布变化引起的不准确预测，从而增强现有TTA方法的性能。这一改进使DART成为有价值的插件工具。

发布时间: 2/6/2025

查看原文

大型语言模型在定性研究中的应用——一项系统映射研究

作者: Cau\~a Ferreira Barros, Bruna Borges Azevedo, Valdemar Vicente Graciano Neto, Mohamad Kassab, Marcos Kalinowski, Hugo Alexandre D. do Nascimento, Michelle C. G. S. P. Bandeira

arXiv:2411.14473v2 宣告类型: 替换-交叉摘要：医疗、教育和社会科学领域基于文本的数据的指数增长已超过了传统质性分析方法的能力，这些方法耗时且容易受到主观性的影响。大型语言模型（LLMs），借助先进的生成AI，已成为能够自动并提升质性分析的变革性工具。本研究系统地梳理了LLMs在质性研究中的应用文献，探讨了其应用场景、配置、方法论和评估指标。研究发现，LLMs被广泛应用于不同的领域，展示了自动化传统上需要大量人力投入的过程的潜力。然而，依赖提示工程、偶尔的不准确性和上下文限制仍是重大障碍。本研究强调了将LLMs与人类专业知识融合的机会，提高模型的鲁棒性并改进评估方法论。通过对趋势进行综合分析并识别研究缺口，本研究旨在指导未来在质性分析中应用LLMs的创新。

发布时间: 2/6/2025

查看原文