arXiv 论文列表

作者: Xinzhe Li

arXiv:2501.10069v4 宣告类型: 替换摘要：通过搜索进行大规模语言模型测试时的计算（或大规模语言模型推理）已经成为了充满 promise 的研究领域，伴随着迅速的发展。然而，当前的框架在任务定义、大规模语言模型（LLM）剖析和搜索程序三个方面通常采取不同的视角，这使得直接比较变得困难。此外，所使用的搜索算法往往与标准实现有所不同，并且其具体的特性也没有被充分说明。本文综述旨在提供一个全面但整合的技术审查，涵盖现有的 LIS 框架。具体来说，我们统一了任务定义在马尔可夫决策过程（MDP）之下，并提供了大型语言模型剖析和搜索程序的模块化定义。这些定义使得各种大型语言模型推理框架之间能够进行精确比较，同时突出了它们与传统搜索算法的区别。我们还讨论了这些方法的应用性、性能和效率。对于论文的最新更新，请参考我们的 GitHub 存储库：https://github.com/xinzhel/LLM-Search。

发布时间: 4/29/2025

查看原文

一种利用语音和文本信息进行构音障碍检测及其严重程度评估的多模态方法

作者: Anuprabha M, Krishna Gurugubelli, V Kesavaraj, Anil Kumar Vuppala

arXiv:2412.16874v4 通告类型: 重新提交摘要：自动检测和评估失语症的严重程度对于提供针对性的治疗方法至关重要。尽管目前大多数现有的研究主要集中在语音模态，本研究提出了一种新的方法，同时利用了语音和文本模态。通过使用跨注意力机制，我们的方法学习了语音和文本表示之间的声学和语言相似性。该方法具体评估了不同严重程度下的发音偏差，从而提高了失语症检测和严重程度评估的准确性。所有实验均使用了UA-Speech失语症数据库。当使用依赖说话者和独立于说话者、未见过的词和见过的词设置时，检测准确率分别提高了99.53%和93.20%，严重程度评估准确率分别达到了98.12%和51.97%。这些发现表明，通过整合文本信息，即提供了参考语言知识，开发出了一种更 robust 的框架来检测和评估失语症，从而有可能导致更有效的诊断。

发布时间: 4/29/2025

查看原文

大规模语言模型的准随机多样本推理

作者: Aditya Parashar, Aditya Vikram Singh, Avinash Amballa, Jinlin Lai, Benjamin Rozonoyer

arXiv:2411.06251v2 宣告类型: 替换摘要: 大型语言模型（LLMs）通常配备了多样本解码策略。一个LLM隐式定义了一个算术编码本，这使得使用准随机代码进行高效的、几乎是并行化的**算术采样**来产生多个样本成为可能。传统的文本生成方法，如束搜索和基于采样的技术，有着明显的局限性：它们缺乏并行化能力或采样序列的多样性。本研究探讨了算术采样的潜在优势，将其与祖先采样方法进行了对比，在两种采用多样本推断的解码任务中进行了研究：具有自一致性的心灵风暴推理和具有最小贝叶斯风险解码的机器翻译。我们的结果显示，随着样本数量的增加，算术采样生成的样本具有更高的多样性，显著提高了推理和翻译性能。使用算术采样在GSM8K数据集上观察到准确性提高了$\mathbf{3\text{-}5\%}$，在WMT19任务上观察到COMET分数提高了$\mathbf{0.45\text{-}0.89\%}$，而没有任何显著的计算开销。

发布时间: 4/29/2025

查看原文

多agent大型语言模型 ensemble 用于高效心房颤动心电图报告标注

作者: Jingwei Huang, Kuroush Nezafati, Ismael Villanueva-Miranda, Zifan Gu, Yueshuang Xu, Ann Marie Navar, Tingyi Wanyan, Qin Zhou, Bo Yao, Ruichen Rong, Xiaowei Zhan, Guanghua Xiao, Eric D. Peterson, Donghan M. Yang, Wenqi Shi, Yang Xie

arXiv:2410.16543v2 声明类型: 替换摘要：本研究介绍了一种由大语言模型（LLM）驱动的新型多智能体集成方法，旨在解决机器学习中的关键挑战——数据标记，特别是在大规模电子健康记录（EHR）数据集中。手动标记此类数据集需要领域专业知识并且劳动密集型、耗时、昂贵且容易出错。为克服这一瓶颈，我们开发了一种集成大语言模型的方法，并在两个实际任务中验证了其有效性：(1) 对MIMIC-IV中的大规模未标记心电图（ECG）数据集进行标记；(2) 从EHR中的临床笔记中识别健康的社会决定因素（SDOH）。在权衡利益和成本后，我们选择了具有满意性能的多样化的开源大语言模型池。我们将每个大语言模型的预测视为一票，并采用基于简单多数投票机制的集成方法，设定最低获胜门槛。我们实现了用于EHR数据标记任务的集成大语言模型应用。通过使用集成大语言模型和自然语言处理技术，我们对MIMIC-IV中的包含623,566份心电图报告的大数据集进行了标记，估计准确率为98.2%。我们应用集成大语言模型方法从1,405份EHR临床笔记的社会历史部分中识别SDOH，也取得了竞争性的表现。实验结果显示，集成大语言模型在某些情况下甚至超过了目前最好的商业大语言模型，并且该方法减少了幻觉错误。通过研究，我们发现：(1) 集成大语言模型方法显著减少了大规模EHR数据标记所需的时间和努力，实现了高准确性和高质量的自动化过程；(2) 该方法在其他文本数据标记任务中表现出良好的通用性，如其在SDOH识别中的应用所示；(3) 一组多样化的集成大语言模型在某些情况下甚至能够超过或匹配最佳个体大语言模型的性能；(4) 集成方法大幅减少了幻觉错误。该方法提供了可扩展且高效的解决数据标记挑战的方案。

发布时间: 4/29/2025

查看原文

基于通道意识的 Cooperative Data Fusion ustral 动车辆 throughput 最大化

作者: Haonan An, Zhengru Fang, Yuang Zhang, Senkang Hu, Xianhao Chen, Guowen Xu, Yuguang Fang

arXiv:2410.04320v2 公告类型: 替换摘要：联网和自主车辆（CAVs）因其扩展的感知范围和增强的感测覆盖范围而引起了广泛关注。为了解决诸如盲区和障碍等问题，CAVs 采用车辆到车辆（V2V）通信来聚合周围车辆的感测数据。然而，协作感知往往受到可实现网络吞吐量和信道质量的限制。在本文中，我们提出了一种基于信道感知的吞吐量最大化方法，以促进CAV数据融合，利用自我监督的自编码器进行自适应数据压缩。我们将问题形式化为混合整数规划（MIP）模型，并将其分解为两个子问题，以在给定链路条件下推导出最优数据速率和压缩比解决方案。然后，根据确定的压缩比对自编码器进行训练以最小化比特率，并采用微调策略进一步减少频谱资源消耗。在OpenCOOD平台上的实验评估表明，我们提出的算法的有效性，与最先进的方法相比，在网络吞吐量方面提高了20.19\%，平均精度（AP@IoU）平均提高了9.38\%，且最优延迟为19.99毫秒。

发布时间: 4/29/2025

查看原文

AI-LieDar：考察大型语言模型代理在有用性和真实性之间的权衡

作者: Zhe Su, Xuhui Zhou, Sanketh Rangreji, Anubha Kabra, Julia Mendelsohn, Faeze Brahman, Maarten Sap

arXiv:2409.09013v2 通知类型: 修改摘要：真实性（遵守事实准确性）和实用性（满足人类需求和指令）是大型语言模型的基本方面，然而这些目标常常会产生冲突（例如，推销有已知缺陷的汽车），这使得在实际部署中同时实现这两个目标变得具有挑战性。我们提出了一种AI-LieDar框架，以研究基于大语言模型的代理在多轮交互设置中如何应对这些场景。我们设计了一组现实世界的场景，在这些场景中，语言代理在与模拟的人类代理进行多轮对话时被指示实现与真实性的冲突目标。为了大规模评估真实性，我们开发了一种灵感来自心理学文献的真实性的检测器，以评估代理的响应。我们的实验表明，所有模型在不到50%的时间内是真实的，尽管不同模型在真实性和目标实现（实用性）方面的比率各不相同。我们进一步测试了对大语言模型进行真实性引导的能力，发现模型可以被引导变得真实或欺骗，即使是被真实性引导的模型也会撒谎。这些发现揭示了大型语言模型中真实性复杂性，并强调了进一步研究以确保大型语言模型和基于大型语言模型的代理的安全和可靠部署的重要性。

发布时间: 4/29/2025

查看原文

Geo-Llama：利用大语言模型生成符合时空约束的人类移动轨迹

作者: Siyu Li, Toan Tran, Haowen Lin, John Krumm, Cyrus Shahabi, Lingyi Zhao, Khurram Shafique, Li Xiong

arXiv:2408.13918v4 公告类型: 替换摘要: 生成现实的人类移动数据对于交通、城市规划和传染病控制等各个应用领域至关重要，但由于真实数据因成本高和隐私问题对研究人员而言通常不可获取，现有的深度生成模型通过学习真实轨迹来生成合成轨迹。尽管取得了进展，但大多数方法仍存在训练稳定性问题，并且随着数据量的增加扩展能力较差。更重要的是，它们往往缺乏控制机制，在受特定访问限制等约束的情况下指导生成的轨迹。为解决这些限制，我们正式定义了一个受控轨迹生成问题，以有效处理多种时空约束。我们引入了Geo-Llama，这是一种新颖的LLM微调框架，可以在生成的轨迹中强制执行多个显式访问约束，同时保持生成轨迹的上下文连贯性。在该方法中，预训练的LLM在具有访问权序列置换策略的轨迹数据上进行微调，其中每次访问对应特定时间和地点。这种策略使得模型能够在忽略访问顺序的情况下捕捉时空模式，并通过生成过程中的提示实现灵活且上下文相关的约束集成。在真实世界和合成数据集上的广泛实验验证了Geo-Llama的有效性，证明了它在处理广泛范围的约束方面具备灵活性和鲁棒性，相较于现有方法能够生成更加现实的轨迹。

发布时间: 4/29/2025

查看原文

暴露隐私差距：针对LLM对齐的偏好数据成员推断攻击

作者: Qizhang Feng, Siva Rajesh Kasa, Santhosh Kumar Kasa, Hyokun Yun, Choon Hui Teo, Sravan Babu Bodapati

arXiv:2407.06443v2 公告类型: 替换摘要：由于大型语言模型（LLMs）在自然语言处理方面表现出色，它们得到了广泛应用。然而，在实际部署它们时，重要的是使LLMs生成符合人类标准的文本。诸如 proximal 策略优化（PPO）和直接偏好优化（DPO）的方法已经能够让通过人类偏好的数据来精炼LLMs取得显著进展。然而，利用这些偏好数据的隐私问题尚未得到充分研究。在本文中，我们研究了使用两种广泛使用的方法——DPO 和 PPO 对齐的LLMs 对成员身份推断攻击（MIAs）的脆弱性。我们的研究有两个主要贡献：首先，我们从理论上阐述了与PPO模型相比，DPO模型更容易受到 MIAs的影响；其次，我们介绍了一种特别用于分析偏好数据的新颖基于参考的攻击框架，称为PREMIA（Preference数据MIA）。使用PREMIA和现有基线，我们实证显示DPO模型对于MIAs表现出相对较高的脆弱性。

发布时间: 4/29/2025

查看原文

我们可以忘记我们是如何学习的吗？迭代信念修订中的doxastic冗余

作者: Paolo Liberatore

arXiv:2402.15445v2 宣告类型: 更换摘要: 忘记一个信念获取阶段可能不会导致信息丢失，因为还有其他信念。检查是否会导致信息丢失并不明显，因为每个信念修正的贡献并不是孤立的，同样的信息可能不是直接给出的，而是通过推理给出的。给出了几种迭代信念修正算子（词典序、自然、严重、平稳严重、适度严重、限制性、非常激进和全体相交修正）的检查算法，以确定遗忘是否减少了信息。在最坏的情况下，这可能需要指数级别的计算时间，考虑到问题即使在Horn约束下也是coNP难的。对于词典序修正的同质序列，该问题是coNP的。

发布时间: 4/29/2025

查看原文

迭代信念修订中的状态表示

作者: Paolo Liberatore

arXiv:2305.09200v3 公告类型：替换摘要：迭代信念修正需要关于当前信念的信息。这些信息由称为信念状态的数学结构来表示。大多数文献集中在如何修正一个信念状态，而忽略了它可能呈指数增长的问题。这个问题在最常见的存储信念状态的方法中进行了研究。所有四种方法都能够存储每一个信念状态，但其中有些方法相对于其他方法占用的空间更少。特别是，显式表示（当前信念的枚举）在空间上更为浪费。层级表示（命题公式序列）和自然表示（自然修正的历史）比它更为紧凑。词典序表示（词典序修正的历史）甚至比它们更为紧凑。

发布时间: 4/29/2025

查看原文