arXiv 论文列表

作者: Shuai Niu, Jing Ma, Hongzhan Lin, Liang Bai, Zhihua Wang, Yida Xu, Yunya Song, Xian Yang

arXiv:2411.07611v2 宣告类型: replace-cross 摘要：解释对于疾病诊断至关重要，但现有模型难以平衡预测精度与人类可理解的推理原因。虽然大语言模型（LLMs）提供了强大的推理能力，但由于计算成本高和受限的跨模态推理能力，其在临床中的应用受到限制。小型语言模型（SLMs）效率高但缺乏高级跨模态医学数据整合能力。此外，LLMs 和 SLMs 在可信赖推理方面的领域知识也有所欠缺。因此，我们提出了 ClinRaGen，通过利用 LLM 引擎化的推理能力来增强 SLMs，结合推理提炼和领域知识注入，以实现可信的跨模态推理生成。关键技术包括一个顺序推理提炼框架，使 SLMs 具备与 LLM 相媲美的跨模态推理能力，以及一种增强知识的注意机制，它可以统一时间序列和文本数据的多模态表示，在同一个编码空间中自然地被 SLMs 解释，并结合领域知识以实现可靠的解释生成。在真实世界的医学数据集上的实验表明，ClinRaGen 在疾病诊断和解释生成方面达到了最先进的性能，表明利用 LLM 引擎化的推理与知识增强相结合以提高解释性是有效的。

发布时间: 4/28/2025

查看原文

一张图片胜过千百个数字：通过可视化帮助LLM处理时间序列数据

作者: Haoxin Liu, Chenghao Liu, B. Aditya Prakash

arXiv:2411.06018v2 宣告类型: replace-cross 摘要：大型语言模型（LLMs）在多个领域的推理能力已得到证实，但在时间序列推理（TsR）方面尚未得到充分利用，而时间序列推理在现实世界中无处不在。本文我们提出 TimerBed，这是首个全面评估LLMs TsR性能的实验平台。具体而言，TimerBed 包含了具有现实世界任务的时间序列推理层次化推理模式、LLMs 和推理策略的全面组合，以及各种监督模型作为对比基准。我们通过广泛的实验使用 TimerBed，测试了多种当前信念，并验证了 LLMs 在时间序列推理中的初始失败，证据显示单次推理（ZST）无效，少量推理上下文学习（ICL）性能下降。进一步地，我们确定了一个可能的根本原因：数据的数值建模。为了解决这一问题，我们提出了一种基于提示的方法 VL-Time，使用可视化建模的数据和语言引导的推理。实验结果表明，VL-Time 使多模态 LLMs 成为非平凡的 ZST 和强大的 ICL 时间序列推理者，实现了约 140% 的平均性能提升和 99% 的平均令牌成本降低。

发布时间: 4/28/2025

查看原文

面向任务的语义通信中的对比学习与对抗解缠结

作者: Omar Erak, Omar Alhussein, Wen Tong

arXiv:2410.22784v2 宣布类型: 交叉替换摘要：面向任务的语义通信系统已作为实现高效和智能数据传输的有前途的方法出现，其中仅传输与特定任务相关的信息。然而，当前的方法难以完全分离出任务相关和任务无关的信息，导致隐私问题和性能不佳。为解决这一问题，我们提出了一种信息瓶颈方法，称为CLAD（对比学习和对抗分离）。CLAD利用对比学习有效捕获任务相关特征，同时使用对抗分离丢弃任务无关信息。另外，由于缺乏可靠的和可重复的方法来洞察编码特征向量的信息性和最小性，我们引入了一种新的技术来计算信息保留指数（IRI），这是一种代理指标，用来衡量编码特征与输入之间互信息的程度，反映编码特征的最小性。IRI量化了不同面向任务的通信技术中编码特征向量的信息性和最小性。我们的大量实验表明，CLAD在语义提取、任务性能、隐私保护和IRI方面优于最先进的基线。CLAD实现了约2.5-3%的预测性能提升，IRI减少了77-90%，并且对抗属性推断攻击的准确性降低了57-76%。

发布时间: 4/28/2025

查看原文

FaithEval：你的语言模型即使在“月球由棉花糖组成”的情况下，能否保持对上下文的忠实？

作者: Yifei Ming, Senthil Purushwalkam, Shrey Pandit, Zixuan Ke, Xuan-Phi Nguyen, Caiming Xiong, Shafiq Joty

arXiv:2410.03727v3 宣告类型: replace-cross 摘要: 在真实世界应用中确保大型语言模型（LLM）和检索增强生成（RAG）系统对上下文的忠实性至关重要，因为错误或缺乏支持的信息可能会损害用户信任。尽管在标准基准测试上取得了进展，但幻觉忠实性——模型生成与提供的上下文不符的响应——仍然是一个重大挑战。在本文中，我们介绍了FaithEval，这是一个新颖且全面的基准，旨在评估LLM在三种不同任务下的忠实性：不可回答的、不一致的和反事实的上下文。这些任务模拟了现实世界中检索机制可能显示不完整、矛盾或伪造信息的挑战。FaithEval总共包含4900个高质量的问题，通过严格的四阶段上下文构建和验证框架进行验证，该框架包括基于LLM的自动评估和人工验证。我们在广泛使用开源和专有模型的广泛研究中发现，即使是最先进的模型也经常难以忠实于给定的上下文，而且更大的模型并不 necessarily表现出更好的忠实性。项目可在以下地址获取：https://github.com/SalesforceAIResearch/FaithEval。

发布时间: 4/28/2025

查看原文

全身末端执行器姿态跟踪

作者: Tifanny Portela, Andrei Cramariuc, Mayank Mittal, Marco Hutter

arXiv:2409.16048v2 宣布类型: replace-cross 摘要：将操作与腿足机器人的移动性相结合，对于广泛类别的机器人应用至关重要。然而，将臂部与移动底座集成显著增加了系统的复杂性，使得末梢执行器控制变得复杂。现有的基于模型的方法往往受到其建模假设的限制，导致鲁棒性有限。同时，最近的强化学习（RL）实现限制了臂部的工作空间仅在机器人前方或仅追踪位置以获得良好的跟踪准确性。在本工作中，我们通过引入一种针对粗糙无结构地形的大工作空间末梢执行器姿态跟踪的全方位强化学习表述，解决了这些限制。我们提出的方法包括一种地形感知的机器人初始配置和末梢执行器姿态命令采样策略，以及一种基于游戏的课程以扩展机器人的操作范围。我们在带有六自由度机器人臂的ANYmal四足机器人上验证了该方法。通过我们的实验，我们展示了学习控制器在大工作空间中实现精确命令跟踪，并且能够跨越不同地形（如楼梯和坡道）进行适应。部署后，它实现了姿态跟踪误差为2.64厘米和3.64度，优于现有竞争基准。

发布时间: 4/28/2025

查看原文

提示也是程序！理解开发人员如何构建包含提示的软件

作者: Jenny T. Liang, Melissa Lin, Nikitha Rao, Brad A. Myers

arXiv:2409.12447v2 提供类型: 替换-交叉摘要：生成预训练模型驱动了由数百万用户通过开发者编写的自然语言提示控制的智能软件功能。尽管提示驱动的软件对影响巨大，但对其开发过程及其与编程关系的了解却很少。在本工作中，我们提出了一些提示本身就是程序，并且提示开发是编程中一种名为“提示编程”的独特现象。我们通过针对不同上下文、模型、领域和提示结构的20名涉及提示开发的开发者的访谈，发展了对提示编程的理解。我们贡献了15个观察结果，以形成对当前提示编程实践的初步理解。例如，提示程序员不是建立代码的心理模型，而是通过与基础模型（FM）交互来建立FM在提示上的行为的心理模型。虽然先前的研究表明专家有成熟的心理模型，但我们发现开发了数十个提示的提示程序员仍然难以建立可靠的内在模型。我们的观察表明，提示编程与传统软件开发不同，这激励了提示编程工具的创建，并为软件工程利益相关者提供了启示。

发布时间: 4/28/2025

查看原文

MeTHanol：模块化思考语言模型，带有中间层思考、解码和自举推理

作者: Ningyuan Xi, Xiaoyu Wang, Yetao Wu, Teng Chen, Qingqing Gu, Yue Zhao, Jinxian Qu, Zhonglin Jiang, Yong Chen, Luo Ji

arXiv:2409.12059v4 消息类型: replace-cross 摘要：大型语言模型能够合理地理解和生成人类表达，但可能缺乏深入的思考和推理机制。最近有一些研究旨在增强语言模型的思考能力，但其中大多数不是基于数据或训练的。在本文中，我们受到自然界认知机制的启发，设计了一种名为TaS的新型模型架构，该架构允许模型首先考虑思考，然后根据查询表达响应。我们设计了几种管道来从提示-响应样本中注释或生成思考内容，然后在中间层添加语言头，该中间层充当思考层。我们通过增强后的思考数据训练语言模型，并成功使思考层自动生成合理的思考，最终输出更合理的响应。定性和定量结果都验证了TaS的有效性和性能。我们的代码可在https://anonymous.4open.science/r/TadE获取。

发布时间: 4/28/2025

查看原文

双向解码：通过引导测试时采样改进动作分段

作者: Yuejiang Liu, Jubayer Ibn Hamid, Annie Xie, Yoonho Lee, Maximilian Du, Chelsea Finn

arXiv:2408.17355v4 动作分块类型: 替换-交叉摘要: 在无需中间重规划的情况下预测和执行一系列动作，即动作分块，在从人类示范中学习机器人的领域中越来越受到重视。然而，它对学习到的策略的效果仍然存在不一致性：一些研究发现它对于获得高质量的结果至关重要，而另一些研究则观察到性能下降。在本文中，我们首先剖析了动作分块如何影响学习者与示范者之间的差异。我们发现，动作分块使得学习者能够更好地捕捉示范中的时间依赖性，但代价是减少了对意外状态的反应。为了解决这种权衡，我们提出了双向解码（BID），这是一种测试时的推理算法，它将动作分块与闭环适应结合起来。在每个时间步，BID 会采样多个候选预测，并基于两个标准来选择最优解：（i）向后连贯性，它偏向与先前决策相匹配的样本；（ii）向前对比性，它寻求为未来计划具有高似然性的样本。通过在和跨动作分块内耦合决策，BID 促进了长期一致性和短期反应性。实验结果显示，我们的方法在七个模拟基准测试和两个真实世界任务中提升了两种最先进的生成策略的性能。代码和视频可在 https://bid-robot.github.io 获得。

发布时间: 4/28/2025

查看原文

使用大型语言模型创建AI人格以复制、泛化和预测媒体效果：对133项已发表实验研究发现的实证测试

作者: Leo Yeykelis, Kaavya Pichai, James J. Cummings, Byron Reeves

arXiv:2408.16073v2 Announce Type: replace-cross 摘要：本报告分析了大规模语言模型（LLMs）加速营销领域消息效果已发表研究的准确复制和泛化的潜在能力。通过使用包含45项近期研究的14篇论文中的133项实验发现，在《营销杂志》上发表的研究，测试了LLM驱动的参与者（ personas）。对于每项研究，使用其测量方法、刺激物和抽样规范生成提示，使LLM扮演独特的角色。这些AI角色在所有研究中总计有19,447个，生成了完整的数据集。随后将统计分析与原始的人类研究结果进行了比较。LLM复制成功再现了76%的主要效应（84项中的111项），展示了AI辅助复制的强大潜力。包括交互效应在内的总复制率为68%（133项中的90项）。此外，一项测试人类结果在不同参与者样本、媒体刺激物和指标下泛化的测试表明，当测试超越原始人类研究的参数时，复制结果会发生变化。讨论了这些发现对社会科学研究中的复制和泛化危机、媒体和营销心理学理论构建加速以及快速消息测试在消费者产品中的实践优势的影响。针对复杂交互作用、AI模型中的偏差以及在营销研究中制定AI指标基准的问题，讨论了AI复制的局限性。

发布时间: 4/28/2025

查看原文

自适应不确定性量化在生成式AI中

作者: Jungeum Kim, Sean O'Hagan, Veronika Rockova

arXiv:2408.08990v2 通告类型: replace-cross 摘要：本文关注于现代应用（包括生成AI），其中黑盒模型是基于用户无法访问的数据进行训练的。类比于分劈一致推断，我们设计了一个围绕黑盒算法的包装器，用于校准一致性分数。这种校准是局部的，并分为两个阶段进行：首先自适应地将预测空间划分为组，然后按组逐段校准。自适应划分（自我分组）是通过将鲁棒回归树拟合到校准集的一致性分数上来实现的。这种新的树变种设计如下：在几乎所有情况下，增加单个新观察值不会改变树木拟合。这种增加一个观察值的鲁棒性属性使得我们可以得出有限样本组条件下的覆盖保证，这是边际保证的一种改进。此外，与传统的分劈一致推断不同，自适应划分和组内校准产生了可以局部伸缩的自适应带。我们使用非参数回归在几个模拟和实际例子中展示了局部收紧的好处。最后，我们考虑了两个现代分类应用，以获取GPT-4o预测周围的不确定性量化。我们基于自我报告的症状对皮肤疾病诊断进行了校准化处理，以及基于立法者意识形态总结对其预测状态进行了校准化处理。我们展示了局部不确定性集显著收紧的同时保持相似的边际覆盖。

发布时间: 4/28/2025

查看原文