arXiv 论文列表

多效应器时间规划中非平稳成本对比解释的用户研究

arXiv:2409.13427v1 公告类型: 新提交摘要: 本文在智能家居时间规划的终端用户应用中采用了对比解释。在该应用中，用户对设备任务的执行有要求，根据动态电价支付能源费用，拥有高容量电池存储，并能够向电网出售能源。设备的并发调度使得这是一个多效应规划问题，而动态电价导致成本非平稳（或者成本平稳但依赖于外部事件）。这些特性使得现有基于PDDL的规划器通常无法支持此类规划问题，因此我们设计了一个自定义的领域相关规划器，能够扩展到合理数量的设备和时间范围。我们通过基于两个用户故事的在线众包平台，对128名参与者进行了受控用户研究。结果表明，提供对比问题和解释的用户满意度更高，倾向于获得更好的理解，并且对推荐的AI调度评价更有利，相比于没有这些功能的用户。

发布时间: 9/23/2024

查看原文

大语言模型（LLMs）仍然无法规划；小语言模型（LRMs）可以吗？对 OpenAI 的 o1 在 PlanBench 上的初步评估

arXiv:2409.13373v1 公告类型: 新增摘要: 规划行动以实现预期状态的能力长期以来一直被认为是智能代理的核心能力，并且自人工智能诞生以来一直是其研究的重要组成部分。随着大型语言模型（LLMs）的出现，人们对其是否具备这种规划能力产生了浓厚的兴趣。PlanBench 是我们于 2022 年开发的、在 GPT3 发布后不久推出的一个可扩展基准测试，一直是评估 LLMs 规划能力的重要工具。尽管自 GPT3 以来涌现了大量新的私有和开源 LLMs，但在此基准上的进展却出人意料地缓慢。OpenAI 声称，他们最近推出的 o1（草莓）模型经过专门构建和训练，旨在突破自回归 LLMs 的常规限制——使其成为一种新型模型：大型推理模型（LRM）。以此发展为契机，本文全面审视了当前 LLMs 和新 LRMs 在 PlanBench 上的表现。正如我们将看到的，尽管 o1 在基准测试中的表现取得了量子级的提升，超越了竞争对手，但距离完全饱和该基准仍有很大差距。这一改进也引发了关于准确性、效率和保障措施的问题，这些问题必须在部署此类系统之前加以考虑。

发布时间: 9/23/2024

查看原文

HeadCT-ONE：实现头部CT放射报告生成细粒度与可控自动化评估

我们提出了头部CT本体标准化评估（HeadCT-ONE），这是一种通过本体标准化实体和关系提取来评估头部CT报告生成的指标。HeadCT-ONE通过实施基于特定领域本体的实体标准化，解决了放射学语言的变异性，从而增强了当前基于信息提取的指标（如RadGraph F1）。HeadCT-ONE比较标准化后的实体和关系，允许对不同实体类型或特定实体进行可控的加权。通过对来自三个医疗系统的头部CT报告进行实验，我们展示了HeadCT-ONE的标准化和加权方法提高了对语义等价报告的捕捉能力，更好地区分了正常和异常报告，并与放射科医生对临床显著错误的评估相一致，同时提供了优先考虑报告内容特定方面的灵活性。我们的结果表明，HeadCT-ONE如何实现更灵活、可控和细粒度的头部CT报告自动化评估。

发布时间: 9/23/2024

查看原文

生成世界模型中对象操作的位置信息表示

arXiv:2409.12005v2 公告类型: 替换-交叉摘要: 物体操控能力是实体代理与世界互动时区别于其他技能的关键，尤其是在机器人领域。在这种情境下，预测与物体互动结果的能力至关重要。尽管基于模型的控制方法已开始用于解决操控任务，但它们在精确操控物体方面仍面临挑战。通过分析这一局限性的原因，我们发现当前世界模型在表示关键位置信息，特别是物体定位任务的目标规范方面存在不足。我们提出了一种通用方法，使基于世界模型的代理能够有效解决物体定位任务。我们为生成世界模型提出了两种变体：位置条件（PCP）和潜在条件（LCP）策略学习。特别是，LCP采用以物体为中心的潜在表示，明确捕捉目标规范的对象位置信息。这自然导致了多模态能力的出现，使得目标可以通过空间坐标或视觉目标来指定。我们的方法在多个操控环境中进行了严格评估，显示出优于当前基于模型的控制方法的性能。

发布时间: 9/20/2024

查看原文

量子计算与全同态加密的联邦学习：隐私保护机器学习中的新型计算范式转变

arXiv:2409.11430v2 公告类型: 替换-交叉摘要: 机器学习模型驱动的广泛产品部署正在全球范围内引发对数据隐私和信息安全的担忧。为了解决这一问题，联邦学习首次被提出作为一种隐私保护的替代方案，允许多个学习客户端在不披露私有数据的情况下共享模型知识。一种互补的方法称为全同态加密（FHE），是一种量子安全的加密系统，能够在加密权重上执行操作。然而，在实践中实施这些机制通常会带来显著的计算开销，并可能暴露潜在的安全威胁。新颖的计算范式，如模拟、量子和专用数字硬件，为实现隐私保护的机器学习系统提供了机会，同时增强了安全性和减轻了性能损失。本文通过将FHE方案应用于结合经典和量子层的联邦学习神经网络架构，具体化了这些想法。

发布时间: 9/20/2024

查看原文

TTT-Unet：通过测试时训练层增强U-Net以提升生物医学图像分割效果

生物医学图像分割对于准确诊断和分析各种疾病至关重要。然而，卷积神经网络（CNNs）和Transformer是目前用于此任务的最常用架构，由于CNNs的固有局部性和Transformer的计算复杂性，它们难以有效捕捉长程依赖关系。为了解决这一限制，我们提出了TTT-Unet，这是一种将测试时训练（TTT）层集成到传统U-Net架构中的新型框架，用于生物医学图像分割。TTT-Unet在测试期间动态调整模型参数，增强了模型捕捉局部和长程特征的能力。我们在多个医学影像数据集上评估了TTT-Unet，包括CT和MR图像中的3D腹部器官分割、内窥镜图像中的器械分割以及显微镜图像中的细胞分割。结果表明，TTT-Unet在所有任务中均一致优于最先进的基于CNN和Transformer的分割模型。代码可在https://github.com/rongzhou7/TTT-Unet获取。

发布时间: 9/20/2024

查看原文

LOLA——一个开源的大规模多语言大型语言模型

本文介绍了LOLA，这是一个大规模多语言大型语言模型，采用稀疏的专家混合Transformer架构，训练于超过160种语言。我们的架构和实现选择解决了在保持效率的同时利用语言多样性并避免多语言常见陷阱的挑战。我们对评估结果的分析显示，在自然语言生成和理解任务中具有竞争力的表现。此外，我们展示了学习到的专家路由机制如何利用隐含的系统发育语言模式，以潜在地缓解多语言的诅咒。我们深入探讨了训练过程、数据集分析以及对模型优缺点的平衡探索。作为一个开源模型，LOLA促进了可重复性，并为未来的研究提供了坚实的基础。我们的发现使得能够开发出计算效率高、跨语言性能强大且可扩展的多语言模型。

发布时间: 9/20/2024

查看原文

抗体开发中的对手塑造

抗病毒疗法通常针对当前的病毒株进行设计或进化。从学习角度来看，这相当于一种短视的最佳应对策略，即不考虑对手可能的适应性行动。然而，疗法诱导的选择压力作用于病毒抗原，推动突变株的出现，使得初始疗法的效力降低。为了推动我们的研究，我们考虑了针对当前病毒株以及在抗体施加的进化压力下病毒可能演变成的广泛未来变种的抗体设计。基于抗体与病毒抗原结合的计算模型（Absolut!框架），我们设计和实施了病毒进化逃逸的遗传模拟。关键在于，这使得我们的抗体优化算法能够考虑并影响病毒的整个逃逸曲线，即引导（或“塑造”）病毒的进化。这一灵感来源于对手塑造，在一般和学习中，它考虑了合作者的适应性，而不是采取短视的最佳应对策略。因此，我们将优化的抗体称为塑造者。在我们的模拟中，我们证明了塑造者不仅针对当前的病毒株，还针对模拟的未来病毒变种，表现优于短视选择的抗体。此外，我们展示了塑造者对病毒施加的特定进化压力与短视抗体不同。总体而言，塑造者改变了病毒株的进化轨迹，并减少了病毒逃逸，相比其短视的对应物。虽然这是一个简单的模型，但我们希望我们提出的范式将有助于未来发现更持久的疫苗和抗体疗法，这得益于模拟工具能力的快速进步。

发布时间: 9/20/2024

查看原文

jina-embeddings-v3：基于任务LoRA的多语言嵌入模型

我们介绍了jina-embeddings-v3，这是一种具有5.7亿参数的新型文本嵌入模型，在多语言数据和长上下文检索任务中达到了最先进的性能，支持最长8192个标记的上下文长度。该模型包含一组任务特定的低秩适应（LoRA）适配器，用于生成高质量的嵌入，适用于查询-文档检索、聚类、分类和文本匹配。在MTEB基准测试中，jina-embeddings-v3在英语任务上优于OpenAI和Cohere的最新专有嵌入，同时在所有多语言任务中表现优于multilingual-e5-large-instruct。通过默认的1024维输出，用户可以灵活地将嵌入维度降低至最低32维，而不会影响性能，这得益于Matryoshka表示学习技术。

发布时间: 9/20/2024

查看原文

HALO：幻觉分析与学习优化，通过检索增强上下文赋能大型语言模型，以指导临床决策

大型语言模型（LLMs）在自然语言处理任务中取得了显著进展，但它们容易生成不准确或不可靠的响应，这种现象被称为幻觉。在医疗和健康等关键领域，这些幻觉可能带来严重风险。本文介绍了HALO，一种新颖的框架，旨在通过专注于幻觉的检测和缓解，提高医疗问答（QA）系统的准确性和可靠性。我们的方法利用LLMs生成给定查询的多个变体，并从外部开放知识库中检索相关信息以丰富上下文。我们使用最大边际相关性评分来优先处理检索到的上下文，然后将其提供给LLMs以生成答案，从而降低幻觉风险。LangChain的集成进一步简化了这一过程，显著且稳健地提高了开源和商业LLMs（如Llama-3.1从44%提升至65%，ChatGPT从56%提升至70%）的准确性。该框架强调了在医疗QA系统中解决幻觉问题的关键重要性，最终改善临床决策和患者护理。开源HALO可在以下网址获取：https://github.com/ResponsibleAILab/HALO。

发布时间: 9/20/2024

查看原文