arXiv 论文列表

移动操作的零成本全身遥操作

演示数据在学习复杂行为和训练机器人基础模型中起着关键作用。尽管对于静态操作器存在有效的控制接口，但由于移动操作器具有大量自由度，数据收集仍然繁琐且耗时。虽然专用硬件、化身或运动追踪可以实现全身控制，但这些方法要么昂贵，要么特定于机器人，或者存在机器人与人类演示者之间的实体不匹配问题。在这项工作中，我们提出了MoMa-Teleop，一种新颖的远程操作方法，将基座运动委托给强化学习代理，使操作员能够完全专注于与任务相关的末端执行器运动。这使得通过标准接口（如操纵杆或手引导）实现移动操作器的全身远程操作，无需额外硬件或设置成本。此外，操作员不受跟踪工作区的限制，可以与机器人一起自由移动，执行空间扩展任务。我们证明，我们的方法在各种机器人和任务中显著减少了任务完成时间。由于生成的数据涵盖了多样化的全身运动且不存在实体不匹配，因此能够实现高效的模仿学习。通过专注于任务特定的末端执行器运动，我们的方法从仅有的五个演示中学习到的技能能够转移到未见过的环境中，如新的障碍物或物体位置的变化。我们在http://moma-teleop.cs.uni-freiburg.de提供代码和视频。

发布时间: 9/24/2024

查看原文

M2OST：利用多对一回归预测数字病理图像中的空间转录组学

arXiv:2409.15092v1 公告类型: 交叉摘要: 空间转录组学(ST)的进步促进了基于组织病理学图像的基因表达空间感知分析。尽管ST数据为肿瘤微环境提供了宝贵的见解，但其获取成本仍然高昂。因此，直接从数字病理图像预测ST表达是理想的。当前的方法通常采用现有的回归骨干网络结合补丁采样来完成此任务，这忽略了数字病理图像金字塔数据结构中固有的多尺度信息，并且浪费了对于准确基因表达预测至关重要的点间视觉信息。为了解决这些限制，我们提出了M2OST，一种多对一回归Transformer，它通过解耦的多尺度特征提取器来适应病理图像的分层结构。与传统模型通过一对一的图像-标签对进行训练不同，M2OST使用来自数字病理图像不同层次的多个图像来联合预测其共同对应点的基因表达。基于我们的多对一方案，M2OST可以轻松扩展以适应不同数量的输入，并且其网络结构自然地结合了邻近点间特征，增强了回归性能。我们在三个公开的ST数据集上测试了M2OST，实验结果表明，M2OST可以在更少的参数和浮点运算(FLOPs)下实现最先进的性能。代码将在接受后发布。

发布时间: 9/24/2024

查看原文

抑郁症诊断对话模拟：具备三级记忆的自进化精神科医生

arXiv:2409.15084v1 公告类型: 交叉摘要: 心理健康问题，尤其是抑郁症，在当代社会中呈现出重大挑战，迫切需要开发有效的自动化诊断方法。本文介绍了Agent Mental Clinic（AMC），这是一个自我改进的对话代理系统，旨在通过患者与精神科医生代理之间的模拟对话来增强抑郁症诊断。为了提高对话质量和诊断准确性，我们设计了一个精神科医生代理，该代理包含三级记忆结构、对话控制与反思插件（作为“监督者”）以及记忆采样模块，全面利用精神科医生代理所反映的技能，通过对话实现对抑郁风险和自杀风险的高准确性诊断。在真实场景中收集的数据集上的实验结果表明，该系统模拟了精神科医生的培训过程，即使只有少数代表性的标记案例可用，也能成为一种有前景的优化方法，使LLMs与特定领域的真实分布相匹配，而无需修改LLMs的权重。

发布时间: 9/24/2024

查看原文

通过从出版物中提取增强生成来自动创建生物计算对象，以增强科学可重复性

arXiv:2409.15076v1 公告类型: 交叉摘要: 计算能力和可访问性的指数级增长已经改变了生物信息学研究的复杂性和规模，迫切需要标准化文档以确保透明度、可重复性和法规遵从性。IEEE BioCompute Object (BCO) 标准解决了这一需求，但由于创建合规文档的额外开销，尤其是在遗留研究中，面临着采用挑战。本文提出了一种利用检索增强生成 (RAG) 和大型语言模型 (LLMs) 自动从科学论文中创建 BCO 的新方法。我们描述了 BCO 助手工具的开发，该工具利用 RAG 从源论文和相关代码库中提取相关信息，解决了诸如 LLM 幻觉和长上下文理解等关键挑战。该实现包括优化的检索过程，包括两遍检索与重新排序，并采用精心设计的提示词来处理每个 BCO 领域。我们讨论了该工具的架构、可扩展性和评估方法，包括自动化和手动评估方法。BCO 助手展示了显著减少生物信息学研究事后文档编制所需时间和精力的潜力，同时保持与标准的合规性。这种方法为 AI 辅助的科学文档编制和从出版物中提取知识开辟了途径，从而增强了科学的可重复性。BCO 助手工具和文档可在 https://biocompute-objects.github.io/bco-rag/ 获取。

发布时间: 9/24/2024

查看原文

WMT 2024 兄弟会：利用 LLM 生成上下文对话进行跨语言图像描述

本文描述了我们以团队名称Brotherhood参加的英语到低资源多模态翻译任务的系统。我们参与了英语-印地语、英语-豪萨语、英语-孟加拉语和英语-马拉雅拉姆语等多模态翻译任务。我们提出了一种利用多模态大型语言模型（LLMs），特别是GPT-4o和Claude 3.5 Sonnet，来增强跨语言图像描述的方法，无需传统的训练或微调。我们的方法利用指令调整的提示生成关于裁剪图像的丰富、上下文相关的对话，使用其英语描述作为额外上下文。这些合成对话随后被翻译成目标语言。最后，我们采用了一种加权提示策略，平衡原始英语描述与翻译后的对话，以生成目标语言的描述。该方法取得了有竞争力的结果，在英语-印地语挑战集上获得了37.90的BLEU分数，并在挑战和评估排行榜上分别在英语-豪萨语上排名第一和第二。我们对250张图像的子集进行了额外实验，探索了不同加权方案下BLEU分数与语义相似性之间的权衡。

发布时间: 9/24/2024

查看原文

多语言机器翻译任务中仅解码器模型的扩展规律

arXiv:2409.15051v1 公告类型: 交叉摘要: 最近的研究展示了仅解码器模型在包括翻译在内的许多自然语言处理任务中的显著能力。然而，机器翻译领域在很大程度上仍由基于Transformer架构的编码器-解码器模型主导。因此，编码器-解码器模型的神经机器翻译扩展规律已经得到了充分研究，但仅解码器模型却受到较少关注。本研究探讨了仅解码器模型在多语言和多领域翻译任务中的扩展规律。我们在一个句子级别的多语言和多领域数据集上训练了一系列六个仅解码器模型，参数规模从70M到7B不等。我们进行了一系列实验，结果表明仅解码器模型的损失可以通过类似于大型语言模型的扩展规律来估计，但我们也发现这种扩展规律在应用于过大模型或不同数据分布时存在困难。我们还研究了不同的扩展方法，发现扩展模型的深度和宽度都能带来类似的测试损失改进，但对模型效率的影响不同。

发布时间: 9/24/2024

查看原文

AlphaZip：神经网络增强的无损文本压缩

arXiv:2409.15046v1 公告类型: 交叉摘要: 数据压缩技术不断发展，传统的信息论方法广泛应用于文本、图像和视频的压缩。近年来，利用生成式人工智能进行预测性压缩技术引起了越来越多的关注。本文介绍了一种使用大型语言模型（LLM）的无损文本压缩方法。该方法包括两个关键步骤：首先，使用密集神经网络架构（如变换器模块）进行预测；其次，使用标准压缩算法（如自适应哈夫曼、LZ77或Gzip）对预测的排名进行压缩。广泛的分析和与传统信息论基线的基准测试表明，神经压缩提供了更好的性能。

发布时间: 9/24/2024

查看原文

区域混合

arXiv:2409.15028v1 公告类型: 交叉摘要: 本文介绍了一种简单的mixup（Zhang et al., 2018）数据增强扩展方法，以增强视觉识别任务中的泛化能力。与混合整个图像的传统mixup方法不同，我们的方法专注于结合多个图像的区域。

发布时间: 9/24/2024

查看原文

生成式大型语言模型驱动的个性化风险评估对话式人工智能应用：COVID-19案例研究

大型语言模型（LLMs）在各种自然语言任务中展现了显著的能力，并越来越多地应用于医疗健康领域。本研究展示了一种通过流式人机对话实现的新型LLM驱动的疾病风险评估方法，消除了传统机器学习方法所需的编程需求。在COVID-19严重程度风险评估的案例研究中，我们使用少量自然语言示例对预训练生成型LLMs（如Llama2-7b和Flan-t5-xl）进行微调，并将其性能与使用表格数据从头训练的传统分类器（如逻辑回归、XGBoost、随机森林）在各种实验设置下进行比较。我们开发了一款移动应用程序，该应用以这些微调后的LLMs作为其生成式AI（GenAI）核心，促进临床医生与患者之间的实时互动，通过对话界面提供无代码风险评估。这种集成不仅允许使用流式问答作为输入，还提供了从LLM注意力层导出的个性化特征重要性分析，增强了风险评估的可解释性。通过在有限数量的微调样本下获得高曲线下面积（AUC）分数，我们的结果展示了生成型LLMs在低数据环境下超越判别分类方法的潜力，突显了其在现实世界中的适应性和有效性。本研究旨在填补利用生成型LLMs进行交互式无代码风险评估的现有空白，并鼓励在这一新兴领域的进一步研究。

发布时间: 9/24/2024

查看原文

在Loihi 2上用于高效流序列处理的对角结构状态空间模型

深度状态空间模型（SSM）在长程序列建模任务中展示了最先进的性能。尽管SSM的递归结构可以在训练期间高效地实现为卷积或并行扫描，但当前无法在GPU上高效实现逐标记的递归处理。在此，我们展示了在英特尔Loihi 2这一最先进的神经形态处理器上高效实现SSM S4D的逐标记推断。我们将这一首次在神经形态硬件上实现的SSM应用于sMNIST、psMNIST和sCIFAR，并与Jetson Orin Nano（Jetson）上的递归和卷积实现进行比较。我们发现，在基于批处理的离线样本逐个处理模式下，Jetson表现更优，但在基于逐标记的处理模式下，Loihi 2表现更出色，其能耗降低1000倍，延迟降低75倍，吞吐量提高75倍，相较于Jetson上的递归实现。这为SSM在高效实时流应用中开辟了新的途径。

发布时间: 9/24/2024

查看原文