arXiv 论文列表

探索自监督音频编码器中的蝙蝠鸣叫音节表示

arXiv:2409.12634v1 公告类型: 交叉摘要: 在人类生成的声音上训练的深度学习模型在区分其他物种的鸣叫类型方面表现如何？我们分析了几种自监督音频编码器中蝙蝠鸣叫音节的编码情况，发现预训练于人类语音的模型生成了最具区分性的不同音节类型表示。这些发现为跨物种迁移学习在蝙蝠生物声学中的应用奠定了初步基础，同时也加深了对音频编码器模型中分布外信号处理的理解。

发布时间: 9/20/2024

查看原文

聚类模型的反事实解释

arXiv:2409.12632v1 公告类型: 交叉摘要: 聚类算法依赖于复杂的优化过程，这些过程可能难以理解，尤其是对于缺乏技术专业知识的人来说。虽然有许多可解释的人工智能技术用于监督机器学习，但无监督学习——特别是聚类——在很大程度上被忽视了。更复杂的是，“真实”聚类的概念本身就难以定义。这些无监督学习和其可解释性的方面使得难以建立对这些方法的信任并限制其采用。为了应对这些挑战，我们提出了一种新的、与模型无关的技术，通过反事实陈述来解释聚类算法。我们的方法依赖于一种新颖的软评分方法，该方法捕捉了聚类模型所利用的空间信息。它基于一种最先进的贝叶斯反事实生成器，用于监督学习，以提供高质量的解释。我们在五个数据集和两种聚类算法上评估了其性能，并证明引入软评分来指导反事实搜索显著改善了结果。

发布时间: 9/20/2024

查看原文

在不完全信息下无需通信的学习协调

arXiv:2409.12397v1 公告类型: 新文章摘要: 在合作游戏中实现无缝协调是人工智能中的一个关键挑战，尤其是在玩家处于不完全信息的情况下。缓解这种信息不对称的一种常见策略是利用显式通信。然而，由于传输损失等因素，直接通信并不总是可行的。我们探讨了在没有口头通信的情况下，如何通过仅观察彼此的行为来实现有效的协调。我们展示了自主代理如何通过解释其合作伙伴的行为来学习合作，这些行为被用来暗示其意图。我们的方法涉及通过为每种可能的行为构建确定性有限自动机，并将它们集成到一个非马尔可夫有限状态转换器中，来开发代理策略。该转换器代表代理的非确定性策略，在游戏过程中建议行动以协助其合作伙伴。在名为“夜之侏儒”的测试平台上进行的实验结果表明，所学习的无通信协调策略在成功率和完成游戏所需的步骤数量上显著优于未协调的场景，几乎与具有直接通信的预言基线表现相当。

发布时间: 9/20/2024

查看原文

CamelEval：推进文化对齐的阿拉伯语言模型与基准

大型语言模型（LLMs）是现代人工智能系统的基石。本文介绍了Juhaina，一个专门为阿拉伯语使用者设计的阿拉伯语-英语双语LLM，旨在与其价值观和偏好相契合。Juhaina天然支持指令跟随、开放式问答、信息提供和文本处理等高级功能。我们的模型包含92.4亿参数，训练时上下文窗口可达8192个token。本文详细阐述了Juhaina的创建过程，并提供了广泛的实证评估。此外，我们指出了广泛采用的Open Arabic LLM Leaderboard（OALL）的局限性，并提出了新的评估基准CamelEval。我们的研究结果表明，Juhaina在生成阿拉伯语的有用响应、提供关于该地区的准确信息以及理解微妙的跨文化方面，超越了Llama和Gemma系列等现有同规模LLMs。我们期望Juhaina能够普及尖端AI技术，通过提供不仅使用其语言而且理解其文化的LLMs，服务于超过4亿阿拉伯语使用者。我们已在Huggingface公开发布所有模型，链接为\url{https://huggingface.co/elmrc}。

发布时间: 9/20/2024

查看原文

使用大型语言模型自动形式化游戏描述

arXiv:2409.12300v1 公告类型: 新提交摘要: 博弈论是一个强大的框架，用于推理战略互动，其应用领域从日常生活到国际政治不等。然而，在这些情境中应用形式化推理工具是具有挑战性的，因为这些场景通常以自然语言表达。为了解决这一问题，我们引入了一个用于博弈论场景自动形式化的框架，该框架将自然语言描述转化为适合形式化求解器的逻辑表示。我们的方法利用了一次性提示和一个提供语法正确性反馈的求解器，使大型语言模型（LLMs）能够改进代码。我们使用GPT-4o和一组自然语言问题描述的数据集对框架进行了评估，实现了98%的语法正确性和88%的语义正确性。这些结果展示了LLMs在弥合现实生活中的战略互动与形式化推理之间差距的潜力。

发布时间: 9/20/2024

查看原文

思维迭代：利用内部对话实现自主大型语言模型推理

迭代人类参与是利用大型语言模型（LLMs）高级语言处理能力的常见且有效手段。通过在对话中使用结构良好的提示，人类用户可以有效影响LLM，使其生成更具思考性和准确性的响应。受此启发，我们提出了“思维迭代”（IoT）框架，通过生成“启发性”提示来增强LLM的响应，这些提示基于输入查询和LLM当前迭代的响应。与静态或半静态方法（如思维链（CoT）或思维树（ToT））不同，IoT根据不断演变的上下文动态调整其推理路径，且不会生成最终被丢弃的替代探索性思维。IoT框架的三个组成部分是：（1）负责生成具有指导性、上下文特定提示的内部对话代理（IDA）；（2）处理这些提示以优化其响应的LLM代理（LLMA）；（3）实现前两个组件之间对话的迭代提示循环。我们介绍了框架的两个变体：自主思维迭代（AIoT），其中LLM决定何时停止迭代；以及强制固定迭代次数的引导思维迭代（GIoT）。我们在多个数据集上研究了IoT的性能，涵盖从GPQA数据集的复杂推理任务、24点游戏的探索性问题解决、Mini Crosswords的谜题解决，到HotpotQA数据集的多跳问答。结果表明，IoT代表了LLM自主响应优化的可行范式，显著优于CoT，从而实现了更具适应性和效率的推理系统，最大限度地减少了人类干预。

发布时间: 9/20/2024

查看原文

RAG-Modulo: 使用经验、批评家和语言模型解决序列任务

大型语言模型（LLMs）最近作为解决具有动作和观察不确定性的复杂机器人任务的有力工具而崭露头角。最近基于LLM的决策方法（也称为基于LLM的代理），在与适当的批评者结合时，展示了在相对较少的交互中解决复杂、长期任务的潜力。然而，大多数现有的基于LLM的代理缺乏保留和从过去交互中学习的能力——这是基于学习的机器人系统的基本特征。我们提出了RAG-Modulo框架，该框架通过记忆过去的交互并结合批评者来评估代理的决策，从而增强基于LLM的代理。记忆组件使代理能够自动检索并整合相关的过去经验作为上下文示例，为更明智的决策提供上下文感知的反馈。此外，通过更新其记忆，代理随着时间的推移提高其性能，从而表现出学习能力。通过在具有挑战性的BabyAI和AlfWorld领域进行的实验，我们展示了任务成功率和效率的显著提升，表明所提出的RAG-Modulo框架优于最先进的基线。

发布时间: 9/20/2024

查看原文

通过主动视觉和零样本学习增强农业环境感知

arXiv:2409.12602v1 公告类型: 交叉摘要: 农业，作为人类生存的基础，正面临前所未有的挑战。高效、人机协作和可持续的耕作方法的需求从未如此迫切。本研究的核心贡献在于利用主动视觉（AV）技术和零样本学习（ZSL）来提升机器人在水果采摘背景下感知和与农业环境互动的能力。在ROS 2中实现的AV管道集成了用于通过动态3D占用图进行3D环境重建的下一最佳视图（NBV）规划。我们的系统允许机器人手臂动态规划并移动到最具信息量的视点，探索环境，并使用通过ZSL模型生成的语义信息更新3D重建。仿真和真实世界的实验结果证明了我们的系统在复杂可见性条件下的有效性，优于传统的和静态预定义规划方法。所采用的ZSL分割模型，如YOLO World + EfficientViT SAM，表现出高速性能和精确的分割能力，能够在处理未知农业环境中的语义信息时保持灵活性，无需任何微调过程。

发布时间: 9/20/2024

查看原文

测试时增强与变分贝叶斯的结合

数据增强已被证明对提升机器学习模型的鲁棒性具有显著贡献。在大多数情况下，数据增强技术在训练阶段被应用。然而，测试时增强（Test-Time Augmentation, TTA）则是一种在测试阶段利用这些数据增强技术以实现鲁棒预测的方法。具体而言，TTA通过对同一实例进行多次数据增强并平均其预测结果来生成最终预测。尽管TTA的有效性已在实证研究中得到报告，但其预测性能的提升显然依赖于测试阶段所采用的数据增强方法集合。特别是，这些数据增强方法对性能的贡献应有所不同。换言之，我们预期在用于TTA的数据增强方法集合中，各方法的贡献程度可能存在差异，这种差异可能对预测性能产生负面影响。在本研究中，我们提出了一种基于各数据增强方法贡献度的加权TTA版本。某些TTA变体可以视为在解决确定适当权重的问题。我们证明，这种加权TTA的系数确定问题可以在变分贝叶斯框架下进行形式化。此外，我们还展示了通过优化权重以最大化边际对数似然，可以在测试阶段抑制不必要的数据增强候选方法。

发布时间: 9/20/2024

查看原文